support filter pages by data point keywords

2024-08-23 16:38:11 -05:00 · 2024-08-23 16:38:11 -05:00 · 6519dc23d4
parent 993664cf78
commit 6519dc23d4
9 changed files with 987 additions and 11 deletions
--- a/.gitignore
+++ b/.gitignore
@ -2,3 +2,4 @@
 /log
 /utils/__pycache__
 /__pycache__/*.pyc
+/core/__pycache__/*.pyc
--- a/configuration/datapoint_keyword.json
+++ b/configuration/datapoint_keyword.json
@ -0,0 +1,468 @@
+{
+  "ISIN": {
+    "english": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "spanish": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "german": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "dutch": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "french": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "finnish": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "swedish": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "danish": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "norwegian": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "lithuanian": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "polish": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "latvian": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "india（keywords）": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "estonian": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "malay": [
+      "ISIN",
+      "ISIN Code"
+    ],
+    "italian": [
+     "ISIN",
+      "ISIN Code"
+    ],
+    "portuguese": [
+      "ISIN",
+      "ISIN Code"
+    ]
+  },
+  "ter": {
+    "english": [
+      "Synthetic TER",
+      "Fund TER",
+      "TER",
+      "T.E.R",
+      "TER_REF",
+      "Total Expense Ratio",
+      "Total Expense Ratios",
+      "Expense ratio",
+      "Total Fund Charge",
+      "Gross Expense Ratio",
+      "Gross Expense Ratios",
+      "all-in-fee",
+      "all-in fee",
+      "all in fee",
+      "Total Net Expense Ratio",
+      "Total Net Expense Ratios",
+      "Total Operating Expense",
+      "Expense Ratio",
+      "Expense Ratio -Direct",
+      "Expense Ratio -Regular",
+      "month End Expense ratio",
+      "expense ratio",
+      "Expenses Ratios",
+      "Weighted AverageExpense Ratio",
+      "expenses ratio",
+      "Total Expense as % of AAuM",
+      "Total Expenses as a % of AAuM",
+      "Recurring Expenses as a percentage to Average Net Assets",
+      "Total Expenses as % of AAuM",
+      "Income and Expenditure",
+      "Expenditure at Plan level as %",
+      "Total Expenses Inclusive of Management Fees of Direct Plan",
+      "Total Expenses Inclusive of Management Fees of Regular Plan"
+    ],
+    "spanish": [
+      "Rácio da despesa total",
+      "Ratio Total de Gastos",
+      "TER",
+      "Ratio de gastos totales"
+    ],
+    "german": [
+      "Gesamtgebühren",
+      "Kostenpauschale",
+      "Gesamtkostenquote",
+      "Gesamtaufwandsquoten",
+      "Betriebskostenquote des Fonds",
+      "TER",
+      "Total Expense Ratio",
+      "Total Expense Ratios"
+    ],
+    "dutch": [
+      "Totale-kostenpercentage",
+      "Totale Kostenratio",
+      "TKR",
+      "Total Expense Ratio",
+      "Totale kostenpercentage",
+      "Totaal kostenpercentage"
+    ],
+    "french": [
+      "Total des frais sur encours",
+      "TFE",
+      "Ratios des charges totales",
+      "Frais sur encours",
+      "RCT",
+      "Total des frais sur encours",
+      "TER",
+      "Ratio des dépenses totales",
+      "Ratio de dépenses totales"
+    ],
+    "finnish": [
+      "palkkiot yhteensä",
+      "total expence ratio"
+    ],
+    "swedish": [
+      "Totalkostnadsandel",
+      "TER"
+    ],
+    "danish": [
+      "Administrationsomk",
+      "Omkostningsprocent"
+    ],
+    "norwegian": [
+      "TER",
+      "Kostnadsratio"
+    ],
+    "lithuanian": [
+      "Bendrųjų išlaidų koeficientas",
+      "Bendrasis metinis išlaidų rodikli"
+    ],
+    "polish": [
+      "Współczynnik kosztów całkowitych",
+      "WKC"
+    ],
+    "latvian": [
+      "Kopējo izdevumu koeficients",
+      "KIK"
+    ],
+    "india（keywords）": [
+      "Expenditure",
+      "expense ratio",
+      "ratio of",
+      "gross expense"
+    ],
+    "estonian": [
+      "Kogukulude suhe",
+      "Kogukulude suhe aasta lõikes"
+    ],
+    "malay": [
+      "NPP",
+      "Nisbah Perbelanjaan Pengurusan"
+    ],
+    "italian": [
+      "TER",
+      "Total Expense Ratio",
+      "Coefficienti di spesa totale",
+      "Coefficiente di spesa totale"
+    ],
+    "portuguese": [
+      "Taxa Global de custos",
+      "Quocientes de Despesa Total",
+      "Totale kostenpercentage"
+    ],
+    "hungarian": [
+      "Összes ráfordítás aránya"
+    ]
+  },
+  "tor": {
+    "english": [
+      "TOR",
+      "Turnover*",
+      "Turnover",
+      "Turnover Ratio",
+      "Turnover Rate",
+      "Portfolio Turnover",
+      "Portfolio turnover ratio",
+      "Portfolio turnover rate",
+      "PTR",
+      "Annual Portfolio Turnover Ratio"
+    ],
+    "india": [
+      "Aggregate Value of Purchase and Sale",
+      "The aggregate value of investments",
+      "The aggregate value of purchases",
+      "the aggregate of sales",
+      "Aggregate value of investments purchased and sold",
+      "The aggregate value of purchases and sales"
+    ],
+    "spanish": [
+      "Rotación de la Cartera",
+      "Índice de rotación de la cartera",
+      "Ratio de rotación de la cartera"
+    ],
+    "german": [
+      "Rotation",
+      "Umschlagshaufigkeit",
+      "Portfolioumschlagshäufigkeit",
+      "Umschlagshäufigkeit",
+      "PTR",
+      "Portfolio Turnover Rate",
+      "Portefeuilleumsatz",
+      "Portfolio Turnover Ratio",
+      "Umsatz",
+      "Portfolioumschlagsra",
+      "Umschlagkennziffer",
+      "Portfolioumschlag",
+      "Portfolioumschlagsrate"
+    ],
+    "dutch": [
+      "Omloopsnelheid",
+      "Omloopfactor",
+      "Omloopsnelheid",
+      "Turnover rate",
+      "Rotatie van de portefeuille",
+      "POF",
+      "Turnover ratio"
+    ],
+    "french": [
+      "taux de rotation",
+      "Taux de rotation du portefeuille",
+      "Rotation de portefeuille",
+      "Ratio de rotation du portefeuille"
+    ],
+    "finnish": [
+      "salkun kiertonopeus"
+    ],
+    "swedish": [
+      "Omsättningshastighet"
+    ],
+    "danish": [
+      "Omsætningshastighed"
+    ],
+    "norwegian": [
+      "Omløpshastighet"
+    ],
+    "india（keywords）": [
+      "Aggregate value"
+    ],
+    "malay": [
+      "PGP",
+      "Pusing Ganti Portfolio"
+    ],
+    "italian": [
+      "Tasso di movimentazione del portafoglio",
+      "Turnover del portafoglio",
+      "Indice di Rotazione del Portafoglio"
+    ],
+    "portuguese": [
+      "Rotação média da carteira",
+      "Índice de Movimentação da Carteira de Investimento"
+    ]
+  },
+  "ogc": {
+    "english": [
+      "Synthetic Ongoing Charges excluding",
+      "On-going Charge",
+      "Ongoing Charge",
+      "ongoing charges",
+      "On-going Fee",
+      "Ongoing fee",
+      "OGC",
+      "OGF",
+      "Operation Charge",
+      "On Going Charges",
+      "OC",
+      "Ongoing Charge Figure OCF",
+      "Ongoing Fund Charge",
+      "Operating Charge",
+      "Operating Charges",
+      "Operating expenses",
+      "Operating, Administrative and Servicing Expenses"
+    ],
+    "spanish": [
+      "Gastos Corrientes",
+      "Gastos Recurrentes"
+    ],
+    "german": [
+      "Laufende Kosten",
+      "OGC",
+      "Ongoing Charge",
+      "laufende kosten in prozent",
+      "laufenden Kosten",
+      "Betriebskosten",
+      "Betriebsgebühren"
+    ],
+    "dutch": [
+      "Lopende kosten",
+      "Lopende kosten factor",
+      "LKF",
+      "Ongoing Charge",
+      "OCF"
+    ],
+    "french": [
+      "Frais courants",
+      "Commission de frais opérationels"
+    ],
+    "italian": [
+      "Spese Correnti"
+    ],
+    "portuguese": [
+      "Encargos Correntes",
+      "Custos correntes"
+    ]
+  },
+  "performance_fee": {
+    "english": [
+      "Performance Fee",
+      "Performance Fees",
+      "performance-based fee",
+      "performance-related fee"
+    ],
+    "spanish": [
+      "Comisión de Gestión sobre Resultados",
+      "Comisión sobre Resultados",
+      "Comisión de Rentabilidad",
+      "Comisiones de éxito",
+      "Comisión de Éxito",
+      "Comisión por resultados",
+      "comisión de rentabilidad"
+    ],
+    "german": [
+      "Erfolgsabhängige Vergütung",
+      "Erfolgsbezogene Vergütung",
+      "Performancegebühren",
+      "An die Wertentwicklung des Fonds gebundene Gebühren",
+      "Performancegebühr",
+      "Performance-gebühr",
+      "Erfolgshonorare",
+      "Erfolgsabhän-giger Vergütung",
+      "Erfolgshonorar",
+      "Performance-Fee",
+      "Erfolgsgebühr",
+      "perfolgsabhängige Verwaltungsvergütung",
+      "performanceabhängige Vergütung",
+      "Performance- gebühren"
+    ],
+    "dutch": [
+      "Prestatievergoeding",
+      "Performance Fee"
+    ],
+    "french": [
+      "Les commissions de surperformance",
+      "Commission de performance",
+      "Commissions de surperformance",
+      "frais de performance"
+    ],
+    "italian": [
+      "Commissioni di performance",
+      "Commissioni legate al rendimento",
+      "Commissioni d’incentivo"
+    ],
+    "portuguese": [
+      "Comissão de desempenho",
+      "Custos de performance",
+      "Comissão de Gestão Variável"
+    ],
+    "estonian": [
+      " Edukustasud aasta lõikes"
+    ],
+    "latvian": [
+      "Gada prēmijas par sasniegtajiem rezultātiem"
+    ],
+    "Lithuanian": [
+      "Metinis mokestis už veiklos rezultatu"
+    ]
+  },
+  "trading expense ratio": {
+    "english": [
+      "Trading expense ratio",
+      "Trading Expense Ratio10"
+    ]
+  },
+  "mer": {
+    "english": [
+      "Management expense ratio",
+      "Management expense ratio after taxes",
+      "Expense ratio"
+    ]
+  },
+  "MgtFee": {
+    "english": [
+      "Management Fee as % of AAuM",
+      "Management Fee including GST as % of AAuM",
+      "Management Fees",
+      "Management fee inclusive of service tax GST at annualised average rate",
+      "Management and Trusteeship Fees",
+      "Investment Management and Trusteeship fees",
+      "Investment management fees "
+    ]
+  },
+  "max_management_fee": {
+    "english": [
+      "management fee",
+      "Periodic Charge",
+      "Advisory",
+      "max_management_fee"
+    ]
+  },
+  "max_front_load": {
+    "english": [
+      "Sales charge",
+      "subscription fee",
+      "subscription charge",
+      "subscription commission",
+      "sales fee",
+      "entry fee",
+      "initial charge",
+      "preliminary charge",
+      "preliminary fee",
+      "Entry Charge",
+      "Initial Sales Charge",
+      "max_front_load"
+    ]
+  },
+  "min_initial_purchase": {
+    "english": [
+      "Minimum Initial Subscription",
+      "Minimum Subscription",
+      "Minimum Subscription Amount",
+      "Minimum initial investment",
+      "min_initial_purchase"
+    ]
+  },
+  "min_subsequent_purchase": {
+    "english": [
+      "Minimum Additional",
+      "Minimum Additional Subscription Amount",
+      "Minimum initial and subsequence subscription",
+      "Minimum Additional Subscription",
+      "Minimum Subsequent Investment",
+      "Minimum Subsequent Purchase",
+      "additional",
+      "min_subsequent_purchase"
+    ]
+  }
+}
--- a/configuration/domicile_datapoints.json
+++ b/configuration/domicile_datapoints.json
@ -0,0 +1,30 @@
+{
+  "CAN": {
+    "ar": [
+      "mer",
+      "tor",
+      "trading expense ratio"
+    ]
+  },
+  "IND": {
+    "ar": [
+      "ter",
+      "MgtFee",
+      "tor"
+    ]
+  },
+  "default": {
+    "ar": [
+      "tor",
+      "ter",
+      "ogc",
+      "performance_fee"
+    ],
+    "prospectus": [
+      "max_management_fee",
+      "max_front_load",
+      "min_initial_purchase",
+      "min_subsequent_purchase"
+    ]
+  }
+}
--- a/configuration/language.json
+++ b/configuration/language.json
@ -0,0 +1,22 @@
+{
+    "0L00000122": "english",
+    "0LMIX00001": "english",
+    "0LMIX00002": "english",
+    "0L00000482": "english",
+    "0LMIX00003": "german",
+    "0L00000152": "german",
+    "0L00000114": "dutch",
+    "0L00000138": "french",
+    "0L00000203": "italian",
+    "0L00000408": "spanish",
+    "0L00000348": "portuguese",
+    "0L00000135": "Finnish",
+    "0L00000415": "Swedish",
+    "0L00000104": "Danish",
+    "0L00000320": "Norwegian",
+    "0L00000254": "Lithuanian",
+    "0L00000347": "Polish",
+    "0L00000250": "Latvian",
+    "0L00000127": "Estonian",
+    "0L00000273": "Malay"
+}
--- a/core/page_filter.py
+++ b/core/page_filter.py
@ -0,0 +1,129 @@
+import os
+import json
+import re
+import fitz
+import pandas as pd
+from utils.pdf_util import PDFUtil
+from utils.sql_query_util import query_document_fund_mapping
+from utils.logger import logger
+from utils.biz_utils import add_slash_to_text_as_regex
+
+
+class FilterPages:
+    def __init__(
+        self, doc_id: str, pdf_file: str, document_mapping_info_df: pd.DataFrame
+    ) -> None:
+        self.doc_id = doc_id
+        self.pdf_file = pdf_file
+        self.page_text_dict = self.get_pdf_page_text_dict()
+        if document_mapping_info_df is None or len(document_mapping_info_df) == 0:
+            self.document_mapping_info_df = query_document_fund_mapping(doc_id)
+        else:
+            self.document_mapping_info_df = document_mapping_info_df
+        self.get_configuration_from_file()
+        self.doc_info = self.get_doc_info()
+        self.datapoint_config = self.get_datapoint_config()
+
+    def get_pdf_page_text_dict(self) -> dict:
+        pdf_util = PDFUtil(self.pdf_file)
+        success, text, page_text_dict = pdf_util.extract_text()
+        return page_text_dict
+
+    def get_configuration_from_file(self) -> dict:
+        language_config_file = r"./configuration/language.json"
+        domicile_datapoint_config_file = r"./configuration/domicile_datapoints.json"
+        datapoint_keywords_config_file = r"./configuration/datapoint_keyword.json"
+        with open(language_config_file, "r", encoding="utf-8") as file:
+            self.language_config = json.load(file)
+        with open(domicile_datapoint_config_file, "r", encoding="utf-8") as file:
+            self.domicile_datapoint_config = json.load(file)
+        with open(datapoint_keywords_config_file, "r", encoding="utf-8") as file:
+            self.datapoint_keywords_config = json.load(file)
+
+    def get_doc_info(self) -> dict:
+        if len(self.document_mapping_info_df) == 0:
+            return {
+                "effective_date": None,
+                "document_type": "ar",
+                "language_id": "0L00000122",
+                "language": "english",
+                "domicile": "LUX",
+            }
+        effective_date = self.document_mapping_info_df["EffectiveDate"].iloc[0]
+        document_type = self.document_mapping_info_df["DocumentType"].iloc[0]
+        if document_type in [4, 5]:
+            document_type = "ar"
+        elif document_type == 1:
+            document_type = "prospectus"
+        language_id = self.document_mapping_info_df["Language"].iloc[0]
+        language = self.language_config.get(language_id, None)
+        domicile = self.document_mapping_info_df["Domicile"].iloc[0]
+        return {
+            "effective_date": effective_date,
+            "document_type": document_type,
+            "language_id": language_id,
+            "language": language,
+            "domicile": domicile,
+        }
+    
+    def get_datapoint_config(self) -> dict:
+        domicile = self.doc_info.get("domicile", None)
+        document_type = self.doc_info.get("document_type", None)
+        language = self.doc_info.get("language", None)
+        if language is None:
+            language = "english"
+        if self.domicile_datapoint_config.get(domicile, None) is None:
+            domicile = "default"
+        if self.domicile_datapoint_config[domicile].get(document_type, None) is None:
+            document_type = "ar"
+        datapoint_list =  self.domicile_datapoint_config[domicile][document_type]
+        datapoint_keywords = {}
+        for datapoint in datapoint_list:
+            keywords = self.datapoint_keywords_config.get(datapoint, {}).get(language, [])
+            if len(keywords) > 0:
+                keywords = self.optimize_keywords_regex(keywords)
+            datapoint_keywords[datapoint] = keywords
+            if language != "english":
+                english_keywords = self.datapoint_keywords_config.get(datapoint, {}).get("english", [])
+                if len(english_keywords) > 0:
+                    english_keywords = self.optimize_keywords_regex(english_keywords)
+                    datapoint_keywords[datapoint] += english_keywords
+        return datapoint_keywords
+    
+    def optimize_keywords_regex(self, keywords: list) -> list:
+        new_keywords = []
+        for keyword in keywords:
+            new_keyword = add_slash_to_text_as_regex(keyword)
+            new_keywords.append(new_keyword)
+        return new_keywords
+    
+    def clean_text(self, text: str) -> str:
+        text = text.lower()
+        text = re.sub(r"\s+", ' ', text.strip())
+        return text
+        
+    def start_job(self) -> dict:
+        logger.info(f"Start extracting datapoints from {self.pdf_file}")
+        """
+        1. Ierate document pages
+        2. Filter by data point keywords
+        3. Result should be like this:
+        {
+            "doc_id": "445256897",
+            "ter": [5, 6, 10, 15],
+            "tor": [6, 8, 10]
+        }
+        """
+        result = {"doc_id": self.doc_id}
+        for datapoint in self.datapoint_config.keys():
+            result[datapoint] = []
+        for page_num, page_text in self.page_text_dict.items():
+            text = self.clean_text(page_text)
+            for datapoint, keywords in self.datapoint_config.items():
+                # idx = idx & np.array([re.findall(r'\b' + word + r'\d*\b', page) != [] for page in self.pages_clean])
+                for keyword in keywords:
+                    search_regex = r"\b{0}\d*\b\s*".format(keyword)
+                    if re.search(search_regex, text, re.IGNORECASE):
+                        result[datapoint].append(page_num)
+                        break
+        return result
--- a/main.py
+++ b/main.py
@ -1,5 +1,65 @@
-def main():
-    print("Hello World!")
+import os
+import json
+import pandas as pd
+from glob import glob
+from tqdm import tqdm
+import time
+from utils.logger import logger
+from utils.pdf_download import download_pdf_from_documents_warehouse
+from utils.sql_query_util import query_document_fund_mapping
+from core.page_filter import FilterPages
+
+
+class EMEA_AR_Parsing:
+    def __init__(self, doc_id: str, pdf_folder: str = r"/data/emea_ar/pdf/") -> None:
+        self.doc_id = doc_id
+        self.pdf_folder = pdf_folder
+        os.makedirs(self.pdf_folder, exist_ok=True)
+        self.pdf_file = self.download_pdf()
+        self.document_mapping_info_df = query_document_fund_mapping(doc_id)
+        self.datapoint_page_info = self.get_datapoint_page_info()
+
+    def download_pdf(self) -> str:
+        pdf_file = download_pdf_from_documents_warehouse(self.pdf_folder, self.doc_id)
+        return pdf_file
+
+    def get_datapoint_page_info(self) -> dict:
+        filter_pages = FilterPages(
+            self.doc_id, self.pdf_file, self.document_mapping_info_df
+        )
+        datapoint_page_info = filter_pages.start_job()
+        return datapoint_page_info
+
+
+def filter_pages(doc_id: str, pdf_folder: str) -> None:
+    logger.info(f"Parsing EMEA AR for doc_id: {doc_id}")
+    emea_ar_parsing = EMEA_AR_Parsing(doc_id, pdf_folder)
+    return emea_ar_parsing.datapoint_page_info
+
+
+def batch_filter_pdf_files(pdf_folder: str, output_folder: str) -> None:
+    pdf_files = glob(pdf_folder + "*.pdf")
+    result_list = []
+    for pdf_file in tqdm(pdf_files):
+        pdf_base_name = os.path.basename(pdf_file)
+        doc_id = pdf_base_name.split(".")[0]
+        datapoint_page_info = filter_pages(doc_id=doc_id, pdf_folder=pdf_folder)
+        result_list.append(datapoint_page_info)
+    result_df = pd.DataFrame(result_list)
+    result_df.reset_index(drop=True, inplace=True)
+
+    logger.info(f"Saving the result to {output_folder}")
+    os.makedirs(output_folder, exist_ok=True)
+    time_stamp = time.strftime("%Y%m%d%H%M%S", time.localtime())
+    output_file = os.path.join(
+        output_folder,
+        f"datapoint_page_info_{len(result_df)}_documents_{time_stamp}.xlsx",
+    )
+    with pd.ExcelWriter(output_file) as writer:
+        result_df.to_excel(writer, index=False)
+

 if __name__ == "__main__":
-    main()
+    pdf_folder = r"/data/emea_ar/small_pdf/"
+    output_folder = r"/data/emea_ar/output/filter_pages/"
+    batch_filter_pdf_files(pdf_folder, output_folder)
--- a/prepare_data.py
+++ b/prepare_data.py
@ -48,7 +48,7 @@ def download_pdf(doc_provider_file_path: str, sheet_name: str, pdf_path: str):
    # download pdfs
    logger.info(f"Start downloading {len(doc_id_list)} pdfs")
    os.makedirs(pdf_path, exist_ok=True)
-    for doc_id in tqdm.tqdm(doc_id_list):
+    for doc_id in tqdm(doc_id_list):
        logger.info(f"Downloading pdf for docid: {doc_id}")
        download_pdf_from_documents_warehouse(pdf_directory=pdf_path, doc_id=doc_id)
        time.sleep(1)
@ -565,17 +565,53 @@ def statistics_document_fund_share_count(provider_mapping_data_file: str):
    describe_stat_df_list = []
    # statistics document mapping information
    doc_mapping_data = pd.read_excel(provider_mapping_data_file, sheet_name="all_data")
+    # set noTor column value to 0 if column tor value is not nan, set 1 otherwise
+    doc_mapping_data["noTor"] = doc_mapping_data["tor"].apply(
+        lambda x: 0 if pd.notna(x) else 1
+    )
+    # set share_noTer column value to 0 if column share_ter value is not nan, set 1 otherwise
+    doc_mapping_data["share_noTer"] = doc_mapping_data["share_ter"].apply(
+        lambda x: 0 if pd.notna(x) else 1
+    )
+    # set share_noOgc column value to 0 if column share_ter value is not nan, set 1 otherwise
+    doc_mapping_data["share_noOgc"] = doc_mapping_data["share_ogc"].apply(
+        lambda x: 0 if pd.notna(x) else 1
+    )
+    # set share_noPerfFee column value to 0 if column share_ter value is not nan, set 1 otherwise
+    doc_mapping_data["share_noPerfFee"] = doc_mapping_data["share_perfFee"].apply(
+        lambda x: 0 if pd.notna(x) else 1
+    )

    # statistics doc_mapping_data for counting FundId count based on DocumentId
    logger.info(
        "statistics doc_mapping_data for counting FundId count based on DocumentId"
    )
-    doc_fund_id_df = doc_mapping_data[["DocumentId", "CompanyId", "CompanyName", "FundId"]].drop_duplicates()
+    doc_fund_id_df = doc_mapping_data[["DocumentId", "EffectiveDate", "CompanyId", "CompanyName", "FundId"]].drop_duplicates()
    doc_fund_count = (
-        doc_fund_id_df.groupby(["DocumentId", "CompanyId", "CompanyName"]).size().reset_index(name="fund_count")
+        doc_fund_id_df.groupby(["DocumentId", "EffectiveDate", "CompanyId", "CompanyName"]).size().reset_index(name="fund_count")
    )
    # order by fund_count in descending order
    doc_fund_count = doc_fund_count.sort_values(by="fund_count", ascending=True)
+    
+    # set with_ar_data to True if noTor == 0 or share_noOgc == 0 or share_noPerfFee == 0
+    doc_fund_count["with_ar_data"] = False
+    for index, row in doc_fund_count.iterrows():
+        document_id = row["DocumentId"]
+        ar_data = doc_mapping_data[
+            (doc_mapping_data["DocumentId"] == document_id)
+            & (
+                (
+                    (doc_mapping_data["noTor"] == 0)
+                    | (doc_mapping_data["share_noTer"] == 0)
+                    | (doc_mapping_data["share_noOgc"] == 0)
+                    | (doc_mapping_data["share_noPerfFee"] == 0)
+                )
+            )
+        ]
+        if len(ar_data) > 0:
+            doc_fund_count.loc[index, "with_ar_data"] = True
+
+    
    # statistics fund_count in doc_fund_count by describe and transform to DataFrame
    doc_fund_count_stat_df = get_describe_stat(
        doc_fund_count, "fund_count", "doc_fund_count"
@ -587,10 +623,10 @@ def statistics_document_fund_share_count(provider_mapping_data_file: str):
        "statistics doc_mapping_data for counting FundClassId count based on DocumentId"
    )
    doc_share_class_id_df = doc_mapping_data[
-        ["DocumentId", "CompanyId", "CompanyName", "FundClassId"]
+        ["DocumentId", "EffectiveDate", "CompanyId", "CompanyName", "FundClassId"]
    ].drop_duplicates()
    doc_share_class_count = (
-        doc_share_class_id_df.groupby(["DocumentId", "CompanyId", "CompanyName"])
+        doc_share_class_id_df.groupby(["DocumentId", "EffectiveDate", "CompanyId", "CompanyName"])
        .size()
        .reset_index(name="share_class_count")
    )
@ -598,6 +634,24 @@ def statistics_document_fund_share_count(provider_mapping_data_file: str):
    doc_share_class_count = doc_share_class_count.sort_values(
        by="share_class_count", ascending=True
    )
+    # set with_ar_data to True if noTor == 0 or share_noOgc == 0 or share_noPerfFee == 0
+    doc_share_class_count["with_ar_data"] = False
+    for index, row in doc_share_class_count.iterrows():
+        document_id = row["DocumentId"]
+        ar_data = doc_mapping_data[
+            (doc_mapping_data["DocumentId"] == document_id)
+            & (
+                (
+                    (doc_mapping_data["noTor"] == 0)
+                    | (doc_mapping_data["share_noTer"] == 0)
+                    | (doc_mapping_data["share_noOgc"] == 0)
+                    | (doc_mapping_data["share_noPerfFee"] == 0)
+                )
+            )
+        ]
+        if len(ar_data) > 0:
+            doc_share_class_count.loc[index, "with_ar_data"] = True
+            
    # statistics share_class_count in doc_share_class_count by describe and transform to DataFrame
    doc_share_class_count_stat_df = get_describe_stat(
        doc_share_class_count, "share_class_count", "doc_share_class_count"
@ -648,6 +702,116 @@ def get_describe_stat(df: pd.DataFrame, column_name: str, stat_type_name: str):
    return stat_df


+def pickup_document_from_top_100_providers():
+    """
+    Pickup 100 documents from top 100 providers.
+    The documents are with less 10 share classes.
+    The purpose is to analyze the document structure and content from small documents.
+    """
+    provider_mapping_data_file = (
+        r"/data/emea_ar/basic_information/English/provider_mapping_data_statistics.xlsx"
+    )
+    top_100_provider_document_file = (
+        r"/data/emea_ar/basic_information/English/lux_english_ar_from_top_100_provider_since_2020.xlsx"
+    )
+    provider_share_count = pd.read_excel(
+        provider_mapping_data_file, sheet_name="provider_share_count"
+    )
+    # add a new column with name share_count_rank to provider_share_count
+    provider_share_count["share_count_rank"] = provider_share_count[
+        "share_class_count"
+    ].rank(method="min", ascending=False)
+    
+    top_100_provider_document_all_data = pd.read_excel(
+        top_100_provider_document_file, sheet_name="all_data"
+    )
+    
+    top_100_provider_document_share_count = pd.read_excel(
+        top_100_provider_document_file, sheet_name="doc_share_class_count"
+    )
+    top_100_provider_document_share_count = \
+        top_100_provider_document_share_count[top_100_provider_document_share_count["with_ar_data"] == True]
+    top_100_provider_document_share_count.reset_index(drop=True, inplace=True)
+        
+    # add a new column with name share_count_rank to top_100_provider_document_share_count by merge with provider_share_count
+    top_100_provider_document_share_count = pd.merge(
+        top_100_provider_document_share_count,
+        provider_share_count,
+        on=["CompanyId"],
+        how="left",
+    )
+    # Keep columns: DocumentId, CompanyId, CompanyName, share_class_count_x, share_count_rank
+    top_100_provider_document_share_count = top_100_provider_document_share_count[
+        ["DocumentId", "CompanyId", "CompanyName_x", "share_class_count_x", "share_count_rank"]
+    ]
+    # rename column share_class_count_x to share_class_count
+    top_100_provider_document_share_count.rename(
+        columns={"share_class_count_x": "share_class_count",
+                 "CompanyName_x": "Company_Name",
+                 "share_count_rank": "provider_share_count_rank"}, inplace=True
+    )
+    top_100_provider_document_share_count = top_100_provider_document_share_count.sort_values(
+        by=["provider_share_count_rank", "share_class_count"], ascending=True
+    )
+    
+    # According to share_count_rank, from 1 to 10, 
+    # random pickup one documents with 1 to 10 share classes for each rank
+    data_filter = top_100_provider_document_share_count[
+        (top_100_provider_document_share_count["share_class_count"] <= 10)
+        & (top_100_provider_document_share_count["share_class_count"] >= 1)
+    ]
+    data_filter = data_filter.sort_values(
+        by=["provider_share_count_rank", "share_class_count"], ascending=[True, True]
+    )
+    unique_rank_list = top_100_provider_document_share_count["provider_share_count_rank"].unique().tolist()
+    random_pickup_document_data_list = []
+    for rank in unique_rank_list:
+        data_filter_rank = data_filter[data_filter["provider_share_count_rank"] == rank]
+        if len(data_filter_rank) == 0:
+            # get the first document with rank from top_100_provider_document_share_count
+            data_filter_rank = top_100_provider_document_share_count[
+                top_100_provider_document_share_count["provider_share_count_rank"] == rank
+            ].head(1)
+        data_filter_rank = data_filter_rank.sample(n=1, random_state=88)
+        random_pickup_document_data_list.append(data_filter_rank)
+    random_pickup_document_data = pd.concat(random_pickup_document_data_list)
+    # sort by share_count_rank in ascending order
+    random_pickup_document_data = random_pickup_document_data.sort_values(
+        by="provider_share_count_rank", ascending=True
+    )
+    random_pickup_document_data.reset_index(drop=True, inplace=True)
+    
+    random_pickup_document_mini_data = random_pickup_document_data[
+        ["DocumentId", "provider_share_count_rank"]
+    ]
+    # get all data from top_100_provider_document_all_data by merge with random_pickup_document_mini_data
+    random_pickup_document_all_data = pd.merge(
+        random_pickup_document_mini_data,
+        top_100_provider_document_all_data,
+        on=["DocumentId"],
+        how="left",
+    )
+    # sort random_pickup_document_all_data by provider_share_count_rank, FundLegalName, FundClassLegalName in ascending order
+    random_pickup_document_all_data = random_pickup_document_all_data.sort_values(
+        by=["provider_share_count_rank", "FundLegalName", "FundClassLegalName"], ascending=True
+    )
+    
+    random_small_document_data_file = (
+        r"/data/emea_ar/basic_information/English/lux_english_ar_top_100_provider_random_small_document.xlsx"
+    )
+    with pd.ExcelWriter(random_small_document_data_file) as writer:
+        top_100_provider_document_share_count.to_excel(
+            writer, sheet_name="all_doc_with_ar_data", index=False
+        )
+        random_pickup_document_data.to_excel(
+            writer, sheet_name="random_small_document", index=False
+        )
+        
+        random_pickup_document_all_data.to_excel(
+            writer, sheet_name="random_small_document_all_data", index=False
+        )
+
+
 if __name__ == "__main__":
    doc_provider_file_path = (
        r"/data/emea_ar/basic_information/English/latest_provider_ar_document.xlsx"
@ -664,7 +828,14 @@ if __name__ == "__main__":
    output_folder = r"/data/emea_ar/output/"
    # get_unique_docids_from_doc_provider_data(doc_provider_file_path)
    # download_pdf(doc_provider_file_path, 'doc_provider_count', pdf_folder)
-    # output_pdf_page_text(pdf_folder, output_folder)
+    pdf_folder = r"/data/emea_ar/small_pdf/"
+    output_folder = r"/data/emea_ar/small_pdf_txt/"
+    random_small_document_data_file = (
+        r"/data/emea_ar/basic_information/English/lux_english_ar_top_100_provider_random_small_document.xlsx"
+    )
+    download_pdf(random_small_document_data_file, 'random_small_document', pdf_folder)
+    output_pdf_page_text(pdf_folder, output_folder)
+    
    # extract_pdf_table(pdf_folder, output_folder)
    # analyze_json_error()

@ -674,4 +845,5 @@ if __name__ == "__main__":
    #     provider_mapping_data_file=provider_mapping_data_file,
    #     output_folder=basic_info_folder,
    # )
-    statistics_document_fund_share_count(doc_mapping_from_top_100_provider_file)
+    # statistics_document_fund_share_count(doc_mapping_from_top_100_provider_file)
+    # pickup_document_from_top_100_providers()
--- a/utils/biz_utils.py
+++ b/utils/biz_utils.py
@ -0,0 +1,14 @@
+import re
+
+def add_slash_to_text_as_regex(text: str):
+    if text is None or len(text) == 0:
+        return text
+    special_char_iter = re.finditer("\W", text)
+    for special_iter in special_char_iter:
+        if len(special_iter.group().strip()) == 0:
+            continue
+        replace = r"\{0}".format(special_iter.group())
+        if replace not in text:
+            text = re.sub(replace, replace, text)
+    text = re.sub(r"\s+", r"\\s+", text)
+    return text
--- a/utils/sql_query_util.py
+++ b/utils/sql_query_util.py
@ -0,0 +1,80 @@
+import json
+import time
+from urllib import request
+import pandas as pd
+import os
+import dotenv
+# loads .env file with your OPENAI_API_KEY
+dotenv.load_dotenv()
+
+
+def query_document_fund_mapping(doc_id):
+    count = 1
+    while True:
+        try:
+            document_mapping_info_df = query_data_by_biz_type(
+                biztype="getFundInfoByDocId", para=doc_id, return_df=True
+            ).drop_duplicates()
+            if len(document_mapping_info_df) == 0:
+                return document_mapping_info_df
+            document_mapping_info_df = document_mapping_info_df.sort_values(
+                by=["FundName", "ShareClassName"]
+            ).reset_index(drop=True)
+            return document_mapping_info_df
+        except Exception as e:
+            print(e)
+            time.sleep(3)
+            if count == 5:
+                break
+            count += 1
+
+
+def query_investment_by_provider(company_id: str):
+    count = 1
+    while True:
+        try:
+            investment_by_provider_df = query_data_by_biz_type(biztype='getInvestmentByProvider',
+                                                               para=company_id,
+                                                               return_df=True).drop_duplicates()
+            investment_by_provider_df = investment_by_provider_df \
+                .sort_values(by=['FundName', 'ShareClassName']) \
+                .reset_index(drop=True)
+            return investment_by_provider_df
+        except Exception as e:
+            print(e)
+            time.sleep(3)
+            if count == 5:
+                break
+            count += 1
+
+
+def query_data_by_biz_type(biztype: str, para, return_df: bool):
+    sqlpass_url = "https://api.morningstar.com/sqlpassapi/v1/sql"
+    url = sqlpass_url + "?sqlName={0}&params={1}".format(biztype, str(para))
+    headers = {"ApiKey": os.getenv("SQL_PASS_KEY")}
+    if return_df:
+        return pd.DataFrame(query_data_by_url(url, headers))
+    else:
+        return query_data_by_url(url, headers)
+
+
+def query_data_by_url(url, headers):
+    res = None
+    count = 1
+    while True:
+        try:
+            req = request.Request(url=url, headers=headers)
+            res = request.urlopen(req)
+            res = res.read().decode(encoding="utf-8", errors="ignore")
+            break
+        except Exception as e:
+            print(e)
+            time.sleep(3)
+            if count == 5:
+                break
+        count += 1
+    if res is not None:
+        dic = json.loads(res)
+        return dic["result"]
+    else:
+        return None