Supplement provider information to ground truth data

Calculate metrics based on providers Integrate "merge" data algorithm for AUS Prospectus final outputs
2025-03-07 15:02:12 -06:00 · 2025-03-07 15:02:12 -06:00 · 2cd4f5f787
parent 52515fc152
commit 2cd4f5f787
5 changed files with 854 additions and 240 deletions
--- a/calc_metrics.py
+++ b/calc_metrics.py
@ -11,9 +11,7 @@ import traceback
 from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
 import requests
 import fitz
 from copy import deepcopy
 from utils.similarity import Similarity
 from core.auz_nz.hybrid_solution_script import final_function_to_match
 def calc_metrics(ground_truth_file: str, prediction_file: str):
@ -891,6 +889,8 @@ def calculate_metrics_based_db_data_file(audit_file_path: str = r"/data/aus_pros
    output_folder = r"/data/aus_prospectus/output/metrics_data/"
    os.makedirs(output_folder, exist_ok=True)
    verify_file_name = os.path.basename(verify_file_path).replace(".xlsx", "")
    if is_for_all:
        verify_file_name = f"metrics_{verify_file_name}_all"
    metrics_file_name = f"metrics_{verify_file_name}_{len(document_id_list)}_documents_4_dps_not_strict.xlsx"
    output_file = os.path.join(output_folder, metrics_file_name)
    with pd.ExcelWriter(output_file) as writer:
@ -898,6 +898,369 @@ def calculate_metrics_based_db_data_file(audit_file_path: str = r"/data/aus_pros
        message_data_df.to_excel(writer, index=False, sheet_name="message_data")
 def calculate_metrics_by_provider(audit_file_path: str = r"/data/aus_prospectus/ground_truth/phase2_file/17_documents/audited_file_phase2_with_mapping.xlsx",
                                  audit_data_sheet: str = "Sheet1",
                                  verify_file_path: str = r"/data/aus_prospectus/output/mapping_data/total/merged/merged_mapping_data_info_17_documents_by_text_20250303171140.xlsx",
                                  verify_data_sheet: str = "total_data",
                                  verify_document_list_file: str = None,
                                  is_for_all: bool = False
                                  ):
    print("Start to calculate metrics based on DB data file and extracted file...")
    audit_data_df = pd.DataFrame()
    verify_data_df = pd.DataFrame()
    audit_fields = [
        "DocumentId",
        "provider_id",	
        "provider_name",
        "FundLegalName",
        "FundId",
        "FundClassLegalName",
        "FundClassId",
        "management_fee_and_costs",
        "management_fee",
        "administration_fees",
        "minimum_initial_investment",
        "benchmark_name",
        "performance_fee",
        "interposed_vehicle_performance_fee_cost",
        "buy_spread",
        "sell_spread",
        "total_annual_dollar_based_charges"
    ]
    audit_data_df = pd.read_excel(audit_file_path, sheet_name=audit_data_sheet)
    audit_data_df = audit_data_df[audit_fields]
    audit_data_df = audit_data_df.drop_duplicates()
    audit_data_df = audit_data_df.rename(columns={"DocumentId": "doc_id", 
                                                  "FundLegalName": "fund_name", 
                                                  "FundId": "fund_id", 
                                                  "FundClassLegalName": "sec_name", 
                                                  "FundClassId": "sec_id"})
    audit_data_df.fillna("", inplace=True)
    audit_data_df.reset_index(drop=True, inplace=True)
    verify_fields = [
        "DocumentId",
        "raw_fund_name",
        "fund_id",
        "fund_name",
        "raw_share_name",
        "sec_id",
        "sec_name",
        "management_fee_and_costs",
        "management_fee",
        "administration_fees",
        "minimum_initial_investment",
        "benchmark_name",
        "performance_fee",
        "interposed_vehicle_performance_fee_cost",
        "buy_spread",
        "sell_spread",
        "total_annual_dollar_based_charges"
    ]
    verify_data_df = pd.read_excel(verify_file_path, sheet_name=verify_data_sheet)
    verify_data_df = verify_data_df[verify_fields]
    verify_data_df = verify_data_df.drop_duplicates()
    verify_data_df = verify_data_df.rename(columns={"DocumentId": "doc_id"})
    verify_data_df.fillna("", inplace=True)
    verify_data_df.reset_index(drop=True, inplace=True)
    if len(audit_data_df) == 0 or len(verify_data_df) == 0:
        print("No data to calculate metrics.")
        return
    # Calculate metrics
    if verify_document_list_file is not None:
        with open(verify_document_list_file, "r", encoding="utf-8") as f:
            verify_document_list = f.readlines()
            verify_document_list = [int(doc_id.strip()) for doc_id in verify_document_list]
        if len(verify_document_list) > 0:
            verify_data_df = verify_data_df[verify_data_df["doc_id"].isin(verify_document_list)]
    document_id_list = verify_data_df["doc_id"].unique().tolist()
    print(f"Total document count: {len(document_id_list)}")
    print("Construct ground truth and prediction data...")
    # similarity = Similarity()
    message_list = []
    provider_gt_pred_data = {}
    for document_id in document_id_list:
        doc_audit_data = audit_data_df[audit_data_df["doc_id"] == document_id]
        provider_id = doc_audit_data["provider_id"].iloc[0]
        provider_name = doc_audit_data["provider_name"].iloc[0]
        if provider_id not in list(provider_gt_pred_data.keys()):
            provider_gt_pred_data[provider_id] = {"provider_name": provider_name,
                                                  "gt_management_fee_and_costs_list": [], 
                                                  "pred_management_fee_and_costs_list": [],
                                                  "gt_management_fee_list": [],
                                                  "pred_management_fee_list": [],
                                                  "gt_administration_fees_list": [],
                                                  "pred_administration_fees_list": [],
                                                  "gt_minimum_initial_investment_list": [],
                                                  "pred_minimum_initial_investment_list": [],
                                                  "gt_benchmark_name_list": [],
                                                  "pred_benchmark_name_list": []}
            if is_for_all:
                provider_gt_pred_data[provider_id].update({"gt_performance_fee_list": [],
                                                           "pred_performance_fee_list": [],
                                                           "gt_interposed_vehicle_performance_fee_cost_list": [],
                                                           "pred_interposed_vehicle_performance_fee_cost_list": [],
                                                           "gt_buy_spread_list": [],
                                                           "pred_buy_spread_list": [],
                                                           "gt_sell_spread_list": [],
                                                           "pred_sell_spread_list": [],
                                                           "gt_total_annual_dollar_based_charges_list": [],
                                                           "pred_total_annual_dollar_based_charges_list": []})
        audit_sec_id_list = [doc_sec_id for doc_sec_id 
                             in doc_audit_data["sec_id"].unique().tolist()
                             if len(doc_sec_id) > 0]
        # get doc_verify_data which doc_id is same as document_id and sec_id in audit_sec_id_list
        doc_verify_data = verify_data_df[(verify_data_df["doc_id"] == document_id) & (verify_data_df["sec_id"].isin(audit_sec_id_list))]
        for index, row in doc_audit_data.iterrows():
            fund_name = row["fund_name"]
            sec_id = row["sec_id"]
            management_fee_and_costs = str(row["management_fee_and_costs"])
            management_fee = str(row["management_fee"])
            administration_fees = str(row["administration_fees"])
            minimum_initial_investment = str(row["minimum_initial_investment"])
            benchmark_name = str(row["benchmark_name"])
            if is_for_all:
                performance_fee = str(row["performance_fee"])
                interposed_vehicle_performance_fee_cost = str(row["interposed_vehicle_performance_fee_cost"])
                buy_spread = str(row["buy_spread"])
                sell_spread = str(row["sell_spread"])
                total_annual_dollar_based_charges = str(row["total_annual_dollar_based_charges"])
            # get the first row which sec_id in doc_verify_data is same as sec_id
            doc_verify_sec_data = doc_verify_data[doc_verify_data["sec_id"] == sec_id]
            if len(doc_verify_sec_data) == 0:
                continue
            doc_verify_sec_row = doc_verify_sec_data.iloc[0]
            raw_fund_name = doc_verify_sec_row["raw_fund_name"]
            v_management_fee_and_costs = str(doc_verify_sec_row["management_fee_and_costs"])
            v_management_fee = str(doc_verify_sec_row["management_fee"])
            v_administration_fees = str(doc_verify_sec_row["administration_fees"])
            v_minimum_initial_investment = str(doc_verify_sec_row["minimum_initial_investment"])
            v_benchmark_name = str(doc_verify_sec_row["benchmark_name"])
            if is_for_all:
                v_performance_fee = str(doc_verify_sec_row["performance_fee"])
                v_interposed_vehicle_performance_fee_cost = str(doc_verify_sec_row["interposed_vehicle_performance_fee_cost"])
                v_buy_spread = str(doc_verify_sec_row["buy_spread"])
                v_sell_spread = str(doc_verify_sec_row["sell_spread"])
                v_total_annual_dollar_based_charges = str(doc_verify_sec_row["total_annual_dollar_based_charges"])
            message = get_gt_pred_by_compare_values(management_fee_and_costs, 
                                                    v_management_fee_and_costs, 
                                                    provider_gt_pred_data[provider_id]["gt_management_fee_and_costs_list"], 
                                                    provider_gt_pred_data[provider_id]["pred_management_fee_and_costs_list"], 
                                                    data_point="management_fee_and_costs")
            message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "management_fee_and_costs"))
            message = get_gt_pred_by_compare_values(management_fee, 
                                                    v_management_fee,
                                                    provider_gt_pred_data[provider_id]["gt_management_fee_list"],
                                                    provider_gt_pred_data[provider_id]["pred_management_fee_list"],
                                                    data_point="management_fee")
            message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "management_fee"))
            message = get_gt_pred_by_compare_values(administration_fees, 
                                                    v_administration_fees, 
                                                    provider_gt_pred_data[provider_id]["gt_administration_fees_list"],
                                                    provider_gt_pred_data[provider_id]["pred_administration_fees_list"],
                                                    data_point="administration_fees")
            message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "administration_fees"))
            message = get_gt_pred_by_compare_values(minimum_initial_investment, 
                                                    v_minimum_initial_investment, 
                                                    provider_gt_pred_data[provider_id]["gt_minimum_initial_investment_list"],
                                                    provider_gt_pred_data[provider_id]["pred_minimum_initial_investment_list"],
                                                    data_point="minimum_initial_investment")
            message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "minimum_initial_investment"))
            message = get_gt_pred_by_compare_values(benchmark_name, 
                                                    v_benchmark_name, 
                                                    provider_gt_pred_data[provider_id]["gt_benchmark_name_list"],
                                                    provider_gt_pred_data[provider_id]["pred_benchmark_name_list"],
                                                    data_point="benchmark_name")
            message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "benchmark_name"))
            if is_for_all:
                message = get_gt_pred_by_compare_values(performance_fee, 
                                                        v_performance_fee,
                                                        provider_gt_pred_data[provider_id]["gt_performance_fee_list"],
                                                        provider_gt_pred_data[provider_id]["pred_performance_fee_list"],
                                                        data_point="performance_fee")
                message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "performance_fee"))
                message = get_gt_pred_by_compare_values(interposed_vehicle_performance_fee_cost, 
                                                        v_interposed_vehicle_performance_fee_cost, 
                                                        provider_gt_pred_data[provider_id]["gt_interposed_vehicle_performance_fee_cost_list"],
                                                        provider_gt_pred_data[provider_id]["pred_interposed_vehicle_performance_fee_cost_list"],
                                                        data_point="interposed_vehicle_performance_fee_cost")
                message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "interposed_vehicle_performance_fee_cost"))
                message = get_gt_pred_by_compare_values(buy_spread, 
                                                        v_buy_spread, 
                                                        provider_gt_pred_data[provider_id]["gt_buy_spread_list"],
                                                        provider_gt_pred_data[provider_id]["pred_buy_spread_list"],
                                                        data_point="buy_spread")
                message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "buy_spread"))
                message = get_gt_pred_by_compare_values(sell_spread, 
                                                        v_sell_spread, 
                                                        provider_gt_pred_data[provider_id]["gt_sell_spread_list"],
                                                        provider_gt_pred_data[provider_id]["pred_sell_spread_list"],
                                                        data_point="sell_spread")
                message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "sell_spread"))
                message = get_gt_pred_by_compare_values(total_annual_dollar_based_charges, 
                                                        v_total_annual_dollar_based_charges, 
                                                        provider_gt_pred_data[provider_id]["gt_total_annual_dollar_based_charges_list"],
                                                        provider_gt_pred_data[provider_id]["pred_total_annual_dollar_based_charges_list"],
                                                        data_point="total_annual_dollar_based_charges")
                message_list.append(generate_message(message, document_id, sec_id, fund_name, raw_fund_name, "total_annual_dollar_based_charges"))
    message_data_df = pd.DataFrame(message_list)
    message_data_df = message_data_df[['doc_id', 'sec_id', 'raw_fund_name', 'fund_legal_name', 'data_point', 'gt_value', 'pred_value', 'error']]
    # order by doc_id, raw_fund_name, data_point
    message_data_df = message_data_df.sort_values(by=['doc_id', 'raw_fund_name', 'data_point'])
    message_data_df.reset_index(drop=True, inplace=True)
    # calculate metrics
    print("Calculate metrics...")
    provider_metrics_list = []
    for provider_id, gt_pred_data in provider_gt_pred_data.items():
        provider_name = gt_pred_data["provider_name"]
        precision_management_fee_and_costs = precision_score(gt_pred_data["gt_management_fee_and_costs_list"], 
                                                             gt_pred_data["pred_management_fee_and_costs_list"])
        recall_management_fee_and_costs = recall_score(gt_pred_data["gt_management_fee_and_costs_list"], gt_pred_data["pred_management_fee_and_costs_list"])
        f1_management_fee_and_costs = f1_score(gt_pred_data["gt_management_fee_and_costs_list"], gt_pred_data["pred_management_fee_and_costs_list"])
        accuracy_management_fee_and_costs = accuracy_score(gt_pred_data["gt_management_fee_and_costs_list"], gt_pred_data["pred_management_fee_and_costs_list"])
        support_management_fee_and_costs = sum(gt_pred_data["gt_management_fee_and_costs_list"])
        precision_management_fee = precision_score(gt_pred_data["gt_management_fee_list"], gt_pred_data["pred_management_fee_list"])
        recall_management_fee = recall_score(gt_pred_data["gt_management_fee_list"], gt_pred_data["pred_management_fee_list"])
        f1_management_fee = f1_score(gt_pred_data["gt_management_fee_list"], gt_pred_data["pred_management_fee_list"])
        accuracy_management_fee = accuracy_score(gt_pred_data["gt_management_fee_list"], gt_pred_data["pred_management_fee_list"])
        support_management_fee = sum(gt_pred_data["gt_management_fee_list"])
        precision_administration_fees = precision_score(gt_pred_data["gt_administration_fees_list"], gt_pred_data["pred_administration_fees_list"])
        recall_administration_fees = recall_score(gt_pred_data["gt_administration_fees_list"], gt_pred_data["pred_administration_fees_list"])
        f1_administration_fees = f1_score(gt_pred_data["gt_administration_fees_list"], gt_pred_data["pred_administration_fees_list"])
        accuracy_administration_fees = accuracy_score(gt_pred_data["gt_administration_fees_list"], gt_pred_data["pred_administration_fees_list"])
        support_administration_fees = sum(gt_pred_data["gt_administration_fees_list"])
        precision_miminimum_initial_investment = precision_score(gt_pred_data["gt_minimum_initial_investment_list"], 
                                                                 gt_pred_data["pred_minimum_initial_investment_list"])
        recall_miminimum_initial_investment = recall_score(gt_pred_data["gt_minimum_initial_investment_list"], 
                                                           gt_pred_data["pred_minimum_initial_investment_list"])
        f1_miminimum_initial_investment = f1_score(gt_pred_data["gt_minimum_initial_investment_list"], 
                                                   gt_pred_data["pred_minimum_initial_investment_list"])
        accuracy_miminimum_initial_investment = accuracy_score(gt_pred_data["gt_minimum_initial_investment_list"], 
                                                               gt_pred_data["pred_minimum_initial_investment_list"])
        support_miminimum_initial_investment = sum(gt_pred_data["gt_minimum_initial_investment_list"])
        precision_benchmark_name = precision_score(gt_pred_data["gt_benchmark_name_list"], 
                                                   gt_pred_data["pred_benchmark_name_list"])
        recall_benchmark_name = recall_score(gt_pred_data["gt_benchmark_name_list"], 
                                             gt_pred_data["pred_benchmark_name_list"])
        f1_benchmark_name = f1_score(gt_pred_data["gt_benchmark_name_list"], 
                                     gt_pred_data["pred_benchmark_name_list"])
        accuracy_benchmark_name = accuracy_score(gt_pred_data["gt_benchmark_name_list"], 
                                                 gt_pred_data["pred_benchmark_name_list"])
        support_benchmark_name = sum(gt_pred_data["gt_benchmark_name_list"])
        if is_for_all:
            precision_performance_fee = precision_score(gt_pred_data["gt_performance_fee_list"], 
                                                        gt_pred_data["pred_performance_fee_list"])
            recall_performance_fee = recall_score(gt_pred_data["gt_performance_fee_list"], 
                                                  gt_pred_data["pred_performance_fee_list"])
            f1_performance_fee = f1_score(gt_pred_data["gt_performance_fee_list"], 
                                          gt_pred_data["pred_performance_fee_list"])
            accuracy_performance_fee = accuracy_score(gt_pred_data["gt_performance_fee_list"], 
                                                      gt_pred_data["pred_performance_fee_list"])
            support_performance_fee = sum(gt_pred_data["gt_performance_fee_list"])
            precision_interposed_vehicle_performance_fee_cost = precision_score(gt_pred_data["gt_interposed_vehicle_performance_fee_cost_list"], 
                                                                                gt_pred_data["pred_interposed_vehicle_performance_fee_cost_list"])
            recall_interposed_vehicle_performance_fee_cost = recall_score(gt_pred_data["gt_interposed_vehicle_performance_fee_cost_list"], 
                                                                          gt_pred_data["pred_interposed_vehicle_performance_fee_cost_list"])
            f1_interposed_vehicle_performance_fee_cost = f1_score(gt_pred_data["gt_interposed_vehicle_performance_fee_cost_list"], 
                                                                  gt_pred_data["pred_interposed_vehicle_performance_fee_cost_list"])
            accuracy_interposed_vehicle_performance_fee_cost = accuracy_score(gt_pred_data["gt_interposed_vehicle_performance_fee_cost_list"], 
                                                                              gt_pred_data["pred_interposed_vehicle_performance_fee_cost_list"])
            support_interposed_vehicle_performance_fee_cost = sum(gt_pred_data["gt_interposed_vehicle_performance_fee_cost_list"])
            precision_buy_spread = precision_score(gt_pred_data["gt_buy_spread_list"], 
                                                   gt_pred_data["pred_buy_spread_list"])
            recall_buy_spread = recall_score(gt_pred_data["gt_buy_spread_list"], 
                                             gt_pred_data["pred_buy_spread_list"])
            f1_buy_spread = f1_score(gt_pred_data["gt_buy_spread_list"], 
                                     gt_pred_data["pred_buy_spread_list"])
            accuracy_buy_spread = accuracy_score(gt_pred_data["gt_buy_spread_list"], 
                                                 gt_pred_data["pred_buy_spread_list"])
            support_buy_spread = sum(gt_pred_data["gt_buy_spread_list"])
            precision_sell_spread = precision_score(gt_pred_data["gt_sell_spread_list"], 
                                                    gt_pred_data["pred_sell_spread_list"])
            recall_sell_spread = recall_score(gt_pred_data["gt_sell_spread_list"], 
                                              gt_pred_data["pred_sell_spread_list"])
            f1_sell_spread = f1_score(gt_pred_data["gt_sell_spread_list"], 
                                      gt_pred_data["pred_sell_spread_list"])
            accuracy_sell_spread = accuracy_score(gt_pred_data["gt_sell_spread_list"], 
                                                  gt_pred_data["pred_sell_spread_list"])
            support_buy_spread = sum(gt_pred_data["gt_sell_spread_list"])
            precision_total_annual_dollar_based_charges = precision_score(gt_pred_data["gt_total_annual_dollar_based_charges_list"], 
                                                                          gt_pred_data["pred_total_annual_dollar_based_charges_list"])
            recall_total_annual_dollar_based_charges = recall_score(gt_pred_data["gt_total_annual_dollar_based_charges_list"], 
                                                                    gt_pred_data["pred_total_annual_dollar_based_charges_list"])
            f1_total_annual_dollar_based_charges = f1_score(gt_pred_data["gt_total_annual_dollar_based_charges_list"], 
                                                            gt_pred_data["pred_total_annual_dollar_based_charges_list"])
            accuracy_total_annual_dollar_based_charges = accuracy_score(gt_pred_data["gt_total_annual_dollar_based_charges_list"], 
                                                                        gt_pred_data["pred_total_annual_dollar_based_charges_list"])
            support_total_annual_dollar_based_charges = sum(gt_pred_data["gt_total_annual_dollar_based_charges_list"])
        if is_for_all:
            metrics_data = [{"provider_id": provider_id, "provider_name": provider_name, "item": "management_fee_and_costs", "precision": precision_management_fee_and_costs, "recall": recall_management_fee_and_costs, "f1": f1_management_fee_and_costs, "accuracy": accuracy_management_fee_and_costs, "support": support_management_fee_and_costs},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "management_fee", "precision": precision_management_fee, "recall": recall_management_fee, "f1": f1_management_fee, "accuracy": accuracy_management_fee, "support": support_management_fee},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "administration_fees", "precision": precision_administration_fees, "recall": recall_administration_fees, "f1": f1_administration_fees, "accuracy": accuracy_administration_fees, "support": support_administration_fees},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "minimum_initial_investment", "precision": precision_miminimum_initial_investment, "recall": recall_miminimum_initial_investment, "f1": f1_miminimum_initial_investment, "accuracy": accuracy_miminimum_initial_investment, "support": support_miminimum_initial_investment},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "benchmark_name", "precision": precision_benchmark_name, "recall": recall_benchmark_name, "f1": f1_benchmark_name, "accuracy": accuracy_benchmark_name, "support": support_benchmark_name},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "performance_fee", "precision": precision_performance_fee, "recall": recall_performance_fee, "f1": f1_performance_fee, "accuracy": accuracy_performance_fee, "support": support_performance_fee},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "interposed_vehicle_performance_fee_cost", "precision": precision_interposed_vehicle_performance_fee_cost, "recall": recall_interposed_vehicle_performance_fee_cost, 
                            "f1": f1_interposed_vehicle_performance_fee_cost, "accuracy": accuracy_interposed_vehicle_performance_fee_cost, "support": support_interposed_vehicle_performance_fee_cost},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "buy_spread", "precision": precision_buy_spread, "recall": recall_buy_spread, "f1": f1_buy_spread, "accuracy": accuracy_buy_spread, "support": support_buy_spread},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "sell_spread", "precision": precision_sell_spread, "recall": recall_sell_spread, "f1": f1_sell_spread, "accuracy": accuracy_sell_spread, "support": support_buy_spread},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "total_annual_dollar_based_charges", "precision": precision_total_annual_dollar_based_charges, "recall": recall_total_annual_dollar_based_charges, 
                            "f1": f1_total_annual_dollar_based_charges, "accuracy": accuracy_total_annual_dollar_based_charges, "support": support_total_annual_dollar_based_charges}
                            ]
        else:
            metrics_data = [{"provider_id": provider_id, "provider_name": provider_name, "item": "management_fee_and_costs", "precision": precision_management_fee_and_costs, "recall": recall_management_fee_and_costs, "f1": f1_management_fee_and_costs, "accuracy": accuracy_management_fee_and_costs, "support": support_management_fee_and_costs},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "management_fee", "precision": precision_management_fee, "recall": recall_management_fee, "f1": f1_management_fee, "accuracy": accuracy_management_fee, "support": support_management_fee},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "administration_fees", "precision": precision_administration_fees, "recall": recall_administration_fees, "f1": f1_administration_fees, "accuracy": accuracy_administration_fees, "support": support_administration_fees},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "minimum_initial_investment", "precision": precision_miminimum_initial_investment, "recall": recall_miminimum_initial_investment, "f1": f1_miminimum_initial_investment, "accuracy": accuracy_miminimum_initial_investment, "support": support_miminimum_initial_investment},
                            {"provider_id": provider_id, "provider_name": provider_name, "item": "benchmark_name", "precision": precision_benchmark_name, "recall": recall_benchmark_name, "f1": f1_benchmark_name, "accuracy": accuracy_benchmark_name, "support": support_benchmark_name}
                            ]
        metrics_data_df = pd.DataFrame(metrics_data)
        averate_precision = metrics_data_df["precision"].mean()
        average_recall = metrics_data_df["recall"].mean()
        average_f1 = metrics_data_df["f1"].mean()
        average_accuracy = metrics_data_df["accuracy"].mean()
        sum_support = metrics_data_df["support"].sum()
        metrics_data.append({"provider_id": provider_id, "provider_name": provider_name, "item": "average_score", "precision": averate_precision, "recall": average_recall, "f1": average_f1, "accuracy": average_accuracy, "support": sum_support})
        metrics_data_df = pd.DataFrame(metrics_data)
        metrics_data_df = metrics_data_df[["provider_id", "provider_name", "item", "f1", "precision", "recall", "accuracy", "support"]]
        provider_metrics_list.append(metrics_data_df)
    all_provider_metrics_df = pd.concat(provider_metrics_list)
    all_provider_metrics_df.reset_index(drop=True, inplace=True)
    # output metrics data to Excel file
    print("Output metrics data to Excel file...")
    output_folder = r"/data/aus_prospectus/output/metrics_data/"
    os.makedirs(output_folder, exist_ok=True)
    verify_file_name = os.path.basename(verify_file_path).replace(".xlsx", "")
    if is_for_all:
        verify_file_name = f"{verify_file_name}_all"
    metrics_file_name = f"metrics_{verify_file_name}_{len(document_id_list)}_documents_for_providers.xlsx"
    output_file = os.path.join(output_folder, metrics_file_name)
    with pd.ExcelWriter(output_file) as writer:
        all_provider_metrics_df.to_excel(writer, index=False, sheet_name="metrics_data")
        message_data_df.to_excel(writer, index=False, sheet_name="message_data")
 def generate_message(message: dict, doc_id: str, sec_id: str, fund_legal_name: str, raw_fund_name: str, datapoint: str):
    message["data_point"] = datapoint
    message["fund_legal_name"] = fund_legal_name
@ -954,203 +1317,6 @@ def clean_text(text: str):
    text = re.sub(r"\W", " ", text)
    text = re.sub(r"\s+", " ", text)
    return text
 def set_mapping_to_raw_name_data(data_file_path: str = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees.xlsx", 
                                 data_sheet: str = "Sheet1",
                                 raw_name_column: str = "raw_share_name",
                                 mapping_file_path: str = r"/data/aus_prospectus/basic_information/from_2024_documents/aus_100_document_prospectus_multi_fund.xlsx",
                                 mapping_sheet: str = "document_mapping",
                                 raw_name_mapping_column: str = None,
                                 output_file_path: str = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees_with_mapping.xlsx"):
    data_df = pd.read_excel(data_file_path, sheet_name=data_sheet)
    data_df["fund_id"] = ""
    data_df["fund_name"] = ""
    data_df["sec_id"] = ""
    data_df["sec_name"] = ""
    mapping_data = pd.read_excel(mapping_file_path, sheet_name=mapping_sheet)
    doc_id_list = data_df["doc_id"].unique().tolist()
    for doc_id in doc_id_list:
        doc_data = data_df[data_df["doc_id"] == doc_id]
        raw_name_list = doc_data[raw_name_column].unique().tolist()
        doc_mapping_data = mapping_data[mapping_data["DocumentId"] == doc_id]
        if len(doc_mapping_data) == 0:
            continue
        provider_name = doc_mapping_data["CompanyName"].values[0]
        if raw_name_mapping_column is not None and raw_name_mapping_column == "FundLegalName":
            doc_db_name_list = doc_mapping_data[raw_name_mapping_column].unique().tolist()
            for raw_name in raw_name_list:
                find_df = doc_mapping_data[doc_mapping_data[raw_name_mapping_column] == raw_name]
                if find_df is not None and len(find_df) == 1:
                    sec_id = find_df["FundClassId"].values[0]
                    sec_name = find_df["FundClassLegalName"].values[0]
                    fund_id = find_df["FundId"].values[0]
                    fund_name = find_df["FundLegalName"].values[0]
                    # update doc_data which raw_share_name is same as raw_share_name
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "sec_id"] = sec_id
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "sec_name"] = sec_name
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "fund_id"] = fund_id
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "fund_name"] = fund_name
        else:
            doc_db_name_list = doc_mapping_data["FundClassLegalName"].unique().tolist()
            all_match_result = get_raw_name_db_match_result(doc_id, 
                                                            provider_name, 
                                                            raw_name_list, 
                                                            doc_db_name_list, 
                                                            iter_count=60)
            for raw_share_name in raw_name_list:
                if all_match_result.get(raw_share_name) is not None:
                    matched_db_share_name = all_match_result[raw_share_name]
                    if (
                        matched_db_share_name is not None
                        and len(matched_db_share_name) > 0
                    ):
                        # get SecId from self.doc_fund_class_mapping
                        find_share_df = doc_mapping_data[doc_mapping_data["FundClassLegalName"] == matched_db_share_name]
                        if find_share_df is not None and len(find_share_df) > 0:
                            sec_id = find_share_df["FundClassId"].values[0]
                            fund_id = find_share_df["FundId"].values[0]
                            fund_name = find_share_df["FundLegalName"].values[0]
                            # update doc_data which raw_share_name is same as raw_share_name
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "sec_id"] = sec_id
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "sec_name"] = matched_db_share_name
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "fund_id"] = fund_id
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "fund_name"] = fund_name
    try:                        
        data_df = data_df[["doc_id",
                            "raw_fund_name",
                            "fund_id",
                            "fund_name",
                            "raw_share_name",
                            "sec_id",
                            "sec_name",
                            "management_fee_and_costs",
                            "management_fee",
                            "administration_fees",
                            "minimum_initial_investment",
                            "benchmark_name",
                            "performance_fee",
                            "performance_fee_charged",
                            "buy_spread",
                            "sell_spread",
                            "total_annual_dollar_based_charges",
                            "interposed_vehicle_performance_fee_cost",
                            "establishment_fee",
                            "contribution_fee",
                            "withdrawal_fee",
                            "exit_fee",
                            "switching_fee",
                            "activity_fee",
                            "hurdle_rate",
                            "analyst_name"
                            ]]
    except Exception as e:
        print(e)
    with open(output_file_path, "wb") as file:
        data_df.to_excel(file, index=False)
 def get_raw_name_db_match_result(
        doc_id: str, provider_name: str, raw_name_list: list, doc_share_name_list: list, iter_count: int = 30
    ):
        # split raw_name_list into several parts which each part is with 30 elements
        # The reason to split is to avoid invoke token limitation issues from CahtGPT
        raw_name_list_parts = [
            raw_name_list[i : i + iter_count]
            for i in range(0, len(raw_name_list), iter_count)
        ]
        all_match_result = {}
        doc_share_name_list = deepcopy(doc_share_name_list)
        for raw_name_list in raw_name_list_parts:
            match_result, doc_share_name_list = get_final_function_to_match(
                doc_id, provider_name, raw_name_list, doc_share_name_list
            )
            all_match_result.update(match_result)
        return all_match_result
 def get_final_function_to_match(doc_id, provider_name, raw_name_list, db_name_list):
    if len(db_name_list) == 0:
        match_result = {}
        for raw_name in raw_name_list:
            match_result[raw_name] = ""
    else:
        match_result = final_function_to_match(
            doc_id=doc_id,
            pred_list=raw_name_list,
            db_list=db_name_list,
            provider_name=provider_name,
            doc_source="aus_prospectus"
        )
        matched_name_list = list(match_result.values())
        db_name_list = remove_matched_names(db_name_list, matched_name_list)
    return match_result, db_name_list
 def remove_matched_names(target_name_list: list, matched_name_list: list):
    if len(matched_name_list) == 0:
        return target_name_list
    matched_name_list = list(set(matched_name_list))
    matched_name_list = [
        value for value in matched_name_list if value is not None and len(value) > 0
    ]
    for matched_name in matched_name_list:
        if (
            matched_name is not None
            and len(matched_name) > 0
            and matched_name in target_name_list
        ):
            target_name_list.remove(matched_name)
    return target_name_list
 def set_mapping_to_ravi_data():
    data_file_path = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees.xlsx"
    data_sheet = "Sheet1"
    mapping_file_path = r"/data/aus_prospectus/basic_information/from_2024_documents/aus_100_document_prospectus_multi_fund.xlsx"
    mapping_sheet = "document_mapping"
    output_file_path = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees_with_mapping.xlsx"
    set_mapping_to_raw_name_data(data_file_path, data_sheet, mapping_file_path, mapping_sheet, output_file_path)
 def set_mapping_to_data_side_documents_data():
    # data_file_path = r"/data/aus_prospectus/ground_truth/phase2_file/17_documents/Audited file_phase2.xlsx"
    # data_sheet = "all"
    # mapping_file_path = r"/data/aus_prospectus/basic_information/17_documents/aus_prospectus_17_documents_mapping.xlsx"
    # mapping_sheet = "document_mapping"
    # output_file_path = r"/data/aus_prospectus/output/ravi_100_documents/audited_file_phase2_with_mapping.xlsx"
    data_file_path = r"/data/aus_prospectus/ground_truth/phase2_file/46_documents/46_documents_ground_truth.xlsx"
    data_sheet = "ground_truth"
    raw_name_column = "raw_share_name"
    mapping_file_path = r"/data/aus_prospectus/basic_information/46_documents/aus_prospectus_46_documents_mapping.xlsx"
    mapping_sheet = "document_mapping"
    raw_name_mapping_column = None
    output_file_path = r"/data/aus_prospectus/ground_truth/phase2_file/46_documents/46_documents_ground_truth_with_mapping.xlsx"
    set_mapping_to_raw_name_data(data_file_path=data_file_path, 
                                 data_sheet=data_sheet, 
                                 raw_name_column=raw_name_column, 
                                 mapping_file_path=mapping_file_path, 
                                 mapping_sheet=mapping_sheet, 
                                 raw_name_mapping_column=raw_name_mapping_column,
                                 output_file_path=output_file_path)
 def adjust_data_file(source_file: str,
                     targe_file: str):
    source_data = pd.read_excel(source_file, sheet_name="Sheet1")
    source_doc_id_list = source_data["DocumentId"].unique().tolist()
    target_data = pd.read_excel(targe_file, sheet_name="Sheet1")
    #remove target_data which doc_id is in source_doc_id_list
    target_data = target_data[~target_data["DocumentId"].isin(source_doc_id_list)]
    # concat source_data and target_data
    target_data = pd.concat([source_data, target_data], ignore_index=True)
    with open(targe_file, "wb") as file:
        target_data.to_excel(file, index=False)
 if __name__ == "__main__":
@ -1172,12 +1338,24 @@ if __name__ == "__main__":
    verify_data_sheet: str = "total_data"
    # verify_document_list_file: str = "./sample_documents/aus_prospectus_29_documents_sample.txt"
    verify_document_list_file_list = [None, "./sample_documents/aus_prospectus_29_documents_sample.txt", "./sample_documents/aus_prospectus_17_documents_sample.txt"]
    is_for_all = False
    # for verify_document_list_file in verify_document_list_file_list:
    #     calculate_metrics_based_db_data_file(audit_file_path=audit_file_path,
    #                                         audit_data_sheet=audit_data_sheet,
    #                                         verify_file_path=verify_file_path,
    #                                         verify_data_sheet=verify_data_sheet,
    #                                         verify_document_list_file = verify_document_list_file,
    #                                         is_for_all=is_for_all)
    for verify_document_list_file in verify_document_list_file_list:
-        calculate_metrics_based_db_data_file(audit_file_path=audit_file_path,
+        calculate_metrics_by_provider(audit_file_path=audit_file_path,
-                                            audit_data_sheet=audit_data_sheet,
+                                    audit_data_sheet=audit_data_sheet,
-                                            verify_file_path=verify_file_path,
+                                    verify_file_path=verify_file_path,
-                                            verify_data_sheet=verify_data_sheet,
+                                    verify_data_sheet=verify_data_sheet,
-                                            verify_document_list_file = verify_document_list_file)
+                                    verify_document_list_file = verify_document_list_file,
                                    is_for_all=is_for_all)
    # set_mapping_to_17_documents_data()
    # set_mapping_to_ravi_data()
--- a/core/data_extraction.py
+++ b/core/data_extraction.py
@ -576,7 +576,7 @@ class DataExtraction:
        previous_page_datapoints = []
        previous_page_fund_name = None
        for page_num, page_text in self.page_text_dict.items():
-            # if page_num != 24:
+            # if page_num != 21:
            #     continue
            if page_num in handled_page_num_list:
                continue
--- a/core/data_mapping.py
+++ b/core/data_mapping.py
@ -228,7 +228,180 @@ class DataMapping:
                            mapped_data["similarity"] = 1
        self.output_mapping_file(mapped_data_list)
-        return mapped_data_list
+        
        if self.doc_source == "aus_prospectus":
            output_data_folder_splits = self.output_data_excel_folder.split("output")
            if len(output_data_folder_splits) == 2:
                merged_data_folder = f'{output_data_folder_splits[0]}output/merged_data/docs/'
                os.makedirs(merged_data_folder, exist_ok=True)
                merged_data_json_folder = os.path.join(merged_data_folder, "json/")
                os.makedirs(merged_data_json_folder, exist_ok=True)
                merged_data_excel_folder = os.path.join(merged_data_folder, "excel/")
                os.makedirs(merged_data_excel_folder, exist_ok=True)
                merged_data_list = self.merge_output_data_aus_prospectus(mapped_data_list,
                                                                         merged_data_json_folder,
                                                                         merged_data_excel_folder)
                return merged_data_list
        else:        
            return mapped_data_list
    def merge_output_data_aus_prospectus(self,
                                         mapped_data_list: list, 
                                         merged_data_json_folder: str,
                                         merged_data_excel_folder: str):
        # TODO: merge output data for aus prospectus, plan to realize it on 2025-01-16
        if mapped_data_list is None or len(mapped_data_list) == 0:
            return
        if merged_data_json_folder is None or len(merged_data_json_folder) == 0:
            return
        if merged_data_excel_folder is None or len(merged_data_excel_folder) == 0:
            return    
        mapping_data_df = pd.DataFrame(mapped_data_list)
        mapping_data_df.reset_index(drop=True, inplace=True)
        mapping_data_df.fillna("", inplace=True)
        document_mapping_df = self.document_mapping_info_df
        document_mapping_df.fillna("", inplace=True)
        datapoint_keyword_config_file = (
            f"./configuration/{self.doc_source}/datapoint_name.json"
        )
        with open(datapoint_keyword_config_file, "r", encoding="utf-8") as f:
            datapoint_keyword_config = json.load(f)
        datapoint_name_list = list(datapoint_keyword_config.keys())
        total_data_list = []
        doc_date = str(document_mapping_df["EffectiveDate"].values[0])[0:10]
        share_doc_data_df = mapping_data_df[(mapping_data_df["investment_type"] == 1)]
        exist_raw_name_list = []
        for index, row in share_doc_data_df.iterrows():
            doc_id = str(row["doc_id"])
            page_index = int(row["page_index"])
            raw_fund_name = str(row["raw_fund_name"])
            raw_share_name = str(row["raw_share_name"])
            raw_name = str(row["raw_name"])
            datapoint = str(row["datapoint"])
            value = row["value"]
            investment_type = row["investment_type"]
            share_class_id = row["investment_id"]
            share_class_legal_name = row["investment_name"]
            fund_id = ""
            fund_legal_name = ""
            if share_class_id != "":
                record_row = document_mapping_df[document_mapping_df["SecId"] == share_class_id]
                if len(record_row) > 0:
                    fund_id = record_row["FundId"].values[0]
                    fund_legal_name = record_row["FundName"].values[0]
            exist = False
            for exist_raw_name_info in exist_raw_name_list:
                exist_raw_name = exist_raw_name_info["raw_name"]
                exist_investment_type = exist_raw_name_info["investment_type"]
                exist_investment_id = exist_raw_name_info["investment_id"]
                if (
                    exist_raw_name == raw_name
                    and exist_investment_type == investment_type
                ) or (len(exist_investment_id) > 0 and exist_investment_id == share_class_id):
                    exist = True
                    break
            if not exist:
                data = {
                    "DocumentId": doc_id,
                    "raw_fund_name": raw_fund_name,
                    "raw_share_name": raw_share_name,
                    "raw_name": raw_name,
                    "fund_id": fund_id,
                    "fund_name": fund_legal_name,
                    "sec_id": share_class_id,
                    "sec_name": share_class_legal_name,
                    "EffectiveDate": doc_date,
                    "page_index": [],
                    "RawName": raw_name,
                }
                for datapoint_name in datapoint_name_list:
                    data[datapoint_name] = ""
                exist_raw_name_list.append(
                    {"raw_name": raw_name, "investment_type": investment_type, "investment_id": share_class_id}
                )
                total_data_list.append(data)
            # find data from total_data_list by raw_name
            for data in total_data_list:
                if data["raw_name"] == raw_name:
                    update_key = datapoint
                    data[update_key] = value
                    if page_index not in data["page_index"]:
                        data["page_index"].append(page_index)
                    break
                if len(share_class_id) > 0 and data["sec_id"] == share_class_id:
                    update_key = datapoint
                    if len(str(data[update_key])) == 0:
                        data[update_key] = value
                        if page_index not in data["page_index"]:
                            data["page_index"].append(page_index)
                    break
        fund_doc_data_df = mapping_data_df[(mapping_data_df["investment_type"] == 33)]
        fund_doc_data_df.fillna("", inplace=True)
        for index, row in fund_doc_data_df.iterrows():
            doc_id = str(row["doc_id"])
            page_index = int(row["page_index"])
            raw_fund_name = str(row["raw_fund_name"])
            raw_share_name = ""
            raw_name = str(row["raw_name"])
            datapoint = str(row["datapoint"])
            value = row["value"]
            fund_id = row["investment_id"]
            fund_legal_name = row["investment_name"]
            exist = False
            if fund_id != "":
                for data in total_data_list:
                    if (fund_id != "" and data["fund_id"] == fund_id) or (
                        data["raw_fund_name"] == raw_fund_name
                    ):
                        update_key = datapoint
                        data[update_key] = value
                        if page_index not in data["page_index"]:
                            data["page_index"].append(page_index)
                        exist = True
            else:
                for data in total_data_list:
                    if data["raw_name"] == raw_name:
                        update_key = datapoint
                        data[update_key] = value
                        if page_index not in data["page_index"]:
                            data["page_index"].append(page_index)
                        exist = True
            if not exist:
                data = {
                    "DocumentId": doc_id,
                    "raw_fund_name": raw_fund_name,
                    "raw_share_name": "",
                    "raw_name": raw_name,
                    "fund_id": fund_id,
                    "fund_name": fund_legal_name,
                    "sec_id": "",
                    "sec_name": "",
                    "EffectiveDate": doc_date,
                    "page_index": [page_index],
                    "RawName": raw_name,
                }
                for datapoint_name in datapoint_name_list:
                    data[datapoint_name] = ""
                data[datapoint] = value
                total_data_list.append(data)
        total_data_df = pd.DataFrame(total_data_list)
        total_data_df.fillna("", inplace=True)
        merged_data_excel_file = os.path.join(merged_data_excel_folder, f"merged_{self.doc_id}.xlsx")
        with pd.ExcelWriter(merged_data_excel_file) as writer:
            total_data_df.to_excel(writer, index=False, sheet_name="merged_data")
        merged_data_json_file = os.path.join(merged_data_json_folder, f"merged_{self.doc_id}.json")
        with open(merged_data_json_file, "w", encoding="utf-8") as f:
            json.dump(total_data_list, f, ensure_ascii=False, indent=4)
        return total_data_list
    def get_raw_name_db_match_result(
        self, raw_name_list, investment_type: str, iter_count: int = 30
--- a/main.py
+++ b/main.py
@ -499,7 +499,17 @@ def batch_start_job(
            )
        logger.info(f"Saving mapping data to {output_mapping_total_folder}")
-        unique_doc_ids = result_mappingdata_df["doc_id"].unique().tolist()
+        result_mappingdata_df_columns = list(result_mappingdata_df.columns)
        doc_id_column = ""
        if "doc_id" in result_mappingdata_df_columns:
            doc_id_column = "doc_id"
        if "DocumentId" in result_mappingdata_df_columns:
            doc_id_column = "DocumentId"
        if doc_id_column == "":
            logger.error(f"Cannot find doc_id column in mapping data")
            return
        unique_doc_ids = result_mappingdata_df[doc_id_column].unique().tolist()
        os.makedirs(output_mapping_total_folder, exist_ok=True)
        time_stamp = time.strftime("%Y%m%d%H%M%S", time.localtime())
        file_name = f"mapping_data_info_{len(unique_doc_ids)}_documents_by_{extract_way}_{time_stamp}.xlsx"
@ -507,11 +517,11 @@ def batch_start_job(
            file_name = f"{total_data_prefix}_{file_name}"
        output_file = os.path.join(output_mapping_total_folder, file_name)
-        doc_mapping_data_in_db = only_output_mapping_data_in_db(result_mappingdata_df)
+        # doc_mapping_data_in_db = only_output_mapping_data_in_db(result_mappingdata_df)
        with pd.ExcelWriter(output_file) as writer:
-            doc_mapping_data_in_db.to_excel(
+            # doc_mapping_data_in_db.to_excel(
-                writer, index=False, sheet_name="data_in_doc_mapping"
+            #     writer, index=False, sheet_name="data_in_doc_mapping"
-            )
+            # )
            result_mappingdata_df.to_excel(
                writer, index=False, sheet_name="total_mapping_data"
            )
@ -519,27 +529,6 @@ def batch_start_job(
                writer, index=False, sheet_name="extract_data"
            )
        if (
            doc_source == "aus_prospectus"
            and document_mapping_file is not None
            and len(document_mapping_file) > 0
            and os.path.exists(document_mapping_file)
        ):
            try:
                merged_total_data_folder = os.path.join(
                    output_mapping_total_folder, "merged/"
                )
                os.makedirs(merged_total_data_folder, exist_ok=True)
                data_file_base_name = os.path.basename(output_file)
                output_merged_data_file_path = os.path.join(
                    merged_total_data_folder, "merged_" + data_file_base_name
                )
                merge_output_data_aus_prospectus(
                    output_file, document_mapping_file, output_merged_data_file_path
                )
            except Exception as e:
                logger.error(f"Error: {e}")
        if calculate_metrics:
            prediction_sheet_name = "data_in_doc_mapping"
            ground_truth_file = r"/data/emea_ar/ground_truth/data_extraction/mapping_data_info_73_documents.xlsx"
@ -1527,7 +1516,7 @@ if __name__ == "__main__":
        document_mapping_file = r"/data/aus_prospectus/basic_information/46_documents/aus_prospectus_46_documents_mapping.xlsx"
        # special_doc_id_list: list = ["410899007", "539266880", "539266817",
        #                              "539261734", "539266893"]
-        # special_doc_id_list: list = ["401212184"]
+        # special_doc_id_list: list = ["539266880"]
        pdf_folder: str = r"/data/aus_prospectus/pdf/"
        output_pdf_text_folder: str = r"/data/aus_prospectus/output/pdf_text/"
        output_extract_data_child_folder: str = (
--- a/prepare_data.py
+++ b/prepare_data.py
@ -8,10 +8,12 @@ import re
 import time
 import traceback
 import json_repair
 from copy import deepcopy
 from utils.logger import logger
 from utils.pdf_download import download_pdf_from_documents_warehouse
 from utils.pdf_util import PDFUtil
 from core.auz_nz.hybrid_solution_script import final_function_to_match
 def get_unique_docids_from_doc_provider_data(doc_provider_file_path: str):
@ -1463,18 +1465,290 @@ def prepare_multi_fund_aus_prospectus_document(data_folder: str = r"/data/aus_pr
    with open(output_sample_document_file, "w") as f:
        for doc_id in document_id_list:
            f.write(f"{doc_id}\n")
 def set_mapping_to_ravi_data():
    data_file_path = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees.xlsx"
    data_sheet = "Sheet1"
    mapping_file_path = r"/data/aus_prospectus/basic_information/from_2024_documents/aus_100_document_prospectus_multi_fund.xlsx"
    mapping_sheet = "document_mapping"
    output_file_path = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees_with_mapping.xlsx"
    set_mapping_to_raw_name_data(data_file_path, data_sheet, mapping_file_path, mapping_sheet, output_file_path)
 def set_mapping_to_data_side_documents_data():
    # data_file_path = r"/data/aus_prospectus/ground_truth/phase2_file/17_documents/Audited file_phase2.xlsx"
    # data_sheet = "all"
    # mapping_file_path = r"/data/aus_prospectus/basic_information/17_documents/aus_prospectus_17_documents_mapping.xlsx"
    # mapping_sheet = "document_mapping"
    # output_file_path = r"/data/aus_prospectus/output/ravi_100_documents/audited_file_phase2_with_mapping.xlsx"
    data_file_path = r"/data/aus_prospectus/ground_truth/phase2_file/46_documents/46_documents_ground_truth.xlsx"
    data_sheet = "ground_truth"
    raw_name_column = "raw_share_name"
    mapping_file_path = r"/data/aus_prospectus/basic_information/46_documents/aus_prospectus_46_documents_mapping.xlsx"
    mapping_sheet = "document_mapping"
    raw_name_mapping_column = None
    output_file_path = r"/data/aus_prospectus/ground_truth/phase2_file/46_documents/46_documents_ground_truth_with_mapping.xlsx"
    set_mapping_to_raw_name_data(data_file_path=data_file_path, 
                                 data_sheet=data_sheet, 
                                 raw_name_column=raw_name_column, 
                                 mapping_file_path=mapping_file_path, 
                                 mapping_sheet=mapping_sheet, 
                                 raw_name_mapping_column=raw_name_mapping_column,
                                 output_file_path=output_file_path)
 def set_mapping_to_raw_name_data(data_file_path: str = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees.xlsx", 
                                 data_sheet: str = "Sheet1",
                                 raw_name_column: str = "raw_share_name",
                                 mapping_file_path: str = r"/data/aus_prospectus/basic_information/from_2024_documents/aus_100_document_prospectus_multi_fund.xlsx",
                                 mapping_sheet: str = "document_mapping",
                                 raw_name_mapping_column: str = None,
                                 output_file_path: str = r"/data/aus_prospectus/output/ravi_100_documents/AUS_Extracted_Fees_with_mapping.xlsx"):
    data_df = pd.read_excel(data_file_path, sheet_name=data_sheet)
    data_df["provider_id"] = ""
    data_df["provider_name"] = ""
    data_df["fund_id"] = ""
    data_df["fund_name"] = ""
    data_df["sec_id"] = ""
    data_df["sec_name"] = ""
    mapping_data = pd.read_excel(mapping_file_path, sheet_name=mapping_sheet)
    doc_id_list = data_df["doc_id"].unique().tolist()
    for doc_id in doc_id_list:
        doc_data = data_df[data_df["doc_id"] == doc_id]
        raw_name_list = doc_data[raw_name_column].unique().tolist()
        doc_mapping_data = mapping_data[mapping_data["DocumentId"] == doc_id]
        if len(doc_mapping_data) == 0:
            continue
        provider_id = doc_mapping_data["CompanyId"].values[0]
        provider_name = doc_mapping_data["CompanyName"].values[0]
        data_df.loc[(data_df["doc_id"] == doc_id), "provider_id"] = provider_id
        data_df.loc[(data_df["doc_id"] == doc_id), "provider_name"] = provider_name
        if raw_name_mapping_column is not None and raw_name_mapping_column == "FundLegalName":
            doc_db_name_list = doc_mapping_data[raw_name_mapping_column].unique().tolist()
            for raw_name in raw_name_list:
                find_df = doc_mapping_data[doc_mapping_data[raw_name_mapping_column] == raw_name]
                if find_df is not None and len(find_df) == 1:
                    sec_id = find_df["FundClassId"].values[0]
                    sec_name = find_df["FundClassLegalName"].values[0]
                    fund_id = find_df["FundId"].values[0]
                    fund_name = find_df["FundLegalName"].values[0]
                    # update doc_data which raw_share_name is same as raw_share_name
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "sec_id"] = sec_id
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "sec_name"] = sec_name
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "fund_id"] = fund_id
                    data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_name), "fund_name"] = fund_name
        else:
            doc_db_name_list = doc_mapping_data["FundClassLegalName"].unique().tolist()
            all_match_result = get_raw_name_db_match_result(doc_id, 
                                                            provider_name, 
                                                            raw_name_list, 
                                                            doc_db_name_list, 
                                                            iter_count=60)
            for raw_share_name in raw_name_list:
                if all_match_result.get(raw_share_name) is not None:
                    matched_db_share_name = all_match_result[raw_share_name]
                    if (
                        matched_db_share_name is not None
                        and len(matched_db_share_name) > 0
                    ):
                        # get SecId from self.doc_fund_class_mapping
                        find_share_df = doc_mapping_data[doc_mapping_data["FundClassLegalName"] == matched_db_share_name]
                        if find_share_df is not None and len(find_share_df) > 0:
                            sec_id = find_share_df["FundClassId"].values[0]
                            fund_id = find_share_df["FundId"].values[0]
                            fund_name = find_share_df["FundLegalName"].values[0]
                            # update doc_data which raw_share_name is same as raw_share_name
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "sec_id"] = sec_id
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "sec_name"] = matched_db_share_name
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "fund_id"] = fund_id
                            data_df.loc[(data_df["doc_id"] == doc_id) & (data_df[raw_name_column] == raw_share_name), "fund_name"] = fund_name
    try:                        
        data_df = data_df[["doc_id",
                            "provider_id",
                            "provider_name",
                            "raw_fund_name",
                            "fund_id",
                            "fund_name",
                            "raw_share_name",
                            "sec_id",
                            "sec_name",
                            "management_fee_and_costs",
                            "management_fee",
                            "administration_fees",
                            "minimum_initial_investment",
                            "benchmark_name",
                            "performance_fee",
                            "performance_fee_charged",
                            "buy_spread",
                            "sell_spread",
                            "total_annual_dollar_based_charges",
                            "interposed_vehicle_performance_fee_cost",
                            "establishment_fee",
                            "contribution_fee",
                            "withdrawal_fee",
                            "exit_fee",
                            "switching_fee",
                            "activity_fee",
                            "hurdle_rate",
                            "analyst_name"
                            ]]
    except Exception as e:
        print(e)
    with open(output_file_path, "wb") as file:
        data_df.to_excel(file, index=False)
 def get_raw_name_db_match_result(
        doc_id: str, provider_name: str, raw_name_list: list, doc_share_name_list: list, iter_count: int = 30
    ):
        # split raw_name_list into several parts which each part is with 30 elements
        # The reason to split is to avoid invoke token limitation issues from CahtGPT
        raw_name_list_parts = [
            raw_name_list[i : i + iter_count]
            for i in range(0, len(raw_name_list), iter_count)
        ]
        all_match_result = {}
        doc_share_name_list = deepcopy(doc_share_name_list)
        for raw_name_list in raw_name_list_parts:
            match_result, doc_share_name_list = get_final_function_to_match(
                doc_id, provider_name, raw_name_list, doc_share_name_list
            )
            all_match_result.update(match_result)
        return all_match_result
 def get_final_function_to_match(doc_id, provider_name, raw_name_list, db_name_list):
    if len(db_name_list) == 0:
        match_result = {}
        for raw_name in raw_name_list:
            match_result[raw_name] = ""
    else:
        match_result = final_function_to_match(
            doc_id=doc_id,
            pred_list=raw_name_list,
            db_list=db_name_list,
            provider_name=provider_name,
            doc_source="aus_prospectus"
        )
        matched_name_list = list(match_result.values())
        db_name_list = remove_matched_names(db_name_list, matched_name_list)
    return match_result, db_name_list
 def remove_matched_names(target_name_list: list, matched_name_list: list):
    if len(matched_name_list) == 0:
        return target_name_list
    matched_name_list = list(set(matched_name_list))
    matched_name_list = [
        value for value in matched_name_list if value is not None and len(value) > 0
    ]
    for matched_name in matched_name_list:
        if (
            matched_name is not None
            and len(matched_name) > 0
            and matched_name in target_name_list
        ):
            target_name_list.remove(matched_name)
    return target_name_list
 def adjust_data_file(source_file: str,
                     targe_file: str):
    source_data = pd.read_excel(source_file, sheet_name="Sheet1")
    source_doc_id_list = source_data["DocumentId"].unique().tolist()
    target_data = pd.read_excel(targe_file, sheet_name="Sheet1")
    #remove target_data which doc_id is in source_doc_id_list
    target_data = target_data[~target_data["DocumentId"].isin(source_doc_id_list)]
    # concat source_data and target_data
    target_data = pd.concat([source_data, target_data], ignore_index=True)
    with open(targe_file, "wb") as file:
        target_data.to_excel(file, index=False)
 def set_provider_to_ground_truth(groud_truth_file: str, 
                                 ground_truth_sheet: str, 
                                 document_mapping_file: str,
                                 document_mapping_sheet: str):
    ground_truth_df = pd.read_excel(groud_truth_file, sheet_name=ground_truth_sheet)
    ground_truth_df["provider_id"] = ""
    ground_truth_df["provider_name"] = ""
    mapping_data = pd.read_excel(document_mapping_file, sheet_name=document_mapping_sheet)
    doc_id_list = ground_truth_df["DocumentId"].unique().tolist()
    for doc_id in doc_id_list:
        doc_mapping_data = mapping_data[mapping_data["DocumentId"] == doc_id]
        if len(doc_mapping_data) == 0:
            continue
        provider_id = doc_mapping_data["CompanyId"].values[0]
        provider_name = doc_mapping_data["CompanyName"].values[0]
        ground_truth_df.loc[(ground_truth_df["DocumentId"] == doc_id), "provider_id"] = provider_id
        ground_truth_df.loc[(ground_truth_df["DocumentId"] == doc_id), "provider_name"] = provider_name
    try:                        
        ground_truth_df = ground_truth_df[["DocumentId",
                                        "provider_id",
                                        "provider_name",
                                        "raw_fund_name",
                                        "FundId",
                                        "FundLegalName",
                                        "raw_share_name",
                                        "FundClassId",
                                        "FundClassLegalName",
                                        "management_fee_and_costs",
                                        "management_fee",
                                        "administration_fees",
                                        "minimum_initial_investment",
                                        "benchmark_name",
                                        "performance_fee",
                                        "performance_fee_charged",
                                        "buy_spread",
                                        "sell_spread",
                                        "total_annual_dollar_based_charges",
                                        "interposed_vehicle_performance_fee_cost",
                                        "establishment_fee",
                                        "contribution_fee",
                                        "withdrawal_fee",
                                        "exit_fee",
                                        "switching_fee",
                                        "activity_fee",
                                        "hurdle_rate",
                                        "analyst_name"
                                        ]]
    except Exception as e:
        print(e)
    with open(groud_truth_file, "wb") as file:
        ground_truth_df.to_excel(file, index=False)
 if __name__ == "__main__":
    set_provider_to_ground_truth(
        groud_truth_file=r"/data/aus_prospectus/ground_truth/phase2_file/46_documents/46_documents_ground_truth_with_mapping.xlsx",
        ground_truth_sheet="Sheet1",
        document_mapping_file=r"/data/aus_prospectus/basic_information/46_documents/aus_prospectus_46_documents_mapping.xlsx",
        document_mapping_sheet="document_mapping"
    )
    # set_mapping_to_data_side_documents_data()
    # source_file = r"/data/aus_prospectus/ground_truth/phase2_file/17_documents/audited_file_phase2_with_mapping.xlsx"
    # target_file = r"/data/aus_prospectus/ground_truth/phase2_file/46_documents/46_documents_ground_truth_with_mapping.xlsx"
    # adjust_data_file(source_file=source_file, targe_file=target_file)
    # pdf_exist()
    # prepare_multi_fund_aus_prospectus_document()
-    merge_aus_document_prospectus_data(aus_data_folder=r"/data/aus_prospectus/basic_information/17_documents/",
+    # merge_aus_document_prospectus_data(aus_data_folder=r"/data/aus_prospectus/basic_information/17_documents/",
-                                       aus_document_mapping_file="aus_prospectus_17_documents_mapping.xlsx",
+    #                                    aus_document_mapping_file="aus_prospectus_17_documents_mapping.xlsx",
-                                       aus_prospectus_data_file="aus_prospectus_data_17_documents_secid.xlsx",
+    #                                    aus_prospectus_data_file="aus_prospectus_data_17_documents_secid.xlsx",
-                                       document_mapping_sheet="document_mapping",
+    #                                    document_mapping_sheet="document_mapping",
-                                       output_file="aus_prospectus_17_documents_data.xlsx",
+    #                                    output_file="aus_prospectus_17_documents_data.xlsx",
-                                       output_sheet="aus_document_prospectus")
+    #                                    output_sheet="aus_document_prospectus")
    folder = r"/data/emea_ar/basic_information/English/sample_doc/emea_11_06_case/"
    file_name = "doc_ar_data_for_emea_11_06.xlsx"
    # get_document_with_all_4_data_points(folder, file_name, None)