本技術涉及數據處理,特別是涉及一種多數據源企業信息標準化處理方法及相關裝置。
背景技術:
1、隨著企業數字化進程加速,工商數據已成為商業決策、風險評估及市場分析的核心依據。目前,工商數據主要來源于企查查、天眼查、企信寶等多個第三方數據源,但不同數據源對同一企業的信息描述格式存在顯著差異——例如,企查查中“股東認繳額”字段與天眼查中“股東出資額”字段語義相近但表述不同,導致多數據源信息難以直接整合。
2、現有技術中,多依賴人工逐個解讀數據源文檔、手動定義字段合并規則,該方式存在明顯缺陷:單數據源適配需數天時間,開發周期長;后續新增或更新數據源時需重復人工操作,維護成本高。因此,如何實現多數據源下企業信息的自動化、標準化處理,成為當前數據處理領域亟待解決的問題。
技術實現思路
1、本技術的目的是提供一種多數據源企業信息標準化處理方法及相關裝置,可實現多數據源下企業信息的自動化、標準化處理。
2、為實現上述目的,本技術提供了如下方案:
3、第一方面,本技術提供了一種多數據源企業信息標準化處理方法,包括以下步驟:
4、依據用戶配置的標準化處理任務參數,自動定時獲取目標企業的多數據源原始報文數據;多數據源原始報文數據的數據源至少包括第一數據源和第二數據源;標準化處理任務參數包括目標企業標識、若干個數據源以及數據獲取周期。
5、解析多數據源原始報文數據提取元特征集,并通過api接口將元特征集及目標數據結構傳遞至ai智能體,通過意圖識別匹配對應的數據處理流程;元特征集包括多數據源原始報文數據的數據源標識類特征、字段結構類特征和數據格式類特征;ai智能體用于提煉元特征集和識別目標數據結構特征,并通過意圖識別匹配與數據源類型和目標數據結構特征對應的數據處理流程;不同的數據源類型及目標數據結構特征預設有不同的數據處理流程。
6、基于數據處理流程,采用nlp技術識別多數據源原始報文數據中的目標數據結構字段,并結合預設的報文規則字段映射表,對多數據源原始報文數據的目標數據結構字段進行數據映射。
7、定義標準化輸出字段及預設格式,將數據映射后的目標數據結構字段按標準化輸出字段及預設格式進行輸出;預設格式包括結構化數據格式和可視化數據格式。
8、可選地,依據用戶配置的標準化處理任務參數,自動定時獲取目標企業的多數據源原始報文數據,具體包括以下步驟:
9、獲取用戶配置的標準化處理任務參數。
10、根據標準化處理任務參數,定時向多個數據源發送數據獲取請求,接收并存儲各數據源返回的原始報文數據,得到多數據源原始報文數據。
11、可選地,目標數據結構為股東結構,目標數據結構特征包括目標字段特征和數據關聯特征;ai智能體通過意圖識別匹配進入的數據處理流程為股東結構提取流程;股東結構提取流程包括從多數據源原始報文數據中篩選目標字段特征和數據關聯特征相關字段的步驟。
12、可選地,該方法還包括以下步驟:
13、構建跨平臺同義詞庫,并通過人工匹配建立初始的報文規則字段映射表;報文規則字段映射表用于關聯不同數據源的原始報文數據字段與標準化輸出字段;跨平臺同義詞庫用于存儲不同數據源中語義相近的字段名稱。
14、在滿足預設觸發條件后,采用nlp技術自動識別潛在的語義相近的字段對,并生成更新建議。
15、經由人工審核確認后,將納入跨平臺同義詞庫并根據更新建議更新報文規則字段映射表。
16、可選地,預設觸發條件包括數據積累時長達到預設時間段、新增數據源數量達到預設閾值或字段匹配誤差率超過預設誤差閾值。
17、可選地,在將數據映射后的目標數據結構字段按標準化輸出字段及預設格式進行輸出時,若預設格式為結構化數據格式,通過json序列化引擎將語義對齊后的結果映射為預定義結構的json對象,供api調用方解析;若預設格式為可視化數據格式,則基于圖表渲染規則庫,將結果中的數值型字段轉換為圖表數據模型并生成可嵌入頁面的圖表描述文件;圖表數據模型對應的圖表類型至少包括折線圖、柱狀圖和雷達圖。
18、第二方面,本技術提供了一種多數據源企業信息標準化處理系統,包括以下功能模塊:
19、原始報文數據獲取模塊,用于獲取目標企業的多數據源原始報文數據;多數據源原始報文數據的數據源至少包括第一數據源和第二數據源。
20、數據處理流程匹配模塊,用于解析多數據源原始報文數據提取元特征集,并通過api接口將元特征集及目標數據結構傳遞至ai智能體,通過意圖識別匹配對應的數據處理流程;元特征集包括多數據源原始報文數據的數據源標識類特征、字段結構類特征和數據格式類特征;ai智能體用于提煉元特征集和識別目標數據結構特征,并通過意圖識別匹配與數據源類型和目標數據結構特征對應的數據處理流程;不同的數據源類型及目標數據結構特征預設有不同的數據處理流程。
21、目標數據字段映射模塊,用于基于數據處理流程,采用nlp技術識別多數據源原始報文數據中的目標數據結構字段,并結合預設的報文規則字段映射表,對多數據源原始報文數據的目標數據結構字段進行數據映射。
22、標準化輸出模塊,用于定義標準化輸出字段及預設格式,將數據映射后的目標數據結構字段按標準化輸出字段及預設格式進行輸出;預設格式包括結構化數據格式和可視化數據格式。
23、第三方面,本技術提供了一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現前文所述的多數據源企業信息標準化處理方法的步驟。
24、第四方面,本技術提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現前文所述的多數據源企業信息標準化處理方法的步驟。
25、第五方面,本技術提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現前文所述的多數據源企業信息標準化處理方法的步驟。
26、根據本技術提供的具體實施例,本技術公開了以下技術效果:
27、本技術提供了一種多數據源企業信息標準化處理方法及相關裝置,在該方法中,首先依據用戶配置的標準化處理任務參數,自動定時獲取目標企業的多數據源原始報文數據,無需人工逐個登錄不同數據源平臺采集數據,相比現有技術中依賴人工獲取多數據源報文數據的方式,有效避免人工采集的繁瑣性與時效性差的問題,顯著縮短數據獲取周期,為后續標準化處理環節奠定高效基礎,初步降低人力成本;隨后解析多數據源原始報文數據提取元特征集,可讓系統精準區分不同數據源類型、捕捉字段核心屬性,并通過api接口將元特征集及目標數據結構傳遞至ai智能體,提煉與目標結構識別,替代現有技術中人工逐個解讀數據源文檔、手動判斷數據處理方向的操作,避免人工解讀的主觀誤差與效率低下問題,ai智能體通過意圖識別匹配對應的數據處理流程,確保任何情況下都能匹配到針對性的處理邏輯,減少無效處理步驟,進一步提升整體處理效率與精準度;之后采用nlp技術可精準識別不同數據源中語義相近但表述不同的字段,解決現有技術中人工難以全面、準確判斷字段語義的問題,提升字段識別準確性;同時,預設的報文規則字段映射表替代人工手動定義字段合并規則,避免人工映射的誤差;最后通過明確的標準化輸出字段確保輸出數據符合統一規范,無需人工二次整理格式,節省數據應用前的準備時間;結構化數據格式和可視化數據格式的設置,適配多數實際業務場景,相比現有技術中輸出格式單一的問題,大幅提升數據的實用性,讓標準化后的數據能直接服務于多樣化業務需求。