一種多數據源企業信息標準化處理方法及相關裝置與流程

文檔序號：45060921發布日期：2026-03-31 22:00閱讀：9來源：國知局

技術簡介：
本技術針對多數據源企業信息字段表述不一致導致整合困難的問題，提出自動化處理方案。通過AI智能體識別數據源特征，結合NLP技術解析語義相近字段，構建跨平臺同義詞庫和映射表實現字段標準化映射，最終輸出結構化與可視化數據。解決了人工處理效率低、誤差大的痛點，提升多數據源整合效率。
關鍵詞：多數據源標準化處理,企業信息整合

本技術涉及數據處理，特別是涉及一種多數據源企業信息標準化處理方法及相關裝置。

背景技術：

1、隨著企業數字化進程加速，工商數據已成為商業決策、風險評估及市場分析的核心依據。目前，工商數據主要來源于企查查、天眼查、企信寶等多個第三方數據源，但不同數據源對同一企業的信息描述格式存在顯著差異——例如，企查查中“股東認繳額”字段與天眼查中“股東出資額”字段語義相近但表述不同，導致多數據源信息難以直接整合。

2、現有技術中，多依賴人工逐個解讀數據源文檔、手動定義字段合并規則，該方式存在明顯缺陷：單數據源適配需數天時間，開發周期長；后續新增或更新數據源時需重復人工操作，維護成本高。因此，如何實現多數據源下企業信息的自動化、標準化處理，成為當前數據處理領域亟待解決的問題。

技術實現思路

1、本技術的目的是提供一種多數據源企業信息標準化處理方法及相關裝置，可實現多數據源下企業信息的自動化、標準化處理。

2、為實現上述目的，本技術提供了如下方案：

3、第一方面，本技術提供了一種多數據源企業信息標準化處理方法，包括以下步驟：

4、依據用戶配置的標準化處理任務參數，自動定時獲取目標企業的多數據源原始報文數據；多數據源原始報文數據的數據源至少包括第一數據源和第二數據源；標準化處理任務參數包括目標企業標識、若干個數據源以及數據獲取周期。

5、解析多數據源原始報文數據提取元特征集，并通過api接口將元特征集及目標數據結構傳遞至ai智能體，通過意圖識別匹配對應的數據處理流程；元特征集包括多數據源原始報文數據的數據源標識類特征、字段結構類特征和數據格式類特征；ai智能體用于提煉元特征集和識別目標數據結構特征，并通過意圖識別匹配與數據源類型和目標數據結構特征對應的數據處理流程；不同的數據源類型及目標數據結構特征預設有不同的數據處理流程。

6、基于數據處理流程，采用nlp技術識別多數據源原始報文數據中的目標數據結構字段，并結合預設的報文規則字段映射表，對多數據源原始報文數據的目標數據結構字段進行數據映射。

7、定義標準化輸出字段及預設格式，將數據映射后的目標數據結構字段按標準化輸出字段及預設格式進行輸出；預設格式包括結構化數據格式和可視化數據格式。

8、可選地，依據用戶配置的標準化處理任務參數，自動定時獲取目標企業的多數據源原始報文數據，具體包括以下步驟：

9、獲取用戶配置的標準化處理任務參數。

10、根據標準化處理任務參數，定時向多個數據源發送數據獲取請求，接收并存儲各數據源返回的原始報文數據，得到多數據源原始報文數據。

11、可選地，目標數據結構為股東結構，目標數據結構特征包括目標字段特征和數據關聯特征；ai智能體通過意圖識別匹配進入的數據處理流程為股東結構提取流程；股東結構提取流程包括從多數據源原始報文數據中篩選目標字段特征和數據關聯特征相關字段的步驟。

12、可選地，該方法還包括以下步驟：

13、構建跨平臺同義詞庫，并通過人工匹配建立初始的報文規則字段映射表；報文規則字段映射表用于關聯不同數據源的原始報文數據字段與標準化輸出字段；跨平臺同義詞庫用于存儲不同數據源中語義相近的字段名稱。

14、在滿足預設觸發條件后，采用nlp技術自動識別潛在的語義相近的字段對，并生成更新建議。

15、經由人工審核確認后，將納入跨平臺同義詞庫并根據更新建議更新報文規則字段映射表。

16、可選地，預設觸發條件包括數據積累時長達到預設時間段、新增數據源數量達到預設閾值或字段匹配誤差率超過預設誤差閾值。

17、可選地，在將數據映射后的目標數據結構字段按標準化輸出字段及預設格式進行輸出時，若預設格式為結構化數據格式，通過json序列化引擎將語義對齊后的結果映射為預定義結構的json對象，供api調用方解析；若預設格式為可視化數據格式，則基于圖表渲染規則庫，將結果中的數值型字段轉換為圖表數據模型并生成可嵌入頁面的圖表描述文件；圖表數據模型對應的圖表類型至少包括折線圖、柱狀圖和雷達圖。

18、第二方面，本技術提供了一種多數據源企業信息標準化處理系統，包括以下功能模塊：

19、原始報文數據獲取模塊，用于獲取目標企業的多數據源原始報文數據；多數據源原始報文數據的數據源至少包括第一數據源和第二數據源。

20、數據處理流程匹配模塊，用于解析多數據源原始報文數據提取元特征集，并通過api接口將元特征集及目標數據結構傳遞至ai智能體，通過意圖識別匹配對應的數據處理流程；元特征集包括多數據源原始報文數據的數據源標識類特征、字段結構類特征和數據格式類特征；ai智能體用于提煉元特征集和識別目標數據結構特征，并通過意圖識別匹配與數據源類型和目標數據結構特征對應的數據處理流程；不同的數據源類型及目標數據結構特征預設有不同的數據處理流程。

21、目標數據字段映射模塊，用于基于數據處理流程，采用nlp技術識別多數據源原始報文數據中的目標數據結構字段，并結合預設的報文規則字段映射表，對多數據源原始報文數據的目標數據結構字段進行數據映射。

22、標準化輸出模塊，用于定義標準化輸出字段及預設格式，將數據映射后的目標數據結構字段按標準化輸出字段及預設格式進行輸出；預設格式包括結構化數據格式和可視化數據格式。

23、第三方面，本技術提供了一種計算機設備，包括：存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述計算機程序以實現前文所述的多數據源企業信息標準化處理方法的步驟。

24、第四方面，本技術提供了一種計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執行時實現前文所述的多數據源企業信息標準化處理方法的步驟。

25、第五方面，本技術提供了一種計算機程序產品，包括計算機程序，該計算機程序被處理器執行時實現前文所述的多數據源企業信息標準化處理方法的步驟。

26、根據本技術提供的具體實施例，本技術公開了以下技術效果：

27、本技術提供了一種多數據源企業信息標準化處理方法及相關裝置，在該方法中，首先依據用戶配置的標準化處理任務參數，自動定時獲取目標企業的多數據源原始報文數據，無需人工逐個登錄不同數據源平臺采集數據，相比現有技術中依賴人工獲取多數據源報文數據的方式，有效避免人工采集的繁瑣性與時效性差的問題，顯著縮短數據獲取周期，為后續標準化處理環節奠定高效基礎，初步降低人力成本；隨后解析多數據源原始報文數據提取元特征集，可讓系統精準區分不同數據源類型、捕捉字段核心屬性，并通過api接口將元特征集及目標數據結構傳遞至ai智能體，提煉與目標結構識別，替代現有技術中人工逐個解讀數據源文檔、手動判斷數據處理方向的操作，避免人工解讀的主觀誤差與效率低下問題，ai智能體通過意圖識別匹配對應的數據處理流程，確保任何情況下都能匹配到針對性的處理邏輯，減少無效處理步驟，進一步提升整體處理效率與精準度；之后采用nlp技術可精準識別不同數據源中語義相近但表述不同的字段，解決現有技術中人工難以全面、準確判斷字段語義的問題，提升字段識別準確性；同時，預設的報文規則字段映射表替代人工手動定義字段合并規則，避免人工映射的誤差；最后通過明確的標準化輸出字段確保輸出數據符合統一規范，無需人工二次整理格式，節省數據應用前的準備時間；結構化數據格式和可視化數據格式的設置，適配多數實際業務場景，相比現有技術中輸出格式單一的問題，大幅提升數據的實用性，讓標準化后的數據能直接服務于多樣化業務需求。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：陸宇峰,李松亞,石贇
技術所有人：上海歐冶金誠信息服務股份有限公司
我是此專利的發明人

上一篇：一種帶有定位連接結構的母線槽系統的制作方法
下一篇：一種殺菌裝置及出水設備的制作方法

相關技術

基于ERP的多源數據標準化處理方法及系統與流程

基于元模型自適應匹配的多源異構數據標準化處理方法及終端與流程

一種面向信息系統集成服務的高效數據處理方法與流程

針對信息系統集成中數據孤島、清洗不徹底及關聯分析不足等問題，提出通過異構數據采集、文本數值解析清洗、統一向量化處理、業務主題域分類存儲及可視化分析的全流程解決方案。采用NLP與正則表達式拆分數...

一種基于多源數據治理與融合的高效數據處理方法及系統與流程

針對多源異構數據導致的數據孤島與語義沖突問題，提出分層架構的治理-融合-處理閉環系統。通過數據接入標準化、元數據管理、實體匹配算法、分布式計算框架等技術，實現碎片化數據的清洗、對齊、關聯與價值...

一種多源數據融合處理方法和系統與流程

面向鋼鐵行業數據治理的數據處理方法和裝置與流程

一種面向主數據管理的多源異構數據融合系統及方法

一種數據處理方法及裝置的制作方法

針對源單據與目標單據數據存在差異時，需精準補足差額的問題，提出通過建立調差數據表生成調差序列的解決方案。核心思路是計算分配數額總和與源單據的差值，將差值與分配數額合并為調差序列，并利用定位信息...

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術

相關技術