一種從多源數據集成視角構建企業知識圖譜的方法與流程

文檔序號：16754702發布日期：2019-01-29 17:14閱讀：399來源：國知局

技術簡介：
本專利針對企業知識圖譜構建中多源數據孤立、集成困難的問題，提出基于領域本體與Karma建模的多源異構數據融合方法，結合Neo4j存儲與Jena推理引擎實現知識補全與存儲，構建統一企業知識庫，提升數據利用效率與服務智能化水平。
關鍵詞：多源數據集成,企業知識圖譜

本發明屬于數據處理技術領域，涉及一種從多源數據集成視角構建企業知識圖譜的方法。

背景技術：

知識圖譜利用圖的方式關聯信息，將知識結構化、標準化。知識圖譜構建需要綜合利用知識表示(knowledgerepresentation,kr)、自然語言處理(naturallanguageprocess，nlp)、機器學習(machinelearning，ml)、數據庫(database，db)等方法和技術。隨著互聯網相關技術的不斷發展，人們經歷了傳統的以文檔為中心的web1.0時代和以用戶內容為中心的web2.0時代，目前web3.0已經逐漸成為了日益增長的各種web資源的存儲庫。web3.0時代是以知識互聯為主要目標，通過構建人與機器都可理解的知識網絡，充分利用和挖掘海量的互聯網數據來服務人類。但是，數據規模大、來源豐富、類型復雜、變化迅速等諸多特征使得對互聯網中數據的挖掘和充分利用充滿挑戰。知識圖譜通過深入的語義分析和數據挖掘，將海量的互聯網數據高效組織為知識網絡，以直觀的方式對知識進行搜索和展現，同時也為大數據分析、智能問答、個性化推薦等提供重要保障。

目前，針對知識圖譜構建方面的研究工作主要存在以下問題：①許多研究工作都孤立地強調了知識圖譜構建過程中的某一環節，例如知識圖譜中知識的表示、圖譜的存儲和知識的抽取等。②政府企業大數據方面的知識圖譜比較匱乏，許多政府部門的企業基礎數據僅僅是孤立的存在，沒有實現數據之間的互聯互通。這些基礎數據服務的主體一般是人，有些數據只是偶爾被機器閱讀。

因此，如何構建“以人為中心”面向企業領域的知識圖譜，將政府和互聯網中的企業大數據高效地利用起來，將孤立的數據節點融合到統一的知識庫中，為用戶提供一個友好、人性化的企業信息服務平臺尤為重要。

技術實現要素：

本發明的目的在于提供一種從多源數據集成視角構建企業知識圖譜的方法，本發明的有益效果是從構建領域本體和karma建模實現多源異構數據集成的角度可以快速構建“以人為中心”的企業知識圖譜，提高領域知識圖譜構建的速度并節省知識圖譜構建的成本。構建的企業知識圖譜可以將政府和互聯網中的企業大數據高效地利用起來，將孤立的數據節點融合到統一的知識庫中，為用戶提供一個友好、人性化的企業信息服務平臺。

本發明所采用的技術方案是從數據獲取、知識融合和知識加工存儲來構建企業知識圖譜；其中，數據獲取方法為：企業數據集一部分來自政府的關系數據庫，另一部分通過構建網頁爬蟲抽取百度百科、互動百科中相關的企業信息數據集，數據采用json格式存儲，針對百科類網頁數據的抽取，構建一套基于webmagic框架的企業爬蟲系統，通過編寫正則表達式來獲取網頁中的企業信息數據。知識融合方法：針對的主要是多源異構的結構化數據集，提出了基于本體和karma建模的多源異構數據集成方法，對獲取到的企業相關數據集進行分析和整理，抽取出實體類、對象屬性和數據屬性等本體的相關概念，半自動化構建了企業法人本體，利用構建本體和一種開源集成開發工具karma構建karma模型實現多源異構數據的快速集成與融合，統一發布成rdf數據；知識加工方法：基于jena推理引擎完成企業知識圖譜中上下位推理、缺失類別補全、一致性檢測和自定義規則推理四大功能，對已有的知識進行補全和修正。知識存儲方法：采用neo4j圖數據庫對知識圖譜進行持久化存儲，通過構建rdf2neo4j解釋器，將rdf三元組數據導入neo4j圖數據庫中進行存儲。

進一步，企業爬蟲系統的工作流程：第一步，針對政府提供的企業數據進行解析，抽取其中的企業實體名稱。利用百度百科提供統一的api接口，自動拼接初始url；

第二步，下載器使用apachehttpclient作為下載組件對提供的初始url發起請求，獲取網頁對象page；

第三步，頁面解析器采用pageprocessor中的process方法對網頁進行解析，使用jsoup解析html頁面成dom樹，通過cssselector抽取有用的信息資源以及發現新的種子url，針對企業詞條，主要抽取詞條標題、infobox和詞條概述等三個部分；

第四步，調度器負責管理待抓取的url以及去重操作；

第五步，管道器處理抽取的網頁數據，主要包括保存數據到文件或數據庫等。

進一步，基于本體的karma建模方法：

第一步是導入本體和多源異構的結構化數據集，支持導入的數據格式包括電子表格、關系數據庫、xml、csv、json等；

第二步是清洗規范數據，確保數據格式和內容的完整性；

第三步是設置數據列的語義類型，導入本體之后，需要在本體與不同數據源之間建立語義映射，解決一詞多義或多詞一義等語義異構問題；

第四步是指定語義類型之間的關系，根據本體和設置的數據列語義類型構建節點之間的語義關聯圖。

進一步，知識加工采用jena推理引擎通過對企業法人本體和集成發布的企業rdf數據進行上下位推理、缺失類別補全、一致性檢測和自定義規則推理，完成知識補全和修正。具體方法：①引入rdfs推理機，利用rdfs中subclassof關鍵字判別概念之間是否存在上下位關系；②引入owl推理機對個體類別做完整性推理，補充該個體的缺失類別；③通過jena提供的validate接口檢測本體的不一致性，生成檢測報告并打印不一致實例的具體信息；④采用swrl(semanticwebrulelanguage)描述用戶自定義規則，用戶通過定義推理規則庫來實現規則推理。

進一步，知識存儲方法具體步驟如下：

使用jenaapi解析rdf文件，獲取每個三元組中的主語、謂語和賓語，將三元組封裝為對象；構建rdf2neo4j解釋器，利用cypher語句將rdf的主語映射成節點node類的value屬性值，謂語映射成關系property類的value屬性值，賓語映射成節點node類的value屬性值。如果出現多個節點的value值相同的情況，則融合為同一節點。指定neo4j的用戶名、密碼、ip和端口等參數，使用neo4japi將映射后的三元組對象集合導入neo4j數據庫服務器。

進一步，基于知識圖譜和可視化技術設計企業知識圖譜應用檢索系統，包括：①系統簡介：闡述系統的主要功能和特點，介紹領域本體構建、karma建模、圖數據庫以及數據集來源等；②企業和法人實體查詢：提供針對企業實體或法人實體的查詢功能；③關系查詢：提供對兩個不同企業法人關系路徑查詢，并同時展現與之相關聯的企業節點；④企業數據分析統計：提供企業分布區域的地圖展現功能和企業數據的分析統計，可采用圖形可視化的方式來顯示企業數據。

附圖說明

圖1是一種多源數據集成視角的企業知識圖譜構建方法；

圖2是基于webmagic的企業爬蟲框架；

圖3是采用本體和karma建模的多源數據集成方法；

圖4是知識圖譜rdf數據的neo4j存儲方案；

圖5是企業知識圖譜應用系統。

具體實施方式

下面結合具體實施方式對本發明進行詳細說明。

本發明面向政府的企業大數據領域，提出一種基于領域本體建模和karma建模實現多源異構數據集成視角的知識圖譜構建方法，該方法從數據獲取、知識融合和知識加工存儲構建企業知識圖譜和企業知識圖譜應用系統，使用戶和開發者可以通過功能豐富的應用界面，方便地使用政府部門的基礎數據，真正實現不同部門之間數據的互聯互通。對政府部門基礎數據的融合和應用具有重要意義。

第一方面，本發明提出了一種基于多源異構數據快速集成的知識圖譜構建方法，該方法的流程如圖1所示，知識圖譜的構建可以分為數據獲取、知識融合、知識加工存儲三個部分。數據集一部分來自政府的關系數據庫，另一部分通過構建網頁爬蟲抽取百度百科中相關的企業信息數據集，數據采用json格式存儲，針對百科類網頁數據的抽取。

構建了一套基于webmagic框架的企業爬蟲系統，通過編寫正則表達式來獲取網頁中需要的數據，爬蟲系統的整體框架如圖2所示。該框架主要包括以下四個組件：下載器、頁面解析器、調度器、管道組件。在爬蟲容器中，將這幾個組件組織起來，通過相互交互和流程化的執行，根據具體需求完成數據抽取。

企業爬蟲系統的工作流程：第一步，針對政府提供的企業數據進行解析，抽取其中的企業實體名稱。利用百度百科提供統一的api接口，自動拼接初始url。

第二步，下載器使用apachehttpclient作為下載組件對提供的初始url發起請求，獲取網頁對象page。

第三步，頁面解析器采用pageprocessor中的process方法對網頁進行解析，使用jsoup解析html頁面成dom樹，通過cssselector抽取有用的信息資源以及發現新的種子url。針對企業詞條，主要抽取詞條標題、infobox和詞條概述等三個部分。

第四步，調度器負責管理待抓取的url以及去重操作。

第五步，管道器負責處理抽取的網頁數據，主要包括保存數據到文件或數據庫等。

知識融合針對的主要是多源異構的結構化數據集，提出了基于企業法人本體和karma建模實現多源異構數據集成與融合的方法，其工作步驟如圖3所示。

對獲取到的數據集進行分析和整理，抽取出實體類、對象屬性和數據屬性等本體的相關概念，完成企業法人本體的構建。

karma建模的第一步是導入本體和多數據源的結構化數據集，該方法適用導入的數據格式包括電子表格、關系數據庫、xml、csv、json等。針對mysql數據源，通過指定數據庫服務器的url、數據庫名稱、用戶名、密碼等參數導入相關數據，其中可以設定導入的行數和字符編碼格式等信息。

karma建模的第二步是清洗規范數據，確保數據格式和內容完整。

karma建模的第三步是指定數據列的語義類型。導入本體之后，在本體與不同數據源之間建立語義映射，解決一詞多義或多詞一義等語義異構問題。karma采用條件隨機場crf(conditionrandomfield)模型去學習基于先前用戶提出的數據類型，根據本體和數據字段識別不同數據間的映射關系和字段的語義類型，從而為未分配語義的字段推薦語義類型。

karma建模的第四步是指定語義類型之間的關系。karma通過斯坦納樹steinertree算法計算出連接數據源和本體概念之間所有語義關系的最小樹。

發布r2rml(rdb到rdf映射)模型和統一的rdf數據。利用r2rml模型可以快速構建本體與數據列之間的語義映射，從而提高大數據集成的效率。發布的rdf數據具有語法規范、語義清晰的特性，是知識圖譜的表達方式之一。開發者可以對統一的rdf數據進行知識推理以挖掘隱含的知識，也可以對知識圖譜中的實例數據進行補全和修正。

知識加工主要是對發布的rdf數據進一步完善。本發明采用jena的推理引擎進行本體推理主要包括以下步驟：①model是jena核心的數據結構，首先要是用模型工廠factorymodel類創建知識庫的相關信息，這包括本體和rdf三元組數據。②通過推理機注冊器reasonerregister類構建特定的推理機，將其與模型對象(model)綁定，生成具有推理功能的模型對象(infmodel)。③根據實際的業務需求，利用jenaapi對已建立的數據模型進行推理和計算。

針對多源數據集成構建的知識圖譜主要包含了描述上層概念的本體和rdf三元組數據，表達了特定領域中概念之間和實例之間存在的直接關系，但針對知識圖譜中隱含的信息，并不能直接通過簡單查詢得到。

本發明主要基于jena推理引擎完成企業法人本體和集成發布的企業rdf數據的上下位推理、缺失類別補全、一致性檢測和自定義規則推理四大功能，對已有的知識進行補全和修正。具體方法：①引入rdfs推理機，利用rdfs中subclassof關鍵字判別概念之間是否存在上下位關系；②引入owl推理機對個體類別做完整性推理，補充該個體的缺失類別；③通過jena提供的validate接口檢測本體的不一致性，生成檢測報告并打印不一致實例的具體信息；④采用swrl(semanticwebrulelanguage)描述用戶自定義規則，用戶通過定義推理規則庫來實現規則推理。

知識存儲，針對數據間關系的復雜性和動態變化等問題，考慮到知識圖譜的擴展和維護，本發明采用neo4j圖數據庫對知識圖譜進行持久化存儲。neo4j圖數據庫具有強性能、易擴展、支持事務、后臺可視化等特點，能夠有效的組織、存儲和更新動態數據及其關聯，并提供高效的遍歷算法支持多層復雜查詢，在知識存儲和知識表現方面具有重要作用。因此，提出了知識圖譜的rdf數據持久化到neo4j圖數據庫的方案如圖4所示。

基于領域本體和karma建模集成多源異構數據發布的rdf數據，本發明通過構建rdf2neo4j解釋器，將rdf三元組數據導入neo4j圖數據庫中進行存儲，具體步驟如下：

使用jenaapi解析rdf文件，獲取每個三元組中的主語、謂語和賓語，將三元組封裝為對象。

構建rdf2neo4j解釋器，利用cypher語句將rdf的主語映射成節點node類的value屬性值，謂語映射成關系property類的value屬性值，賓語映射成節點node類的value屬性值。如果出現多個節點的value值相同的情況，則融合為同一節點。

指定neo4j的用戶名、密碼、ip和端口等參數，使用neo4japi將映射后的三元組對象集合導入neo4j數據庫服務器。

基于知識圖譜和可視化技術設計企業知識圖譜應用檢索系統，包括：①系統簡介：闡述系統的主要功能和特點，介紹領域本體構建、karma建模、圖數據庫以及數據集來源等；②企業和法人實體查詢：提供針對企業實體或法人實體的查詢功能；③關系查詢：提供對兩個不同企業法人關系路徑查詢，并同時展現與之相關聯的企業節點；④企業數據分析統計：提供企業分布區域的地圖展現功能和企業數據的分析統計，可采用圖形可視化的方式來顯示企業數據。

如圖5所示，系統的整體框架遵循三層架構的設計思想，從下到上依次為數據查詢層、業務邏輯層、表現層，按照“強內聚，弱耦合”的思想劃分業務領域。

系統整體采用b/s結構，后端采用springboot框架構建微服務，提供restful接口。前端采用html5和echarts相關技術構建可視化界面，數據庫采用neo4j圖數據庫。通過構建解釋器將rdf數據導入neo4j圖數據庫，實現rdf數據的存儲和可視化。

數據查詢層主要采用springdata模塊操作neo4j圖數據庫，并編寫cypher語句與圖數據庫進行交互，完成對企業數據的統計查詢。

業務邏輯層主要進行的是數據的處理，通過調用數據查詢層對返回的數據進一步封裝，完成數據的統計分析和格式規范。根據需要完成的相關功能進行業務邏輯的編寫，并將封裝后的數據傳遞給表現層，數據交換格式采用json。

表現層將接收到數據傳遞給前端進行渲染，利用echarts組件和html5實現前端頁面的可視化。

以上所述僅是對本發明的較佳實施方式而已，并非對本發明作任何形式上的限制，凡是依據本發明的技術實質對以上實施方式所做的任何簡單修改，等同變化與修飾，均屬于本發明技術方案的范圍內。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：云紅艷;賀英;林莉;張秀華;胡歡
技術所有人：青島大學
我是此專利的發明人

上一篇：高溫高濕不泛白清底漆及其制備方法與流程
下一篇：一種電網維護的監控設備的制作方法

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術