本發明涉及人工智能與自然語言處理,具體涉及一種融合知識圖譜與語義檢索的隧道圍巖問答方法及系統。
背景技術:
1、隨著大語言模型(large?language?model,llm)與檢索增強生成(retrieval-augmented?generation,rag)技術在通用專業知識問答等任務中展現出強大能力,其生成內容的高可靠性與權威性要求日益凸顯。在隧道圍巖標準問答等高度專業化的應用場景中,llm在處理圍巖形態判識與決策規范、行業標準條文時,常因缺乏深度邏輯關聯或數據嚴謹性,生成看似流暢但背離標準條文的幻覺內容。這類錯誤在工程設計、安全生產、行政審批等高風險、嚴肅性場景中可能引發嚴重合規風險。因此,實現對隧道圍巖標準的精準、深層、權威檢索已成為可信人工智能應用領域的關鍵挑戰。
2、目前,針對專業領域知識問答的增強方法主要集中在單純的語義檢索或淺層知識增強層面,典型方法包括以下幾類:
3、第一類是基于向量空間相似度的語義召回方法。該類方法通過將查詢語句與文檔片段轉化為嵌入向量,計算二者余弦相似度來召回與查詢語義最相關的文本片段。此類方法雖通用性強,但存在明顯缺陷:(1)邏輯鏈條斷裂:隧道圍巖標準文件往往具有復雜的引用關系,單純的語義相似度難以捕捉跨文檔的邏輯拓撲,導致回答內容片面;(2)關鍵詞偏移:在專業術語高度密集的場景下,語義相近的片段可能并非具體查詢實體上的關鍵證據,難以滿足對條文精準定位的需求。
4、第二類是基于知識圖譜的多跳鄰居檢索方法。有研究嘗試利用知識圖譜存儲實體關系,通過匹配查詢語句中的核心實體作為錨點,檢索其直接關聯的屬性或鄰居節點。然而,這類方法通常僅能處理簡單的事實性問答,未對知識進行深度挖掘。更重要的是,現有技術多停留在單點知識提取階段,缺乏對實體間深層隱含關聯的系統性分析,難以應對涉及前置條件、適用范圍及排他性條款的復雜隧道圍巖邏輯咨詢。
5、第三類是基于通用隧道圍巖語料微調的生成方法。該類方法通常利用通用指令數據集或開放域語料對大語言模型進行微調,以期提升模型在特定任務上的生成能力。然而,通用數據集在文本表達上往往以經驗性或弱約束形式為主,普遍缺乏隧道圍巖具體標準、行業規范所要求的規范化術語體系、嚴格邏輯結構及條款級語義約束。此外,標準及行業規范類文本通常具有規模大、結構層級復雜、更新頻繁等特點。若采用對全部或大規模行業文本進行模型微調的方式,不僅需要消耗大量計算資源與訓練時間,而且在模型參數規模受限的情況下,難以完整保留細粒度規范信息,甚至可能引入通用語料中的語義偏差,從而影響模型在專業領域的生成準確性與穩定性。
6、綜上所述,現有技術存在以下核心問題:
7、一是缺乏深度多跳知識推理能力。現有方法無法有效挖掘實體間的三跳及以上鄰居關系,限制了對隧道圍巖行業標準邏輯鏈條的完整還原能力,難以捕捉標準條文間的間接引用、制約及從屬關系。
8、二是語義與結構的融合度不足。現有技術未能有效結合向量空間的語義相似度與知識圖譜的拓撲結構信息,導致檢索結果在“意圖匹配”與“事實關聯”之間失衡,既無法保證語義相關性,又難以確保證據的權威性與邏輯完整性。
9、三是缺乏專業領域問答數據集支撐。現有方案過度依賴通用語料,缺乏基于標準、行業文件構建的高精密問答對數據集,難以保障生成內容的嚴謹性與法律效力,無法滿足高風險場景下對可溯源、可審計的技術需求。
技術實現思路
1、本發明旨在解決現有技術在隧道圍巖標準問答場景下存在的邏輯關聯缺失、權威性不足及語義偏差的問題,提出一種融合知識圖譜與語義檢索的隧道圍巖問答方法及系統。
2、本發明解決上述技術問題所采用的技術方案是:
3、第一方面,本發明提供一種融合知識圖譜與語義檢索的隧道圍巖問答方法,所述方法包括:
4、對收集的隧道圍巖標準文件和行業規范文件進行結構化解析,提取條文正文及條文間的制約關系、引用關系及從屬關系,據此構建行業標準問答對數據集以及對應的向量索引庫,并生成包含實體關系鏈的知識圖譜實體庫;
5、接收用戶輸入的原始查詢語句,調用預訓練大語言模型接口,從所述原始查詢語句中識別并提取關鍵實體及意圖標簽,并將所述關鍵實體映射至知識圖譜實體庫中作為初始錨點實體;
6、以所述初始錨點實體為中心,在所述知識圖譜實體庫中執行深度為三跳的鄰域遍歷,并根據所述意圖標簽確定鄰域遍歷的優先方向,獲取所述初始錨點實體的三跳鄰居節點及關系三元組,生成用于還原標準條文間間接引用邏輯的結構化邏輯鏈條;
7、將所述原始查詢語句轉化為查詢特征向量,在所述向量索引庫中進行近鄰搜索,計算所述查詢特征向量與向量索引庫中條文向量的余弦相似度,召回余弦相似度排名最高的top-n語義相關條文片段,作為非結構化上下文證據;
8、利用所述結構化邏輯鏈條對召回的top-n語義相關條文片段進行背景補全與沖突校驗,并將處理后的條文片段與所述結構化邏輯鏈條進行融合,構成融合證據鏈;
9、根據所述行業標準問答對數據集中的標準范式以及所述意圖標簽,對所述融合證據鏈進行合規性約束,生成與用戶意圖相匹配且具備條文溯源依據的最終回答。
10、進一步地,在生成用于還原標準條文間間接引用邏輯的結構化邏輯鏈條之后,還包括:
11、計算知識覆蓋率,所述知識覆蓋率隨最終問答一同輸出,用于評估所述結構化邏輯鏈條對隧道圍巖標準深層邏輯鏈條的還原能力,其計算公式為:
12、;
13、其中,表示知識覆蓋率,表示初始錨點實體所構成的集合,表示行業標準問答對數據集中標準答案包含的實體證據集,表示以初始錨點實體為中心執行深度為三跳的鄰域遍歷所獲取的三跳鄰居節點所構成的集合,表示集合中元素的個數。
14、進一步地,在召回余弦相似度排名最高的top-n語義相關條文片段之后,還包括:
15、計算語義一致性得分,所述語義一致性得分隨最終問答一同輸出,用于評價所述top-n語義相關條文片段與用戶真實意圖的契合程度,其計算公式為:
16、;
17、其中,表示語義一致性得分,表示召回的語義相關條文片段的數量,表示查詢特征向量,表示向量索引庫中第個被召回的條文片段向量,表示預設的權重衰減系數,表示歐幾里得范數,表示查詢特征向量與第個條文片段向量的余弦相似度。
18、進一步地,在生成具備條文溯源依據的最終回答之后,還包括:
19、計算綜合評價指標,并將所述綜合評價指標隨最終問答一同輸出,所述綜合評價指標用于衡量綜合檢索準確度,其計算公式為:
20、;
21、其中,表示綜合評價指標,表示知識覆蓋率,表示語義一致性得分。
22、進一步地,所述預訓練大語言模型接口通過設計針對性的提示詞引導,從所述原始查詢語句中識別出核心業務實體和技術指標關鍵詞,作為所述關鍵實體,并從所述原始查詢語句中識別出意圖標簽。
23、進一步地,以所述初始錨點實體為中心,在所述知識圖譜實體庫中執行深度為三跳的鄰域遍歷,具體包括:
24、以所述初始錨點實體為起點,根據所述意圖標簽確定優先遍歷方向,遍歷其所有直接關聯的一跳鄰居節點,再以所述一跳鄰居節點為起點遍歷其關聯的二跳鄰居節點,最后以所述二跳鄰居節點為起點遍歷其關聯的三跳鄰居節點,以還原標準條文間的間接引用邏輯。
25、進一步地,利用所述結構化邏輯鏈條對召回的top-n語義相關條文片段進行背景補全與沖突校驗,具體包括:
26、獲取所述結構化邏輯鏈條中包含的實體及實體間的拓撲結構信息;
27、對所述top-n語義相關條文片段進行實體提取,得到第一實體集合;
28、將所述第一實體集合與結構化邏輯鏈條中的實體進行比對,識別top-n語義相關條文片段中與結構化邏輯鏈條存在實體關聯的關聯條文片段,以及與所述結構化邏輯鏈條不存在實體關聯的孤立條文片段;
29、利用所述拓撲結構信息對關聯條文片段進行背景補全,補充其在結構化邏輯鏈條中關聯的前置條件、適用范圍或排他性條款信息;
30、將所述孤立條文片段標記為噪聲信息并進行去噪處理,從召回的top-n語義相關條文片段中剔除或降低其權重。
31、進一步地,將處理后的條文片段與所述結構化邏輯鏈條進行融合,具體包括:
32、確定所述初始錨點實體在結構化邏輯鏈條中的第二實體集合,以及所述初始錨點實體在處理后的條文片段中的第三實體集合;
33、計算所述第二實體集合與第三實體集合的實體重合度,所述實體重合度用于表征所述結構化邏輯鏈條與處理后的條文片段在實體層面的關聯程度;
34、根據所述實體重合度對處理后的條文片段進行重排序,其中,實體重合度越高的條文片段,在重排序中具有越高的權重;
35、將重排序后的條文片段與所述結構化邏輯鏈條進行融合。
36、進一步地,對融合證據鏈進行合規性約束,具體包括:
37、將所述融合證據鏈與所述行業標準問答對數據集中的標準范式進行比對,根據所述意圖標簽選擇與用戶意圖相匹配的標準范式,識別所述融合證據鏈中與標準范式相匹配的證據條目;
38、根據所述標準范式中規定的條文表述格式、邏輯結構及術語規范,對所述融合證據鏈進行合規性約束,將其調整為符合所述行業標準問答對數據集中標準范式的規范化表述;
39、將經過合規性約束后的融合證據鏈,按照所述標準范式中證據引用的呈現方式,生成包含條文來源、條款編號及引用關系的溯源信息;
40、基于所述規范化表述與溯源信息,生成與用戶意圖相匹配且具備條文溯源依據的最終回答。
41、第二方面,本發明提供一種融合知識圖譜與語義檢索的隧道圍巖問答系統,用于實現如第一方面所述的融合知識圖譜與語義檢索的隧道圍巖問答方法,所述系統包括:
42、數據庫構建模塊,用于對收集的隧道圍巖標準文件和行業規范文件進行結構化解析,提取條文正文及條文間的制約關系、引用關系及從屬關系,據此構建行業標準問答對數據集以及對應的向量索引庫,并生成包含實體關系鏈的知識圖譜實體庫;
43、多維實體提取模塊,用于接收用戶輸入的原始查詢語句,調用預訓練大語言模型接口,從所述原始查詢語句中識別并提取關鍵實體及意圖標簽,并將所述關鍵實體映射至知識圖譜實體庫中作為初始錨點實體;
44、雙路聯合召回模塊,用于以所述初始錨點實體為中心,在所述知識圖譜實體庫中執行深度為三跳的鄰域遍歷,并根據所述意圖標簽確定鄰域遍歷的優先方向,獲取所述初始錨點實體的三跳鄰居節點及關系三元組,生成用于還原標準條文間間接引用邏輯的結構化邏輯鏈條;將所述原始查詢語句轉化為查詢特征向量,在所述向量索引庫中進行近鄰搜索,計算所述查詢特征向量與向量索引庫中條文向量的余弦相似度,召回余弦相似度排名最高的top-n語義相關條文片段,作為非結構化上下文證據;
45、知識沖突校驗模塊,用于利用所述結構化邏輯鏈條對召回的top-n語義相關條文片段進行背景補全與沖突校驗,并將處理后的條文片段與所述結構化邏輯鏈條進行融合,構成融合證據鏈;
46、增強回答生成模塊,用于根據所述行業標準問答對數據集中的標準范式以及所述意圖標簽,對所述融合證據鏈進行合規性約束,生成與用戶意圖相匹配且具備條文溯源依據的最終回答。
47、本發明的有益效果是:本發明提供的融合知識圖譜與語義檢索的隧道圍巖問答方法及系統,通過構建行業標準問答對數據集并同步建立知識圖譜實體庫與向量索引庫,在接收用戶查詢后提取關鍵實體及意圖標簽,一方面以關鍵實體作為初始錨點實體執行深度為三跳的鄰域遍歷并根據意圖標簽確定鄰域遍歷的優先方向,生成用于還原標準條文間間接引用邏輯的結構化邏輯鏈條,另一方面并行進行語義相似度檢索召回top-n語義相關條文片段,進而對雙路召回結果進行背景補全與沖突校驗后融合形成證據鏈,并結合行業標準問答對數據集中的標準范式和意圖標簽進行合規性約束,最終生成與用戶意圖相匹配且具備條文溯源依據的權威回答,從而有效解決了現有技術中邏輯鏈條斷裂、語義與結構融合不足以及專業問答數據集缺失等核心問題,顯著提升了隧道圍巖標準問答的深層邏輯還原能力、語義匹配精準度與生成內容的權威性,從源頭上抑制了知識幻覺的產生,為高風險工程場景提供了可信任、可審計的技術支撐,具備部署友好、響應迅速、工程落地成本低的顯著優勢。