本發(fā)明涉及數(shù)據(jù)處理,具體為基于人工智能的臨床研究報告自動撰寫系統(tǒng)及方法。
背景技術(shù):
1、臨床研究報告(csr)是一份全面的監(jiān)管報告,描述了臨床研究中觀察到的數(shù)據(jù)和結(jié)果,一般要求在研究結(jié)束時撰寫,也有可能在研究過程中的其他時間產(chǎn)生;目前報告自動生成技術(shù)是一項廣泛應(yīng)用的技術(shù),在臨床醫(yī)學(xué)領(lǐng)域,大多數(shù)臨床研究報告生成模型在初始步驟中僅考慮醫(yī)學(xué)影像或醫(yī)學(xué)報告、醫(yī)學(xué)影像和醫(yī)學(xué)報告特征信息匹配度不高的問題,導(dǎo)致對關(guān)鍵語義提取不足與模型魯棒性下降的問題;
2、近年來,隨著人工智能技術(shù)的快速發(fā)展,特別是大語言模型在自然語言處理各類任務(wù)上的成功應(yīng)用,報告的自動撰寫也得到了新的發(fā)展機(jī)遇;通過大語言模型,能夠根據(jù)自然語言表達(dá)的自動生成相應(yīng)的報告,在生成臨床研究報告的過程中,通常提出大語言模型進(jìn)行訓(xùn)練,并提出跨模態(tài)注意力機(jī)制,從而進(jìn)行全參數(shù)微調(diào),這種方法消耗大量計算資源,且易破壞預(yù)訓(xùn)練的大語言模型的知識完整性,缺乏對不良反應(yīng)特征的顯式約束機(jī)制,誤檢率高,最終導(dǎo)致生成的報告不準(zhǔn)確;
3、另外,現(xiàn)代臨床醫(yī)學(xué)報告的生成高度依賴醫(yī)療設(shè)備輸出的檢測數(shù)據(jù),包括影像學(xué)設(shè)備(ct、mri)、體外診斷設(shè)備(生化分析儀、血細(xì)胞儀)及生命體征監(jiān)測設(shè)備(心電監(jiān)護(hù)儀、呼吸機(jī))等,這些設(shè)備理論上應(yīng)為臨床研究報告生成提供客觀、實時的數(shù)據(jù)支撐;然而,現(xiàn)有報告生成流程存在顯著的設(shè)備數(shù)據(jù)脫節(jié)問題,導(dǎo)致診斷準(zhǔn)確性受損,進(jìn)而影響臨床研究報告的準(zhǔn)確性,在一定程度上會引發(fā)醫(yī)療差錯。
技術(shù)實現(xiàn)思路
1、(一)解決的技術(shù)問題
2、針對現(xiàn)有技術(shù)的不足,本發(fā)明提供了基于人工智能的臨床研究報告自動撰寫系統(tǒng)及方法,解決了背景技術(shù)中提出的問題。
3、(二)技術(shù)方案
4、為實現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實現(xiàn):
5、第一方面,本技術(shù)提供了一種基于人工智能的臨床研究報告自動撰寫系統(tǒng),包括:
6、數(shù)據(jù)采集模塊,采集用戶上傳的臨床研究數(shù)據(jù)和設(shè)備畫像數(shù)據(jù),并提煉報告要素;
7、關(guān)系映射模塊,基于報告要素,獲取臨床研究過程與報告要素具有映射關(guān)系的實體、實體類型以及對應(yīng)的參數(shù)點,獲取臨床研究過程與報告要素具有映射關(guān)系的不良反應(yīng)類型、病灶區(qū)域,從臨床研究過程中獲取與報告要素具有映射關(guān)系的研究設(shè)備內(nèi)部結(jié)構(gòu);
8、訓(xùn)練微調(diào)模塊,基于映射關(guān)系,設(shè)置多條件編碼器,構(gòu)建對應(yīng)的微調(diào)指令,對大語言模型進(jìn)行多條件微調(diào),并訓(xùn)練更新,獲得優(yōu)化的大語言模型。
9、進(jìn)一步地,提煉報告要素的步驟,包括:
10、從用戶上傳的臨床研究數(shù)據(jù)中提取研究要求,包括研究文獻(xiàn)、研究課題、研究方案、研究進(jìn)展、目標(biāo)病癥、目標(biāo)病狀;
11、從設(shè)備畫像數(shù)據(jù)中提取設(shè)備要求,包括設(shè)備老化要求和設(shè)備性能要求;
12、將研究要求和設(shè)備要求相結(jié)合,生成報告要素。
13、進(jìn)一步地,在獲取映射關(guān)系中,還包括:
14、解析報告要素,至少包括數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換;
15、確定待上傳的若干研究類型,采用biobert模型提取病狀、癥狀以及藥物實體,并獲取對應(yīng)的參數(shù)點,通過規(guī)則引擎匹配維度,執(zhí)行量化評估策略,獲取對應(yīng)的評估特征集和訓(xùn)練樣本量,并采用預(yù)設(shè)的大語言模型進(jìn)行預(yù)訓(xùn)練;其中,評估數(shù)據(jù)集包括匹配效率、匹配準(zhǔn)確率以及融合覆蓋率;
16、以各實體為節(jié)點,調(diào)取各實體類型,構(gòu)建包含目標(biāo)疾病-目標(biāo)癥狀-目標(biāo)藥物-研究類型的醫(yī)學(xué)知識圖譜;基于醫(yī)學(xué)知識圖譜獲取任一實體對應(yīng)的參數(shù)點,將參數(shù)點對應(yīng)的數(shù)值標(biāo)準(zhǔn)化為相對位置指標(biāo),繪制參數(shù)變化曲線并疊加顯示動態(tài)標(biāo)準(zhǔn)區(qū)間,當(dāng)檢測至少兩個參數(shù)點超出動態(tài)標(biāo)準(zhǔn)區(qū)間時生成預(yù)警信號,并作為動態(tài)屬性注入至醫(yī)學(xué)知識圖譜上;
17、獲取病灶區(qū)域與報告要素具有映射關(guān)系的權(quán)重;
18、獲取研究設(shè)備內(nèi)部結(jié)構(gòu)與報告要素具有映射關(guān)系的超限閾值。
19、進(jìn)一步地,執(zhí)行量化評估策略,所依據(jù)的公式為:
20、;
21、式中,n表示訓(xùn)練樣本量,dtype表示研究類型,包括平行設(shè)計、析因設(shè)計、交叉設(shè)計以及混合設(shè)計,φ(·)表示對應(yīng)研究類型的特征指數(shù)的非線性加權(quán)結(jié)果,特征指數(shù)至少包括均衡性特征、交互強(qiáng)度特征以及個體差異特征中的一種,h表示標(biāo)準(zhǔn)化因子,βtype表示特征指數(shù)對應(yīng)的權(quán)重系數(shù),es表示基礎(chǔ)樣本量,λ表示調(diào)節(jié)因子。
22、進(jìn)一步地,構(gòu)建微調(diào)指令的步驟,包括:
23、一次微調(diào):基于評估特征集計算出價值指數(shù),將價值指數(shù)與預(yù)設(shè)的標(biāo)準(zhǔn)價值區(qū)間[jz1,jz2]對比分析,自動匹配模板段落,且在觸發(fā)段落基礎(chǔ)模板和段落標(biāo)準(zhǔn)模板的條件下,調(diào)用nlp解釋性段落生成器,并自動標(biāo)注;
24、二次微調(diào):建立聯(lián)合嵌入空間,包括視覺編碼器和文本編碼器,將病灶區(qū)域與報告要素具有映射關(guān)系的權(quán)重輸入至聯(lián)合嵌入空間中,為病灶區(qū)域設(shè)置場景特征矩陣并保留對齊損失度;建立條件編碼器,將權(quán)重和場景特征矩陣輸入至條件編碼器中,當(dāng)檢測到不良反應(yīng)類型則強(qiáng)制約束;
25、三次微調(diào):獲取超過超限閾值的時間戳,隨機(jī)提取該時間戳對應(yīng)時刻前后的若干時刻以組成時序,且時序為動態(tài)變化量;提取該時序中相關(guān)聯(lián)的參數(shù)點對應(yīng)數(shù)值的平均值和波動值,并加權(quán)求和,計算出風(fēng)險等級,并調(diào)取醫(yī)學(xué)知識圖譜,判定參數(shù)點對應(yīng)的數(shù)值結(jié)果是否正確;
26、基于不同的風(fēng)險等級進(jìn)行內(nèi)容識別并標(biāo)簽分類,且風(fēng)險等級分為三級,每一級的風(fēng)險等級對應(yīng)的數(shù)值與生成報告內(nèi)容標(biāo)簽進(jìn)行數(shù)據(jù)綁定,并提供互聯(lián)網(wǎng)大數(shù)據(jù)對風(fēng)險標(biāo)簽進(jìn)行深度學(xué)習(xí);對低于兩級的參數(shù)點,提供參數(shù)點對應(yīng)的校準(zhǔn)數(shù)值,反之,則標(biāo)記為參數(shù)點對應(yīng)的數(shù)值無效,并生成設(shè)備維修指令。
27、進(jìn)一步地,將價值指數(shù)與預(yù)設(shè)的標(biāo)準(zhǔn)價值區(qū)間[jz1,jz2]對比分析:
28、將價值指數(shù)標(biāo)記為value;
29、當(dāng)value<jz1時,匹配段落基礎(chǔ)模板;
30、當(dāng)jz1≤value<jz2時,匹配段落標(biāo)準(zhǔn)模板;
31、當(dāng)value≥jz2時,匹配段落頂級模板。
32、進(jìn)一步地,二次微調(diào)的步驟,包括:
33、建立聯(lián)合嵌入空間,利用視覺編碼器提取病灶區(qū)域的圖像特征,利用文本編碼器提取文本特征,將病灶區(qū)域和報告要素對應(yīng)的特征以及病灶區(qū)域與報告要素具有映射關(guān)系的權(quán)重映射到統(tǒng)一的空間;
34、將每個病灶區(qū)域的圖像特征和文本特征拼接為聯(lián)合特征向量,為病灶區(qū)域設(shè)置場景特征矩陣并保留對齊損失度;
35、當(dāng)檢測到不良反應(yīng)類型時,強(qiáng)制施加約束:loa=max(loa,1.5);
36、式中,loa表示對齊損失度。
37、進(jìn)一步地,提取該時序中相關(guān)聯(lián)的參數(shù)點的步驟中,包括:在組建時序與參數(shù)點的關(guān)聯(lián)關(guān)系時,首先為每個參數(shù)點對應(yīng)的數(shù)值提供判斷標(biāo)準(zhǔn),然后提取每條判斷標(biāo)準(zhǔn)與報告要素的對應(yīng)觸發(fā)關(guān)系。
38、第二方面,本技術(shù)提供了基于人工智能的臨床研究報告自動撰寫方法,包括以下步驟:
39、接收生成報告指令;
40、確定生成報告指令的設(shè)備畫像數(shù)據(jù)和臨床研究數(shù)據(jù),并從中提煉報告要素;
41、基于報告要素,獲取臨床研究過程與報告要素具有映射關(guān)系的實體、實體類型以及對應(yīng)的參數(shù)點,和獲取臨床研究過程與報告要素具有映射關(guān)系的不良反應(yīng)類型、病灶區(qū)域,還從臨床研究過程中獲取與報告要素具有映射關(guān)系的研究設(shè)備內(nèi)部結(jié)構(gòu);
42、基于映射關(guān)系,設(shè)置多條件編碼器,構(gòu)建對應(yīng)的微調(diào)指令,對大語言模型進(jìn)行多條件微調(diào),并訓(xùn)練更新,獲得優(yōu)化的大語言模型。
43、(三)有益效果
44、本發(fā)明提供了基于人工智能的臨床研究報告自動撰寫系統(tǒng)及方法,具備以下有益效果:
45、1、本發(fā)明通過獲取臨床研究過程與報告要素具有映射關(guān)系的實體、實體類型以及對應(yīng)的參數(shù)點,和獲取臨床研究過程與報告要素具有映射關(guān)系的不良反應(yīng)類型、病灶區(qū)域,還從臨床研究過程中獲取與報告要素具有映射關(guān)系的研究設(shè)備內(nèi)部結(jié)構(gòu);不僅實現(xiàn)了從文本到結(jié)構(gòu)化維度的自動化映射,還能通過動態(tài)學(xué)習(xí)和多模態(tài)融合持續(xù)提升匹配精度,形成具有臨床決策價值的智能分析引擎;通過建立醫(yī)學(xué)知識圖譜,提取實體對應(yīng)的參數(shù)點,繪制參數(shù)變化曲線并疊加顯示動態(tài)標(biāo)準(zhǔn)區(qū)間,對醫(yī)學(xué)知識圖譜動態(tài)更新,可實現(xiàn)臨床研究質(zhì)量的智能化、標(biāo)準(zhǔn)化監(jiān)控,顯著提升異常檢測效率與準(zhǔn)確性;
46、2、本發(fā)明先預(yù)訓(xùn)練大語言模型,并基于映射關(guān)系,設(shè)置多條件編碼器,構(gòu)建對應(yīng)的微調(diào)指令,對特定參數(shù)微調(diào),實現(xiàn)大語言模型的優(yōu)化,不僅保證大語言模型的知識完整性,還提高了計算效率;在一次微調(diào)中,基于匹配效率、匹配準(zhǔn)確率以及融合覆蓋率構(gòu)建評估特征集,并計算出價值指數(shù),自動匹配模板段落;在二次微調(diào)中,建立聯(lián)合嵌入空間,為病灶區(qū)域設(shè)置場景特征矩陣并保留對齊損失度,強(qiáng)化病灶,方便后期提取對診斷至關(guān)重要的局部特征,顯著提升對不良反應(yīng)特征的敏感性,對生成報告的語義理解更加深刻;在三次微調(diào)中,將設(shè)備內(nèi)部結(jié)構(gòu)、超限閾值融合于大語言模型中,解決了臨床研究中長期存在的設(shè)備狀態(tài)影響不可見、不可控難題。