一種基于推理步驟解構與差異化監督的知識蒸餾方法

文檔序號：45748040發布日期：2026-06-10 00:21閱讀：1來源：國知局

本發明涉及人工智能，具體為一種基于推理步驟解構與差異化監督的知識蒸餾方法。

背景技術：

1、大型語言模型在復雜推理任務中展現出卓越的性能，但其參數量動輒數百億甚至上千億，導致推理延遲高、計算資源消耗大，嚴重制約了其在資源受限場景（如移動終端、邊緣設備）中的部署應用。知識蒸餾作為一種有效的模型壓縮技術，通過讓學生模型模仿教師模型的輸出，在保持性能的前提下大幅降低模型規模，已成為大模型輕量化的重要技術路徑。然而，現有知識蒸餾方法在面向復雜推理任務時存在明顯局限：傳統輸出蒸餾僅要求學生模型擬合教師模型的最終答案，忽略了推理過程本身蘊含的思維邏輯，導致學生模型只學會“是什么”而難以掌握“為什么”，在需要多步推理的任務上性能衰減嚴重；部分改進方法嘗試引入教師模型的思維鏈作為監督信號，但仍將整個思維鏈視為平坦的token序列進行整體建模，未能區分不同推理步驟在語義類型與重要性上的差異，使得學生模型在能力有限的情況下難以同時捕捉推理過程中的細節信息與全局結構，造成“細節丟失”與“全局理解受損”的雙重困境。

2、針對上述問題，現有技術主要分為三類演進方向。第一類是標準輸出蒸餾，僅以教師模型的最終答案為監督目標，其優勢在于訓練簡單，但缺陷在于完全無法傳遞推理能力，學生模型缺乏對問題解決路徑的理解。第二類是序列蒸餾，將教師模型生成的完整思維鏈作為序列生成任務進行監督，該方法雖能傳遞部分推理過程，但由于將不同推理步驟等權重對待，無法引導學生模型關注邏輯推理、策略規劃等關鍵步驟，且在訓練中容易因能力差距而產生過擬合或欠擬合。第三類是步驟蒸餾，如distilling?step-by-step方法，其進步在于將推理步驟顯式作為額外的監督信號，但仍將各步驟視為同等重要的平坦單元，未能根據步驟的語義特征和認知復雜度進行差異化處理。

3、綜上所述，現有技術均未解決推理步驟類型感知與差異化監督的核心技術問題，如何在蒸餾過程中實現對不同推理步驟的細粒度區分與針對性強化，仍是本領域亟待突破的技術瓶頸。

技術實現思路

1、本發明為了解決現有技術的問題，提供了一種基于推理步驟解構與差異化監督的知識蒸餾方法。

2、為了解決上述技術問題，本發明是通過以下技術方案實現的：第一方面，一種基于推理步驟解構與差異化監督的知識蒸餾方法，包括以下步驟：

3、步驟s1：獲取教師模型針對輸入問題生成的推理過程，所述推理過程被解構為按行分隔的多個推理步驟，每個推理步驟對應一個獨立的推理單元；

4、步驟s2：對每個推理步驟進行類型標注，確定其所屬的推理類型，并為每種推理類型分配預設的權重值；當一個推理步驟同時被識別為多種推理類型時，采用權重疊加方式計算該步驟的綜合權重；

5、步驟s3：構建訓練數據，所述訓練數據包括輸入問題、教師模型的推理步驟序列及其對應的綜合權重；

6、步驟s4：以所述訓練數據對學生模型進行蒸餾訓練，在訓練過程中，根據每個推理步驟的綜合權重對損失函數進行加權計算，得到加權損失；

7、步驟s5：根據所述加權損失更新學生模型參數，直至模型收斂，得到蒸餾后的學生模型。

8、在第一方面的一種具體的實施方式中，步驟s2中所述類型標注由教師模型自動完成，標注時依據預設的推理類型分類體系，所述推理類型包括：基礎計算、基本事實、操作執行、邏輯推理、策略規劃。

9、在第一方面的一種具體的實施方式中，所述推理類型的識別通過關鍵詞匹配或語義判斷實現；當一個推理步驟同時屬于多種推理類型時，所述權重疊加方式為將各類型對應的權重值相加，且疊加后的綜合權重上限為1.0。

10、在第一方面的一種具體的實施方式中，所述推理類型及其權重設置如下：

11、基礎計算：權重為0.3，對應算術運算步驟；

12、基本事實：權重為0.4，對應事實檢索或信息提取步驟；

13、操作執行：權重為0.6，對應應用方法、公式或規則步驟；

14、邏輯推理：權重為0.8，對應條件判斷、因果分析或邏輯推導步驟；

15、策略規劃：權重為1.0，對應解題計劃制定、方法選擇或問題分解步驟。

16、在第一方面的一種具體的實施方式中，步驟s4中所述加權損失包括加權思維鏈損失和最終答案損失，所述加權損失的計算方式為：

17、

18、其中，為思維鏈中token總數，為第個token所屬推理步驟的綜合權重，為交叉熵損失函數，和分別為教師模型和學生模型在最終答案上的輸出概率分布，和為預設的權重系數。

19、在第一方面的一種具體的實施方式中，所述取值為0.7，取值為0.3。

20、在第一方面的一種具體的實施方式中，所述教師模型為參數量大于或等于300億的大型語言模型，所述學生模型為參數量小于或等于100億的中小型語言模型。

21、在第一方面的一種具體的實施方式中，步驟s4中所述蒸餾訓練過程中，采用多組基線方法進行對比實驗，所述基線方法包括：

22、基線方法1：僅對最終答案進行監督的標準輸出蒸餾；

23、基線方法2：將整個思維鏈作為平坦序列進行監督的序列蒸餾；

24、基線方法3：將推理步驟視為等權重進行監督的步驟蒸餾；

25、通過對比測試集答案準確率驗證本方法的優越性。

26、第二方面，一種基于推理步驟解構與差異化監督的知識蒸餾系統，包括：

27、推理步驟解構模塊，用于獲取教師模型生成的推理過程，并將其按行分隔為多個推理步驟；

28、類型標注模塊，用于對每個推理步驟進行類型識別，并分配對應的權重；當同一推理步驟對應多種類型時，采用權重疊加方式計算綜合權重；

29、訓練數據構建模塊，用于生成包含輸入問題、推理步驟序列及綜合權重的訓練樣本；

30、加權蒸餾訓練模塊，用于在學生模型訓練過程中，根據推理步驟的綜合權重對損失進行加權，并更新模型參數；

31、輸出模塊，用于輸出訓練完成的學生模型。

32、在第二方面的一種具體的實施方式中，所述類型標注模塊內置推理類型分類體系，所述推理類型包括基礎計算、基本事實、操作執行、邏輯推理、策略規劃，并分別對應不同的權重。

33、本發明的有益效果為：

34、1.本發明通過構建步驟解構-類型標注-加權監督的閉環技術架構，實現了對教師模型推理過程的結構化建模與差異化知識遷移。具體地，首先將教師模型生成的思維鏈按行分割為獨立推理單元，解決了傳統方法中將推理過程視為黑盒的整體監督問題；在此基礎上，建立包含基礎計算、基本事實、操作執行、邏輯推理、策略規劃的五級推理類型體系，并為每一類型預設差異化權重，通過關鍵詞匹配與語義判斷相結合的方式完成步驟級類型標注，對復合推理步驟采用權重加法疊加并設上限，實現了對推理步驟語義復雜度的精確量化；進一步，在蒸餾訓練中構建加權損失函數，將每個推理步驟的差異化權重引入交叉熵損失，對關鍵推理步驟施加更強的監督信號，同時保留最終答案損失以平衡推理過程與結果的學習。該技術方案使學生模型能夠分層次、有側重地習得教師模型的推理能力，有效解決了現有方法因平坦序列監督導致的“細節丟失”與“全局理解受損”問題，顯著提升了知識蒸餾的細粒度與可解釋性。

35、基于上述技術架構，本發明在實際部署中展現出可量化的技術優勢。實驗結果表明，在數學推理任務上，相較于僅監督答案的標準輸出蒸餾、將思維鏈作為整體的平坦序列蒸餾、以及等權重步驟蒸餾，本發明方法在測試集準確率上分別提升14.8%、9.0%和4.6個百分點，驗證了差異化監督機制對推理能力遷移的有效性。從系統實現角度，本發明通過模塊化解耦，將推理步驟解構、類型標注、加權訓練等功能組件化，各模塊輸入輸出明確、參數范圍可調，教師模型參數量不低于300億、學生模型參數量不超過100億的架構設計兼顧了推理能力與部署效率，學習率、批量大小、權重系數等關鍵超參數均有明確的優選范圍和調整空間，確保了技術方案的可復現性與工程適用性。綜上，本發明在模型壓縮領域實現了從“結果模仿”到“過程理解”的技術躍升，為復雜推理任務中的大模型輕量化部署提供了完整且高效的技術路徑。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：葉贏利
技術所有人：浙江大學
我是此專利的發明人

上一篇：一種煤礦運輸裝置的制作方法
下一篇：一種新型的貨車支撐桿用手把的制作方法

該領域下的技術專家

1、李老師：1.計算力學 2.無損檢測

2、畢老師：機構動力學與控制

3、袁老師：1.計算機視覺 2.無線網絡及物聯網

4、王老師：1.計算機網絡安全 2.計算機仿真技術

5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用

網友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點贊！

文明留言，給您點贊！

同類技術