本技術涉及數據處理,尤其涉及軟體臂多臂協同控制方法、裝置、電子設備及存儲介質。
背景技術:
1、隨著柔性材料與機器人技術的深度融合,軟體機器人憑借其無限自由度、高順應性以及極佳的機理安全性,在復雜狹窄空間作業及人機協同領域展現出巨大的應用潛力。在多臂協同作業場景下,通常需要實時獲取各軟體臂的構型數據并轉化為驅動指令,以實現高精度的路徑規劃與目標操作;在相關技術中,進行軟體臂控制時,通常依賴于預設的解析幾何模型或簡化的離線運動學查表法,通過將實時傳感器數據與固定規則匹配來生成離散的控制點指令,從而驅動軟體臂完成基本的協同動作。
2、然而,由于軟體機器人具備高度非線性、材料大形變以及低阻尼易振動等物理特性,傳統的規則驅動或簡化模型控制難以準確捕捉軟體臂在動態作業中的高維復合狀態,導致多臂協同過程中的感知維度單一且實時性差;此外,又由于現有技術中輸出的離散控制指令在映射至軟體臂驅動器時,忽略了力矩在物理空間上的連續分布特性,容易導致動作突變、末端超調或殘差振動明顯,從而無法在滿足驅動硬件上限約束的前提下,實現平滑且高可靠的空間連續協同控制。
技術實現思路
1、本技術實施例提供了一種軟體臂多臂協同控制方法、裝置、電子設備及存儲介質,能夠在滿足驅動硬件上限約束的前提下,實現平滑且高可靠的空間連續協同控制。
2、為實現上述目的,本技術實施例的第一方面提出了一種軟體臂多臂協同控制方法,所述方法包括:
3、獲取每個軟體臂在當前狀態下的實時復合觀測狀態,所述實時復合觀測狀態包括每個所述軟體臂的位姿特征、運動學特征以及多臂協同感知特征;
4、將所述實時復合觀測狀態輸入協同控制模型進行策略推演,得到每個所述軟體臂對應的連續動作分量;
5、基于每個所述軟體臂對應的驅動上限參數,得到力矩縮放因子,并基于所述力矩縮放因子對所述連續動作分量進行線性映射處理,得到力矩控制參數;
6、將所述力矩控制參數作為b樣條曲線的控制點輸入插值函數,生成沿所述軟體臂的軸線方向連續分布的空間連續力矩分布;
7、根據多個所述空間連續力矩分布驅動每個對應的所述軟體臂執行協同動作。
8、在一些實施例中,所述獲取每個軟體臂在當前狀態下的實時復合觀測狀態,包括:
9、基于每個所述軟體臂的本體位姿向量,得到所述位姿特征;
10、根據所述位姿向量的階次變化率,計算得到用于表征對應的所述軟體臂運動趨勢的所述運動學特征;
11、基于每個所述軟體臂之間的空間拓撲關聯屬性,得到所述多臂協同感知特征;
12、基于所述位姿特征、所述運動學特征以及所述多臂協同感知特征進行特征聚合對齊,得到所述實時復合觀測狀態。
13、在一些實施例中,所述協同控制模型的獲取步驟包括:
14、獲取每個所述軟體臂的材料非線性參數、結構幾何參數以及多臂作業空間約束,并根據所述材料非線性參數、所述結構幾何參數及所述多臂作業空間約束構建多臂協同仿真環境;
15、基于所述多臂協同仿真環境確定所述協同控制模型的觀測空間、動作空間以及協同獎勵模型;
16、基于所述觀測空間、所述動作空間以及所述協同獎勵模型,生成初始協同控制模型;
17、對所述初始協同控制模型進行模型訓練,并基于訓練后的所述初始協同控制模型得到所述協同控制模型。
18、在一些實施例中,所述根據所述材料非線性參數、所述結構幾何參數及所述多臂作業空間約束構建多臂協同仿真環境,包括:
19、根據所述結構幾何參數,將每個所述軟體臂離散化為預設數量的離散節點,并基于所述材料非線性參數建立每個所述離散節點之間的初始勢能平衡方程;
20、基于cosserat桿理論建立各所述離散節點在三維空間下的運動微分方程,得到所述軟體臂的非線性力學模型;
21、根據所述多臂作業空間約束,生成障礙物包絡以及每個所述軟體臂的基座的相對坐標矩陣;
22、配置位置verlet積分引擎,所述位置verlet積分引擎用于對執行動作后的所述非線性力學模型進行動力學解算;
23、基于所述初始勢能平衡方程、所述非線性力學模型、所述相對坐標矩陣以及所述位置verlet積分引擎,生成所述多臂協同仿真環境。
24、在一些實施例中,所述協同獎勵模型的生成過程,包括:
25、在所述多臂協同仿真環境中,獲取每個所述軟體臂相對于協同目標的距離偏差,并基于所述距離偏差的反比函數得到任務引導獎勵;
26、獲取每兩個所述軟體臂之間的包絡間距,當所述包絡間距小于預設閾值時生成反饋負值,基于所述反饋負值得到協同避障獎勵;
27、獲取每個所述軟體臂在執行動作過程中的驅動能量損耗,并基于所述驅動能量損耗得到能耗約束獎勵;
28、對所述任務引導獎勵、所述協同避障獎勵及所述能耗約束獎勵進行加權求和,得到所述協同獎勵模型。
29、在一些實施例中,所述對所述初始協同控制模型進行模型訓練,包括:
30、在每一輪迭代中,基于cosserat桿理論建立所述多臂協同仿真環境的初始勢能平衡,并生成各所述軟體臂的初始位姿;
31、獲取各所述軟體臂在所述多臂協同仿真環境中的實時復合狀態向量,所述實時復合狀態向量包括各離散單元的局部切向基矢量;
32、利用行動者網絡將所述實時復合狀態向量映射為b樣條肌肉力矩控制點,并調用位置verlet積分器在所述多臂協同仿真環境中進行動力學步進,以獲取下一時刻的狀態向量及所述協同獎勵模型反饋的實時獎勵值;
33、利用雙評論者網絡對當前的所述實時復合狀態向量、所述b樣條肌肉力矩控制點以及所述實時獎勵值進行價值評定,得到評定結果;
34、基于評定結果更新所述初始協同控制模型中所述行動者網絡的行動網絡參數和所述雙評論者網絡的評論網絡參數。
35、在一些實施例中,所述基于評定結果更新所述初始協同控制模型中所述行動者網絡的行動網絡參數和所述雙評論者網絡的評論網絡參數,包括:
36、在所述雙評論者網絡的所述評論網絡參數更新預設次數后,對所述行動者網絡的行動網絡參數進行更新;
37、利用目標網絡平滑技術,對更新后的所述行動網絡參數及所述評論網絡參數進行滑動平均處理。
38、為實現上述目的,本技術實施例的第二方面提出了一種軟體臂多臂協同控制裝置,所述裝置包括:
39、獲取模塊,用于獲取每個軟體臂在當前狀態下的實時復合觀測狀態,所述實時復合觀測狀態包括每個所述軟體臂的位姿特征、運動學特征以及多臂協同感知特征;
40、策略推演模塊,用于將所述實時復合觀測狀態輸入協同控制模型進行策略推演,得到每個所述軟體臂對應的連續動作分量;
41、力矩參數確定模塊,用于基于每個所述軟體臂對應的驅動上限參數,得到力矩縮放因子,并基于所述力矩縮放因子對所述連續動作分量進行線性映射處理,得到力矩控制參數;
42、力矩分布確定模塊,用于將所述力矩控制參數作為b樣條曲線的控制點輸入插值函數,生成沿所述軟體臂的軸線方向連續分布的空間連續力矩分布;
43、協同控制模塊,用于根據多個所述空間連續力矩分布驅動每個對應的所述軟體臂執行協同動作。
44、為實現上述目的,本技術實施例的第三方面提出了一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現如第一方面所述的軟體臂多臂協同控制方法。
45、為實現上述目的,本技術實施例的第四方面提出了一種存儲介質,所述存儲介質為計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述第一方面所述的軟體臂多臂協同控制方法。
46、本技術實施例提出的軟體臂多臂協同控制方法、裝置、電子設備及存儲介質,方法包括:首先,獲取每個軟體臂在當前狀態下的實時復合觀測狀態,實時復合觀測狀態包括每個軟體臂的位姿特征、運動學特征以及多臂協同感知特征;然后,將實時復合觀測狀態輸入協同控制模型進行策略推演,得到每個軟體臂對應的連續動作分量;其次,基于每個軟體臂對應的驅動上限參數,得到力矩縮放因子,并基于力矩縮放因子對連續動作分量進行線性映射處理,得到力矩控制參數;接下來,將力矩控制參數作為b樣條曲線的控制點輸入插值函數,生成沿軟體臂的軸線方向連續分布的空間連續力矩分布;最后,根據多個空間連續力矩分布驅動每個對應的軟體臂執行協同動作。本技術實施例通過獲取包含位姿特征、運動學特征及多臂協同感知特征的實時復合觀測狀態,能夠實時、準確地捕捉軟體臂在動態作業中的高維非線性復合狀態,有效解決了傳統規則驅動感知維度單一且實時性差的問題;同時,通過結合驅動上限參數的力矩縮放處理與b樣條曲線插值機制,將模型推演得到的連續動作分量轉化為沿軟體臂軸線方向連續分布的空間連續力矩分布,這不僅確保了驅動指令嚴格滿足硬件物理約束,更克服了現有技術中離散控制指令忽略物理空間連續性而導致的動作突變、末端超調及殘差振動缺陷,從而實現了軟體多臂系統在復雜協同環境下的平滑、穩定且高可靠的空間連續協同控制。
47、本技術的其它特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本技術而了解。本技術的目的和其他優點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。