1.一種軟體臂多臂協同控制方法,其特征在于,所述方法包括:
2.根據權利要求1所述的軟體臂多臂協同控制方法,其特征在于,所述獲取每個軟體臂在當前狀態下的實時復合觀測狀態,包括:
3.根據權利要求1所述的軟體臂多臂協同控制方法,其特征在于,所述協同控制模型的獲取步驟包括:
4.根據權利要求3所述的軟體臂多臂協同控制方法,其特征在于,所述根據所述材料非線性參數、所述結構幾何參數及所述多臂作業空間約束構建多臂協同仿真環境,包括:
5.根據權利要求3所述的軟體臂多臂協同控制方法,其特征在于,所述協同獎勵模型的生成過程,包括:
6.根據權利要求3所述的軟體臂多臂協同控制方法,其特征在于,所述對所述初始協同控制模型進行模型訓練,包括:
7.根據權利要求6所述的軟體臂多臂協同控制方法,其特征在于,所述基于評定結果更新所述初始協同控制模型中所述行動者網絡的行動網絡參數和所述雙評論者網絡的評論網絡參數,包括:
8.一種軟體臂多臂協同控制裝置,其特征在于,所述裝置包括:
9.一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的軟體臂多臂協同控制方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7任一項所述的軟體臂多臂協同控制方法。