本技術涉及音頻處理,尤其涉及音頻處理方法、裝置、設備及存儲介質。
背景技術:
1、目前,將立體聲音頻信號上混為多聲道沉浸式音頻信號主要依賴于基于聲場擴展原理的算法或固定模板,這類方案通常將立體聲音頻信號視為整體進行處理,通過分析左右聲道間的關系來估計并分配一個概略性的空間印象。
2、然而,這類方案通常并未實現人聲、樂器等不同音源的精準分離,導致各聲音對象在聲場中定位模糊、干擾嚴重;同時無法結合音樂自身結構特點適配個性化位置坐標或動態軌跡,難以呈現貼合音樂表達的三維沉浸效果,使得處理后得到的音頻聲場在藝術表現力上存在不足。
3、綜上,如何提升多聲道沉浸式音頻信號的生成質量,儼然已成為本領域亟需解決的技術問題。
技術實現思路
1、本技術的主要目的在于提供一種音頻處理方法、裝置、設備及存儲介質,旨在提升多聲道沉浸式音頻信號的生成質量。
2、為實現上述目的,本技術提出一種音頻處理方法,音頻處理方法包括:
3、將立體聲音頻信號輸入至預設的音源分離模型,得到多個獨立的音頻對象;
4、從所述立體聲音頻信號中獲取各所述音頻對象各自的原始空間信息,以及,獲取所述立體聲音頻信號的音樂結構信息;
5、基于所述原始空間信息和所述音樂結構信息生成所述音頻對象在三維沉浸聲場中的目標空間參數,其中,所述目標空間參數包括位置坐標和/或移動軌跡;
6、基于所述目標空間參數對各所述音頻對象進行渲染,得到多聲道沉浸式音頻信號。
7、在一實施例中,所述基于所述原始空間信息和所述音樂結構信息生成所述音頻對象在三維沉浸聲場中的目標空間參數的步驟之前,還包括:
8、通過所述音源分離模型,獲取所述音頻對象在時間維度上的活躍度信息;
9、所述基于所述原始空間信息和所述音樂結構信息生成所述音頻對象在三維沉浸聲場中的目標空間參數的步驟,包括:
10、根據所述活躍度信息確定所述音頻對象在時間軸上的有效區間;
11、在所述有效區間內,基于所述原始空間信息和所述音樂結構信息生成所述音頻對象在三維沉浸聲場中的目標空間參數。
12、在一實施例中,所述基于所述原始空間信息和所述音樂結構信息生成所述音頻對象在三維沉浸聲場中的目標空間參數的步驟之后,還包括:
13、通過預設的用戶交互界面展示所述音頻對象對應的圖標元素在所述三維沉浸聲場中的可視化場景;
14、響應于用戶在所述用戶交互界面中的觸控指令,更新所述音頻對象在所述三維沉浸聲場中的所述目標空間參數。
15、在一實施例中,所述用戶交互界面中還包括與所述可視化場景聯動的時間線編輯器和模擬控件,所述響應于用戶在所述用戶交互界面中的觸控指令,更新所述音頻對象在所述三維沉浸聲場中的所述目標空間參數的步驟,包括:
16、響應于用戶對所述圖標元素的拖拽操作,調節所述音頻對象在所述三維沉浸聲場中的所述目標空間參數;
17、響應于所述用戶對所述模擬控件的觸控操作,調節所述音頻對象在所述三維沉浸聲場中的所述目標空間參數;
18、響應于所述用戶在所述時間線編輯器中為所述音頻對象選定目標時間區間的操作,在所述可視化場景或所述模擬控件中,接收所述用戶對所述音頻對象在所述目標時間區間內輸入的調節指令,并根據所述調節指令調節所述音頻對象在所述三維沉浸聲場中的所述目標空間參數。
19、在一實施例中,所述從所述立體聲音頻信號中獲取各所述音頻對象各自的原始空間信息的步驟,包括:
20、對所述立體聲音頻信號進行聲像分析,得到所述立體聲音頻信號在各時頻單元上的初始方向信息;
21、獲取各所述音頻對象在各所述時頻單元上所占權重的對象激活信息;
22、對于各所述音頻對象,根據所述對象激活信息對所述初始方向信息進行加權融合,得到所述音頻對象的原始空間信息。
23、在一實施例中,所述基于所述目標空間參數對各所述音頻對象進行渲染,得到多聲道沉浸式音頻信號的步驟,包括:
24、若音頻輸出模式為耳機輸出,則采用基于對象音頻的雙耳渲染算法對各所述音頻對象進行渲染,得到多聲道沉浸式音頻信號;
25、若音頻輸出模式為多揚聲器系統輸出,則獲取聽音空間中揚聲器的布局信息,并根據所述布局信息采用高階高保真度立體聲響復制算法對各所述音頻對象進行渲染,得到多聲道沉浸式音頻信號。
26、在一實施例中,所述音源分離模型為基于多任務學習架構的神經網絡模型,所述音源分離模型包括編碼器、瓶頸層和解碼器,所述將立體聲音頻信號輸入至預設的音源分離模型,得到多個獨立的音頻對象的步驟,包括:
27、將立體聲音頻信號輸入至預設的音源分離模型,以通過所述編碼器提取所述立體聲音頻信號的共享特征;
28、通過所述瓶頸層從所述共享特征中提取核心特征;
29、通過所述解碼器對所述核心特征進行處理,得到多個獨立的音頻對象,其中,所述解碼器包括人聲分離分支、樂器分離分支和音源活躍度檢測分支。
30、此外,為實現上述目的,本技術還提出一種音頻處理裝置,音頻處理裝置包括:
31、音源分離模塊,用于將立體聲音頻信號輸入至預設的音源分離模型,得到多個獨立的音頻對象;
32、信息獲取模塊,用于從所述立體聲音頻信號中獲取各所述音頻對象各自的原始空間信息,以及,獲取所述立體聲音頻信號的音樂結構信息;
33、空間參數生成模塊,用于基于所述原始空間信息和所述音樂結構信息生成所述音頻對象在三維沉浸聲場中的目標空間參數,其中,所述目標空間參數包括位置坐標和/或移動軌跡;
34、渲染模塊,用于基于所述目標空間參數對各所述音頻對象進行渲染,得到多聲道沉浸式音頻信號。
35、此外,為實現上述目的,本技術還提出一種電子設備,電子設備包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,計算機程序配置為實現如上文的音頻處理方法的步驟。
36、此外,為實現上述目的,本技術還提出一種存儲介質,存儲介質為計算機可讀存儲介質,存儲介質上存儲有計算機程序,計算機程序被處理器執行時實現如上文的音頻處理方法的步驟。
37、本技術提出了一種音頻處理方法,本技術將立體聲音頻信號輸入至預設的音源分離模型,得到多個獨立的音頻對象;從立體聲音頻信號中獲取各音頻對象各自的原始空間信息,以及,獲取立體聲音頻信號的音樂結構信息;基于原始空間信息和音樂結構信息生成音頻對象在三維沉浸聲場中的目標空間參數,其中,目標空間參數包括位置坐標和/或移動軌跡;基于目標空間參數對各音頻對象進行渲染,得到多聲道沉浸式音頻信號。
38、綜上可知,本技術通過先對立體聲音頻信號進行音源分離處理,得到獨立的各個音頻對象,進而通過結合立體聲音頻信號的原始空間信息與音樂結構信息,使得生成的音頻對象在三維沉浸聲場中的目標空間參數既能繼承原始立體聲混音的空間設計意圖,又能根據音樂自身的音樂結構進行動態編排,打破了傳統固定模板的僵化模式,最后通過基于音頻對象的空間化渲染,得到藝術表現力更佳的多聲道沉浸式音頻信號。