Learning soft mask with DNN and DNN-SVM for multi-speaker DOA estimation using an acoustic vector sensor
語音聲源到達角(DirectionofArrival,DOA)估計是服務機器人聽覺感知系統的關鍵技術之一,其功能是為服務機器人提供準確的語音聲源所在方向估計。在真實復雜的聲學環境中,遠場語音聲源的DOA估計易受到噪聲、混響和干擾的影響,一直是學術界的研究熱點。為了提高對語音聲源DOA估計的精度和魯棒性,同時考慮到陣列尺寸和易搭載需求,本文創新地提出采用聲學矢量傳感器(AcousticVectorSensor,AVS)拾取語音聲源,在保持傳感器物理體積小的前提下獲取多路語音信號,其次,在本團隊前期工作基礎上,創新地提出了一種基于有監督學習的語音信號主導時頻點魯棒提取方法,同時實現了語音聲源DOA估計的魯棒性和準確性。具體內容為:(1)根據人耳基于局部時頻區域實現語音感知與分離的生理學機制,提出了一種新的級聯局部語譜塊(TandemLocalSpectrogramBlock,TLSB)特征,該特征能夠有效區分語音信號主導時頻點和干擾信號主導時頻點;(2)通過構造大量不同噪聲和混響環境下的TLSB數據集,訓練一個深度神經網絡(DeepNeuralNetwork,DNN)語音信號主導時頻點軟膜估計器,用于提取目標主導時頻點;(3)為了減少人為設定閾值,提升算法可擴展性,提出采用DNN模型最后一層隱含層特征表示,訓練支持向量機(SupportVectorMachine,SVM)實現軟膜估計;(4)利用提取出的語音主導時頻點計算傳感器間數據比(Inter-SensorDataRatio,ISDR),采用核密度聚類方法對ISDR進行聚類可實現多聲源的DOA估計。通過大量實驗證明,驗證了本文提出的方法在不同的噪聲和混響環境中都具有更高的DOA估計精度和魯棒性。
中傳動網版權與免責聲明:
凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊
- 運動控制
- 伺服系統
- 機器視覺
- 機械傳動
- 編碼器
- 直驅系統
- 工業電源
- 電力電子
- 工業互聯
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯接
- 工業機器人
- 低壓電器
- 機柜