基于神經網絡的空間濾波器:方向信息輔助的目標說話人語音分離

文:顧容之 陳聯武 張世雄 徐勇 鄭脊萌 蘇丹 鄒月嫻 俞棟2019年第四期

近來,針對多說話人語音分離任務,基于深度學習的有監督學習方法取得了長足的進展。其中,由于多通道語音中提取出的聲源空間信息可以提供更充分的語音分離線索,因此多通道語音分離方法往往能取得比單通道語音分離更好的效果。常見的多通道語音分離方法將頻域特征(對數功率譜)和通道間空域特征在神經網絡輸入層拼接,然后,神經網絡采用理想時頻掩膜作為監督信息,估計目標說話人的時頻掩膜以分離出目標說話人語音。本文設計了兩種方向性特征,以表征來自目標方向的聲源在各個時頻點上的主導程度。本文提出將方向性特征作為神經網絡的額外輸入特征,以提供與頻域和空域特征互相補足的分離線索,使得語音分離模型學習到的時頻掩膜估計誤差更小。此外,為了緩解空域歧義問題,即多個說話人方向相近的情況,本文還引入了注意力機制使得模型可以動態地調整對不同輸入特征的關注程度。本文在仿真的遠場WSJ02-mix和3-mix數據庫上進行實驗,相較于單通道和多通道的其它基線方法,所提的方法較顯著地提升了語音分離系統的性能。

關鍵詞:目標說話人語音分離,方向性特征,注意力機制,置換不變訓練

1.1.jpg

1.2.jpg

1.3.jpg

1.4.jpg

1.5.jpg

1.6.jpg

1.7.jpg

1.8.jpg

1.9.jpg

1.10.jpg

1.11.jpg

1.12.jpg

1.13.jpg

1.14.jpg

1.15.jpg

1.16.jpg

1.17.jpg

1.18.jpg

1.19.jpg

1.20.jpg

1.21.jpg

1.22.jpg

1.23.jpg

1.24()).jpg

1.25.jpg

1.26.jpg

1.27.jpg

1.28.jpg

1.29.jpg

1.30.jpg

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期