時間:2018-07-06 14:46:09來æºï¼šå—方科技大å¸(xué) 葉富強 陳éœ
引言
據(jù)世界衛(wèi)生組織估計,約15%çš„æˆå¹´äººï¼ˆç´„7.66億人)有一定程度的è½åŠ›å—æï¼Œå¹¶ä¸”éš¨è‘—ä¸–ç•Œäººå£çš„æ“´å¼µå’Œäººå£è€é½¡åŒ–,這一數(shù)å—é‚„å°‡æŒçºŒ(xù)上å‡ã€‚å°æ›´é«˜ç´šçš„æ™ºèƒ½åŠ©è½è¨(shè)å‚™çš„å¸‚å ´éœ€æ±‚å°‡æœƒè¶Šä¾†è¶Šå¤§ï¼Œæ™ºèƒ½åŠ©è½è¨(shè)å‚™çš„æ½›åœ¨å¸‚å ´ä¸åƒ…僅局é™äºŽè½åŠ›å—æäººç¾¤ï¼ŒæŠ€è¡“(shù)人員還å¯ä»¥å°‡è©²æŠ€è¡“(shù)應(yÄ«ng)用到人機語音交互ã€å¾©(fù)雜è²å ´ç’°(huán)境下的言語交æµç‰æ–¹é¢ã€‚
è¿‘150年以來,技術(shù)çš„ä¸æ–·è®Šé©åœ¨ä¸æ–·æ”¹å–„助è½è¨(shè)備的性能。早期的通話管(1880年)完全ä¾é å°è²éŸ³çš„æ”¾å¤§è™•ç†ã€‚到了1900年,第一臺電助è½è¨(shè)備誕生,它通éŽç¢³è†œä¾†æ”¾å¤§è²éŸ³ã€‚1921å¹´ï¼Œæ ¹æ“š(jù)使用者è½åŠ›æå¤±é¡žåž‹çš„ä¸åŒï¼Œå‡ºç¾(xià n)使用真空管的助è½è¨(shè)備。隨著晶體管的出ç¾(xià n),1952年第一臺耳背å¼åŠ©è½å™¨èª•生。20世紀80年代,é‡å°è½åŠ›å—æåš´é‡æ‚£è€…,具有臨床æ„義的電å人工耳è¸é¢ä¸–。上世紀90å¹´ä»£ä»¥ä¾†ï¼Œå°‡è²æ³¢ä¿¡è™Ÿè½‰(zhuÇŽn)æ›æˆæ•¸(shù)å—信號的數(shù)å—助è½è¨(shè)å‚™æˆç‚ºä¸»æµï¼Œå¦‚今的助è½è¨(shè)備數(shù)å—信號處ç†èƒ½åŠ›å¼·å¤§ï¼Œå°è²éŸ³é€²è¡Œæ”¾å¤§å‰é‚„需åšèªžéŸ³å¢žå¼·ä»¥åŽ»é™¤èƒŒæ™¯å™ªè²ï¼Œä»¥é€²ä¸€æ¥æé«˜åŠ©è½è¨(shè)備的性能。
如何進行語音增強實ç¾(xià n)é™å™ªæˆç‚ºç›®å‰æé«˜åŠ©è½è¨(shè)備性能的一大技術(shù)挑戰(zhà n)。語音增強包括語音é™å™ªã€èªžéŸ³åˆ†é›¢å’ŒèªžéŸ³åŽ»æ··éŸ¿ç‰ï¼Œå…¶ç›®çš„都是改進語音質(zhì)é‡ï¼Œæ¶ˆé™¤èƒŒæ™¯å™ªè²ã€‚本調(dià o)ç ”æ–‡ç« ä»‹ç´¹çš„èªžéŸ³å¢žå¼·ä¸»è¦ç‚ºèªžéŸ³é™å™ªæŠ€è¡“(shù),將主è¦ä»‹ç´¹å…©ç¨®åŸºäºŽæ©Ÿå™¨å¸(xué)ç¿’(xÃ)的方法,實ç¾(xià n)助è½è¨(shè)備的智能化語音增強。
傳統(tÇ’ng)的語音é™å™ªæŠ€è¡“(shù)
é•·æœŸä»¥ä¾†ï¼Œè¨±å¤šç ”ç©¶äººå“¡è‡´åŠ›äºŽç ”ç©¶èªžéŸ³é™å™ªæŠ€è¡“(shù),這些é™å™ªæŠ€è¡“(shù)å¯ä»¥åˆ†ç‚ºå…©é¡žï¼šå¤šéº¥å…‹é¢¨(fÄ“ng)陣列和單麥克風(fÄ“ng)框架。當目標語音和噪è²åœ¨ç©ºé–“上å¯åˆ†é›¢æ™‚,多麥克風(fÄ“ng)陣列é™å™ªæ–¹æ³•的優(yÅu)勢明顯[1]。然而,在混響環(huán)境ä¸ï¼Œå¤šéº¥å…‹é¢¨(fÄ“ng)çš„é™å™ªæ–¹æ³•的性能é™ä½Žï¼Œå¹¶ä¸”它的應(yÄ«ng)用通常局é™äºŽç›®æ¨™èªžéŸ³å’Œå™ªè²æºç©ºé–“å¯åˆ†é›¢çš„è²å ´[2]ã€‚å› ç‚ºé™„åŠ çš„éº¥å…‹é¢¨(fÄ“ng)å¢žåŠ äº†è¨(shè)å‚™è²»ç”¨å’Œè¨ˆç®—æˆæœ¬ï¼Œå› æ¤ï¼Œèˆ‡å¤šéº¥å…‹é¢¨(fÄ“ng)çš„é™å™ªæ–¹æ³•相比,單麥克風(fÄ“ng)é™å™ªæ–¹æ³•æ›´å…·ç¶“(jÄ«ng)濟優(yÅu)å‹¢ã€‚å› æ¤ï¼Œç ”究人員æå‡ºäº†å¤šç¨®å–®éº¥å…‹é¢¨(fÄ“ng)é™å™ªæŠ€è¡“(shù),例如INTEL[3-4]ã€å°æ•¸(shù)最å°å‡æ–¹èª¤å·®(logMMSE)[5]ã€åŸºäºŽå…ˆé©—信噪比估計的ç¶ç´æ¿¾æ³¢å™¨(Wiener)[6]ã€KLT[7-9]ã€ClearVoice[10]ã€åŸºäºŽä¿¡å™ªæ¯”çš„é™å™ªæ–¹æ³•[11]和廣義最大åŽé©—é »èœæŒ¯å¹…[12]ç‰ã€‚這些é™å™ªæ–¹æ³•大都是基于å°èªžéŸ³å’Œå™ªè²ä¿¡è™Ÿçš„çµ±(tÇ’ng)計å¸(xué)分æžè€Œæå‡ºçš„[13]。å¦ä¸€ç¨®æµè¡Œçš„傳統(tÇ’ng)é™å™ªæ–¹æ³•是使用端點檢測器è˜åˆ¥äººèªªè©±çš„åœé “é–“éš™ï¼Œå°‡æ¤æŒ‡å®šç‚ºå™ªè²ï¼Œç„¶åŽå°‡å…¶å¾žå¸¶å™ªèªžéŸ³ä¸â€œæ¸›åŽ»â€ç²å¾—é™å™ªåŽçš„語音。這種é™å™ªæ–¹æ³•ä¹Ÿè¢«ç¨±ç‚ºèœæ¸›æ³•,但是它通常å°å™ªè²æŠ‘制太少或者消除太多噪è²ï¼Œä»¥è‡³äºŽå°‡ç›®æ¨™èªžéŸ³ä¹Ÿæ¶ˆé™¤äº†ï¼Œé€™ä¹Ÿå°±å¸¶ä¾†äº†è½èµ·ä¾†æœ‰éŸ»å¾‹æ„Ÿçš„音樂噪è²ï¼Œä½¿å¾—é™å™ªåŽçš„語音質(zhì)é‡ä¸‹é™ã€‚
Chenç‰äººåœ¨2015å¹´æ‹›å‹Ÿäººå·¥è€³è¸æ¤å…¥è€…作為被試者,å°å¹¾ç¨®å–®éº¥å…‹é¢¨(fÄ“ng)é™å™ªæ–¹æ³•效果進行了評估,發(fÄ)ç¾(xià n)大多數(shù)é™å™ªæ–¹æ³•åœ¨å™ªè²æ¢ä»¶ä¸‹æœ‰æ•ˆæé«˜äº†äººå·¥è€³è¸æ¤å…¥è€…的語音è˜åˆ¥çŽ‡ã€‚ä½†æ˜¯ï¼Œé€™äº›æ–¹æ³•åœ¨ä¸åŒå™ªè²æ¢ä»¶ä¸‹è¡¨ç¾(xià n)ä¸ä¸€ã€‚傳統(tÇ’ng)的單麥克風(fÄ“ng)é™å™ªæ–¹æ³•在穩(wÄ›n)å®šå™ªè²æ¢ä»¶ä¸‹çµ¦äººå·¥è€³è¸æ¤å…¥è€…的語音è˜åˆ¥å¸¶ä¾†é¡¯è‘—改善,但在具挑戰(zhà n)æ€§å™ªè²æ¢ä»¶ä¸‹ï¼ˆä¾‹å¦‚ç•¶ç«¶çˆä¿¡è™Ÿæ˜¯èªžéŸ³ä¿¡è™Ÿ[14]或快變噪è²[15]),ä»ç„¶æœ‰å¾ˆå¤§çš„æ€§èƒ½æ”¹å–„空間。基于機器å¸(xué)ç¿’(xÃ)çš„é™å™ªæ–¹æ³•在具挑戰(zhà n)æ€§çš„å™ªè²æ¢ä»¶ä¸‹å¾ˆå¥½åœ°å½Œè£œäº†å‚³çµ±(tÇ’ng)é™å™ªæ–¹æ³•çš„çŸæ¿ã€‚
基于噪è²åˆ†é¡žå™¨+深度é™å™ªè‡ªç·¨ç¢¼å™¨çš„é™å™ªæ–¹æ³•
Luç‰äºº2013å¹´æå‡ºäº†ä¸€ç¨®åŸºäºŽæ·±åº¦é™å™ªè‡ªç·¨ç¢¼å™¨(DDAE)çš„é™å™ªæ–¹æ³•,該方法將é™å™ªè½‰(zhuÇŽn)æ›æˆéžç·šæ€§ç·¨ç¢¼-解碼任務(wù),以æ¤ä¾†æ˜ 射噪è²ä¿¡è™Ÿå’Œå¹²å‡ˆèªžéŸ³ä¿¡è™Ÿä¹‹é–“的特å¾ã€‚Luç‰äººç™¼(fÄ)ç¾(xià n),é‡å°å¸¸è¦‹å™ªè²é€²è¡Œé™å™ªï¼Œä½¿ç”¨å¤šç¨®æ¨™æº–化客觀評估,DDAEé™å™ªæ–¹æ³•的性能優(yÅu)于傳統(tÇ’ng)單麥克風(fÄ“ng)é™å™ªæ–¹æ³•[16]。2017年,Laiç‰äººè©•估了éžåŒ¹é…DDAE模型(å³è¨“(xùn)練和測試階段使用ä¸åŒé¡žåž‹çš„噪è²ï¼‰å°ä½¿ç”¨è²ç¢¼å™¨ç”Ÿæˆçš„語音é™å™ªæ•ˆæžœã€‚客觀評估和主觀è½åŠ›æ¸¬è©¦çš„çµ(jié)æžœå‡è¡¨æ˜Žï¼Œåœ¨éžå¹³ç©©(wÄ›n)å™ªè²æ¢ä»¶ä¸‹ï¼ŒDDAEé™å™ªæ–¹æ³•處ç†åŽçš„èªžéŸ³å¯æ‡‚度高于傳統(tÇ’ng)é™å™ªæ–¹æ³•。éžåŒ¹é…çš„DDAE模型已經(jÄ«ng)å¯ä»¥æä¾›è¼ƒå¥½çš„é™å™ªæ•ˆæžœ[17]ï¼Œä½†æ˜¯åªæœ‰ç•¶æ¸¬è©¦é›†å’Œè¨“(xùn)練集噪è²é¡žåž‹ç›¸åŒæ™‚(å³åŒ¹é…çš„DDAE模型),DDAEé™å™ªæ•ˆæžœæ‰èƒ½é”åˆ°æœ€ä½³ã€‚å› æ¤ï¼ŒLaiç‰äººäºŽ2018å¹´æå‡ºäº†ä¸€ç¨®æ–°çš„é™å™ªæ–¹æ³•,å³é‡‡ç”¨é¡å¤–的噪è²åˆ†é¡žå™¨ï¼ˆä»¥ä¸‹ç°¡ç¨±NCï¼‰æ¨¡å¡Šï¼Œä¾†é€²ä¸€æ¥æé«˜åŸºäºŽDDAEé™å™ªæ–¹æ³•的性能。我們稱之為NC+DDAEé™å™ªæ–¹æ³•。
NC+DDAEé™å™ªç³»çµ±(tÇ’ng)的細節(jié)框圖[18]å¯åƒè€ƒåœ–2。當給定帶噪語音信號時,NC模塊首先確定噪è²é¡žåž‹å¹¶é¸æ“‡æœ€åˆé©çš„DDAE模型來執(zhÃ)行é™å™ªã€‚在DDAE模塊ä¸ï¼Œè¨(shè)計了多個噪è²ç›¸é—œ(guÄn)DDAE(noise-dependentDDAE,ND-DDAE)模型和一個與噪è²ç„¡é—œ(guÄn)çš„DDAE(noise-independentDDAE,NI-DDAE)模型。æ¯å€‹ND-DDAEéƒ½æ˜¯æ ¹æ“š(jù)æŸä¸€ç‰¹å®šé¡žåž‹çš„噪è²é€²è¡Œè¨“(xùn)練的,而NI-DDAE則是é‡å°å¤šç¨®å™ªè²é¡žåž‹é€²è¡Œè¨“(xùn)練的。下é¢å°‡åˆ†åˆ¥ä»‹ç´¹NCå’ŒDDAE模塊。
基于深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)的噪è²åˆ†é¡žå™¨æ¨¡å¡Š
NC模塊是基于深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)(deepneuralnetwork,DNN)模型構(gòu)建的。DNN模型是在輸入層和輸出層之間具有許多隱è—層的å‰é¥‹äººå·¥ç¥žç¶“(jÄ«ng)ç¶²(wÇŽng)絡(luò)。如圖2上åŠéƒ¨åˆ†æ‰€ç¤ºï¼Œä½¿ç”¨æ¢…çˆ¾é »çŽ‡å€’èœç³»æ•¸(shù)(Mel-frequencycepstralcoefficients,MFCC)[19-20]作為NC模塊的è²å¸(xué)特å¾ã€‚MFCC廣泛應(yÄ«ng)用于å„種è²å¸(xué)模å¼åˆ†é¡žä»»å‹™(wù),如音樂分類[21]和自動è½è¨º[22]。MFCCç‰¹å¾æå–éŽç¨‹åŒ…括å…個æ¥é©Ÿï¼šï¼ˆ1)é (yù)åŠ é‡ï¼šè£œå„Ÿåœ¨äººé¡žç™¼(fÄ)è²éŽç¨‹ä¸è¢«æŠ‘åˆ¶çš„é«˜é »éƒ¨åˆ†ï¼›ï¼ˆ2ï¼‰åŠ çª—ï¼šçµ¦å®šä¿¡è™Ÿè¢«åˆ†æˆä¸€ç³»åˆ—的幀;(3)快速傅立葉變æ›ï¼šç²å¾—æ¯å¹€çš„é »èœéŸ¿æ‡‰(yÄ«ng)ä»¥é€²è¡Œé »èœåˆ†æžï¼›ï¼ˆ4ï¼‰æ¢…çˆ¾æ¿¾æ³¢ï¼šå°‡æ¢…çˆ¾æ¿¾æ³¢å¸¶çš„é »çŽ‡æˆåˆ†æ•´åˆç‚ºå–®èƒ½é‡å¼·åº¦ï¼›ï¼ˆ5)éžç·šæ€§è®Šæ›ï¼šè©²è®Šæ›å–æ‰€æœ‰æ¢…çˆ¾æ¿¾æ³¢å¸¶å¼·åº¦çš„å°æ•¸(shù)å½¢å¼ï¼›ï¼ˆ6)離散余弦變æ›ï¼šå°‡æ‰€æœ‰æ¢…çˆ¾æ¿¾æ³¢å¸¶å¼·åº¦çš„å°æ•¸(shù)轉(zhuÇŽn)æ›æˆMFCCã€‚ç ”ç©¶è¡¨æ˜Žï¼Œ39ç¶MFCC(13ç¶åŽŸå§‹MFCC+13ç¶ä¸€éšŽMFCC+13ç¶äºŒéšŽMFCC)å¯ä»¥æ›´ç²¾ç¢ºåœ°è¡¨å¾è²å¸(xué)模å¼ï¼Œå¾žè€Œç”¢(chÇŽn)生更好的è˜åˆ¥æ€§èƒ½[23-24]。
在NC模塊ä¸ï¼Œé€™é‡Œé€²ä¸€æ¥é‡‡ç”¨ç½®ä¿¡åº¦ï¼ˆConfidenceMeasure,CM)[25]來評估è˜åˆ¥çµ(jié)果的å¯é 性。CM分數(shù)表示我們å¯ä»¥ç›¸ä¿¡è˜åˆ¥çµ(jié)果的程度:分數(shù)越高表示å°è˜åˆ¥è¼¸å‡ºçš„置信度越高,å之亦然。計算完CM分數(shù)之åŽï¼Œå®šç¾©ä¸€å€‹é–¾å€¼ä»¥å°çµ(jié)æžœä¸çš„ç½®ä¿¡åº¦åˆ†é¡žã€‚å¦‚å‰æ‰€è¿°ï¼ŒNC模塊的目標是確定噪è²é¡žåž‹ï¼Œç„¶åŽæ ¹æ“š(jù)噪è²é¡žåž‹ä¾†é¸æ“‡æœ€åˆé©çš„DDAE模型來執(zhÃ)行é™å™ªã€‚å› æ¤ï¼Œå¦‚果所確定的噪è²é¡žåž‹çš„CMè©•åˆ†é«˜äºŽé–¾å€¼ï¼Œå‰‡é¸æ“‡ç›¸æ‡‰(yÄ«ng)çš„ND-DDAE模型來執(zhÃ)行é™å™ªï¼›å¦ä¸€æ–¹é¢ï¼Œå¦‚æžœCM評分低于閾值,則直接使用NI-DDAE模型來執(zhÃ)行é™å™ªã€‚
基于深度é™å™ªè‡ªç·¨ç¢¼å™¨çš„é™å™ªæ¨¡å¡Š
DDAEé™å™ªæ¨¡å¡Šçš„çµ(jié)æ§‹(gòu)如圖2下åŠéƒ¨åˆ†æ‰€ç¤ºã€‚DDAE是一種有監(jiÄn)ç£çš„é™å™ªæ–¹æ³•,基于DNN的架構(gòu)ï¼Œå¾—åˆ°å¸¶å™ªèªžéŸ³ä¿¡è™Ÿå’Œå¹²å‡ˆèªžéŸ³ä¿¡è™Ÿä¹‹é–“çš„æ˜ å°„å‡½æ•¸(shù)。DDAEé™å™ªæ–¹æ³•有兩個階段:訓(xùn)練和測試階段。在訓(xùn)練階段,準備好一系列帶噪和相應(yÄ«ng)的干凈語音信號å°ï¼›åœ¨è¨“(xùn)練階段,帶噪-干凈語音信號å°é¦–先轉(zhuÇŽn)æ›ç‚ºå°æ•¸(shù)功率èœç‰¹å¾(LogPowerSpectra,LPS),LPS特å¾é€šå¸¸ç”¨åœ¨åŸºäºŽDNNé™å™ªæ–¹æ³•ä¸[15,26]。å°è¼¸å…¥ä¿¡è™Ÿé€²è¡ŒçŸæ™‚傅里葉分æžï¼Œè¨ˆç®—æ¯å€‹é‡ç–ŠåŠ çª—å¹€çš„é›¢æ•£å‚…é‡Œè‘‰è®Šæ›ï¼Œå¾žè€Œç²å¾—LPSèœã€‚
如圖2所示,一共準備N個ND-DDAE模型(例如ND-DDAE_1至ND-DDAE_N)和一個NI-DDAE模型。一共N+1個模型都在訓(xùn)練階段訓(xùn)練好。值得注æ„的是,æ¯å€‹ND-DDAE模型都是在æŸä¸€ç‰¹å®šå™ªè²é¡žåž‹ä¸‹è¨“(xùn)ç·´ï¼Œå› æ¤åœ¨é€™ä¸€ç‰¹å®šå™ªè²é¡žåž‹æ¢ä»¶ä¸‹ï¼Œæ¨¡åž‹å¯ä»¥æ›´æº–確地表å¾å¸¶å™ªèªžéŸ³ä¿¡è™Ÿè½‰(zhuÇŽn)æ›åˆ°å°æ‡‰(yÄ«ng)干凈語音信號的特å¾ã€‚å¦å¤–,NI-DDAE模型由多種類型的噪è²è¨“(xùn)ç·´ï¼Œå› æ¤åœ¨ç‰¹å®šå™ªè²é¡žåž‹æ¢ä»¶ä¸‹é™å™ªï¼Œå®ƒçš„表å¾èƒ½åŠ›ä¸å¦‚ND-DDAEã€‚ä½†æ˜¯ï¼Œå› ç‚ºNI-DDAE模型由多種類型噪è²è¨“(xùn)ç·´ï¼Œå®ƒå°æ–°å‡ºç¾(xià n)的噪è²é¡žåž‹é™å™ªæ•ˆæžœæœƒè¼ƒå¥½ã€‚這里æå‡ºçš„NC+DDAEé™å™ªæ–¹æ³•å¯ä»¥ç¸½çµ(jié)如下:(1)當測試噪è²é¡žåž‹è¢«åŒ…å«åœ¨è¨“(xùn)練集ä¸ï¼Œç³»çµ±(tÇ’ng)鏿“‡æœ€æ°ç•¶?shù)è…˜D-DDAE模型進行é™å™ªï¼ˆå³åŒ¹é…çš„DDAE模型);(2)當測試噪è²ä¸è¢«åŒ…å«åœ¨è¨“(xùn)練集ä¸ï¼ŒNI-DDAE模型用來é™å™ªï¼ˆå³éžåŒ¹é…çš„DDAE模型),它å°ä¸åŒé¡žåž‹å™ªè²çš„æ³›åŒ–能力較好。
效果評測
為了測試NC+DDAEé™å™ªæ–¹æ³•çš„æ•ˆæžœï¼Œç ”ç©¶é‡‡ç”¨æ¸ä¸€åŒ–å”(xié)方差度é‡(NormalizedCovarianceMeasure,NCM)[27]來客觀評估é™å™ªåŽçš„èªžéŸ³çš„å¯æ‡‚度,并招募了9å說普通話的人工耳æ¤å…¥è€…進行臨床è½åŠ›æ¸¬è©¦ï¼Œä½¿ç”¨è©žæ£ç¢ºçŽ‡ï¼ˆWordCorrectRate,WCR)[17,28-31]作為評估指標。測試éŽç¨‹é‡‡ç”¨é›™äººäº¤æµå™ªè²å’Œå»ºç‘手æé‰†å™ªè²ï¼Œä¿¡å™ªæ¯”ç‰ç´šåˆ†åˆ¥è¨(shè)置為0å’Œ5dB。NCM評分和WCR評分都表明,NC+DDAEé™å™ªæ–¹æ³•相比于傳統(tÇ’ng)單麥克風(fÄ“ng)é™å™ªæ–¹æ³•å’ŒDDAEé™å™ªæ–¹æ³•,é™å™ªæ•ˆæžœæœ‰é¡¯è‘—性æå‡ã€‚
與傳統(tÇ’ng)çš„é™å™ªæŠ€è¡“(shù)相比,NC+DDAEé™å™ªæ–¹æ³•å¯ä»¥è¢«è¦–為åªéœ€æ•¸(shù)據(jù)的有監(jiÄn)ç£å¸(xué)ç¿’(xÃ)方法。這種é™å™ªæ–¹æ³•å¸(xué)ç¿’(xÃ)å¾žå¸¶å™ªèªžéŸ³ä¿¡è™Ÿåˆ°å¹²å‡ˆèªžéŸ³ä¿¡è™Ÿçš„æ˜ å°„å‡½æ•¸(shù)ï¼Œè€Œä¸æœƒå¼·åР任何å‡è¨(shè)。å†åŸºäºŽNC+DDAEæ¨¡åž‹çš„æ˜ å°„å‡½æ•¸(shù),ä¸ä½¿ç”¨ä»»ä½•噪è²ä¼°è¨ˆç®—法,將帶噪語音直接轉(zhuÇŽn)æ›ç‚ºå¹²å‡ˆçš„èªžéŸ³ã€‚å› æ¤ï¼Œå³ä½¿åœ¨è™•ç†å›°é›£çš„ï¼Œç«¶çˆæ€§å™ªè²æˆ–信噪比0dB時,NC+DDAEé™å™ªåŽçš„èªžéŸ³å¯æ‡‚度也比傳統(tÇ’ng)é™å™ªæ–¹æ³•高。
基于深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)+ç†æƒ³äºŒå€¼æŽ©è”½çš„é™å™ªæ–¹æ³•
1990å¹´ï¼Œä¾†è‡ªåŠ æ‹¿å¤§è’™ç‰¹åˆ©çˆ¾éº¥å‰çˆ¾å¤§å¸(xué)的心ç†å¸(xué)å®¶AlbertBregman,æå‡ºäººé¡žè½è¦ºç³»çµ±(tÇ’ng)å°‡è²éŸ³åˆ†æˆä¸åŒçš„è²éŸ³æµï¼Œä¾‹å¦‚,幾個朋å‹ä¸€é‚ŠèŠå¤©ä¸€é‚Šæ”¾è‘—音樂,這就構(gòu)æˆäº†æ‰€è¬‚çš„è½è¦ºå ´æ™¯ã€‚è½è¦ºå ´æ™¯ä¸æ¯å€‹è²éŸ³æµçš„音調(dià o)ã€éŸ¿åº¦å’Œæ–¹å‘都是ä¸åŒçš„。如果兩個è²éŸ³åœ¨åŒä¸€æ™‚間共享了åŒä¸€é »æ®µï¼ŒéŸ¿åº¦é«˜çš„è²éŸ³æµå£“倒響度較低的,這就是è½è¦ºæŽ©è”½åŽŸç†ï¼Œè¬å¦‚,屋外的雨打在窗戶上發(fÄ)å‡ºâ€œæ»´ç”æ»´ç”â€çš„è²éŸ³ï¼Œäººå¯èƒ½å°±ä¸æœƒæ³¨æ„到屋內(nèi)掛é˜çš„æ»´ç”è²ã€‚
基于上述æåˆ°çš„原ç†ï¼Œä¾†è‡ªç¾Žåœ‹ä¿„亥俄州立大å¸(xué)çš„WangDeliangæå‡ºäº†ç†æƒ³äºŒå€¼æŽ©è”½æ–¹æ³•[32]ï¼Œåœ¨ä¸€å€‹ç‰¹å®šé »æ®µå…§(nèi)çš„ä¸€å€‹ç‰¹å®šçŸæš«é–“éš”ï¼ˆæˆ–æ™‚é »å–®å…ƒï¼‰ï¼Œç†æƒ³äºŒå€¼æŽ©è”½æ¿¾æ³¢å™¨åˆ†æžå¸¶å™ªèªžéŸ³çš„æ¯å€‹æ™‚é »å–®å…ƒï¼Œå¹¶å°‡æ¯å€‹æ™‚é »å–®å…ƒæ¨™è¨˜ç‚ºâ€œ0â€æˆ–者“1â€ï¼Œå¦‚果目標語音強于噪è²ï¼Œæ¨™è¨˜ç‚º1,å之標記為0ã€‚ç„¶åŽæ¿¾æ³¢å™¨æ‹‹æ£„標記為0的單元,利用標記為1çš„æ™‚é »å–®å…ƒé‡å»ºèªžéŸ³ã€‚ç†æƒ³äºŒå€¼æŽ©è”½æ¥µå¤§æ”¹å–„了è½åŠ›éšœç¤™è€…çš„èªžéŸ³ç†è§£èƒ½åŠ›ï¼Œä½†æ˜¯é€™é‡Œçš„ç†æƒ³äºŒå€¼æŽ©è”½æ˜¯åœç•™åœ¨å¯¦é©—室層é¢çš„,實驗è¨(shè)è¨ˆå°‡èªžéŸ³å’Œå™ªè²æ··åˆï¼Œæ¿¾æ³¢å™¨æ˜¯çŸ¥é“什么時候目標語音比噪è²éŸ¿åº¦å¤§çš„ï¼Œå› æ¤ç¨±ä¹‹ç‚ºç†æƒ³çš„。一個真æ£å¯¦ç”¨çš„二值掩蔽濾波器,需è¦å®Œå…¨ç¨ç«‹åœ°å¯¦æ™‚地將è²éŸ³å¾žèƒŒæ™¯å™ªè²ä¸åˆ†é›¢å‡ºä¾†ã€‚å› æ¤Wangç‰äººå˜—試了將深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)çµ(jié)åˆç†æƒ³äºŒå€¼æŽ©è”½çš„é™å™ªæ–¹æ³•,以實ç¾(xià n)機器ç¨ç«‹åœ°å¸(xué)ç¿’(xÃ)å€(qÅ«)分目標語音和背景噪è²ã€‚
效果評測
為了測試深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)+ç†æƒ³äºŒå€¼æŽ©è”½æ–¹æ³•çš„é™å™ªæ•ˆæžœï¼Œç ”究人員招募了12ä½è½åŠ›å—æè€…å’Œ12ä½è½åŠ›æ£å¸¸è€…進行測試,被試者通éŽè€³æ©Ÿè½èªžéŸ³æ¨£æœ¬ã€‚樣本是æˆå°çš„ï¼šé¦–å…ˆæ˜¯åŽŸå§‹å¸¶å™ªéŸ³é »ï¼Œç„¶åŽæ˜¯åŸºäºŽæ·±å±¤ç¥žç¶“(jÄ«ng)ç¶²(wÇŽng)絡(luò)的程åºè™•ç†åŽçš„éŸ³é »ã€‚ä½¿ç”¨å…©ç¨®å™ªéŸ³é€²è¡Œæ¸¬è©¦ï¼Œå³å¹³ç©©(wÄ›n)的“嗡嗡嗡â€å™ªè²å’Œè¨±å¤šäººåŒæ™‚說話的噪è²ã€‚è¨±å¤šäººåŒæ™‚èªªè©±å™ªè²æ˜¯å‰µ(chuà ng)é€ äº†å˜ˆé›œçš„å™ªè²èƒŒæ™¯ï¼ŒåР入四å男性和四å女性說話語å¥ï¼Œæ¨¡ä»¿é›žå°¾é…’æœƒå ´æ™¯ã€‚
兩組被試者測試çµ(jié)果表明,通éŽç¥žç¶“(jÄ«ng)ç¶²(wÇŽng)絡(luò)å°å¸¶å™ªèªžéŸ³é€²è¡Œé™å™ªï¼ŒèªžéŸ³ä¿¡è™Ÿçš„坿‡‚度都有了很大的æé«˜ã€‚åœ¨å¤šäººåŒæ™‚èªªè©±å™ªè²æ¢ä»¶ä¸‹ï¼Œè½åŠ›éšœç¤™è€…åªèƒ½ç†è§£åŽŸå§‹å¸¶å™ªèªžéŸ³29%的內(nèi)容,但å°äºŽè™•ç†åŽçš„éŸ³é »ï¼Œä»–å€‘ç†è§£çš„å…§(nèi)容é”到了84%。更有çµ(jié)果從10ï¼…æé«˜åˆ°äº†90%。在穩(wÄ›n)å®šå™ªè²æ¢ä»¶ä¸‹ï¼Œé¡žä¼¼çš„æ”¹å–„也很明顯,被試者的ç†è§£ç¨‹åº¦å¾ž36ï¼…æé«˜åˆ°äº†ç‚º82%。
ç¶“(jÄ«ng)éŽä¸Šè¿°æ–¹æ³•é™å™ªåŽï¼Œæ£å¸¸è½åŠ›è€…çš„è¡¨ç¾(xià n)也有所æå‡ï¼Œé€™æ„味著æ¤ç ”究的應(yÄ«ng)ç”¨å‰æ™¯æ¯”é (yù)期的è¦å¤§å¾—多。穩(wÄ›n)å®šå™ªè²æ¢ä»¶ä¸‹ï¼Œè½åŠ›æ£å¸¸è€…ç†è§£ç¨‹åº¦å¾ž37ï¼…æå‡åˆ°äº†80%ã€‚åœ¨å¤šäººåŒæ™‚èªªè©±å™ªè²æ¢ä»¶ä¸‹ï¼Œä»–們的表ç¾(xià n)從40%æé«˜åˆ°äº†78%。
æœ‰è¶£çš„æ˜¯ï¼Œç ”ç©¶äººå“¡ç™¼(fÄ)ç¾(xià n),使用上述é™å™ªæ–¹æ³•åŽï¼Œè½åŠ›éšœç¤™è€…çš„è¡¨ç¾(xià n)甚至?xÃ)^æ£å¸¸è½åŠ›è€…ï¼Œé€™æ„味著基于深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)的方法,有望解決迄今為æ¢ç ”究人員花費無數(shù)精力的“雞尾酒會效應(yÄ«ng)â€å•題。
未來展望
ç¾(xià n)å¯¦ç”Ÿæ´»å ´æ™¯ä¸ï¼Œå™ªè²æ˜¯å¤šæ¨£åŒ–çš„ï¼Œå› æ¤æ‡‰(yÄ«ng)ç”¨åˆ°å¯¦éš›å ´æ™¯ä¸ï¼Œç„¡è«–是噪è²åˆ†é¡žå™¨+深度é™å™ªè‡ªç·¨ç¢¼å™¨é™å™ªæ–¹æ³•,還是深度神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)+ç†æƒ³äºŒå€¼æŽ©è”½é™å™ªæ–¹æ³•,都需è¦å¸(xué)æœƒå¿«é€Ÿæ¿¾é™¤åŒæ™‚出ç¾(xià n)的多種類型噪è²ï¼ŒåŒ…括訓(xùn)ç·´é›†ä¸æœªå‡ºç¾(xià n)éŽçš„æ–°å™ªè²ã€‚ç ”ç©¶äººå“¡é€šéŽå¢žåŠ è¨“(xùn)練集噪è²çš„種類和數(shù)é‡ï¼Œä¾‹å¦‚,Wangç‰äººå°‡è¨“(xùn)練數(shù)據(jù)ä¸å™ªè²é¡žåž‹æé«˜äº†10000ç¨®ï¼Œä¸æ–·å„ª(yÅu)化改進訓(xùn)ç·´åŽçš„æ¨¡åž‹ï¼Œä»¥å¯¦ç¾(xià n)基于機器å¸(xué)ç¿’(xÃ)語音增強的ç¾(xià n)實應(yÄ«ng)用æ„義。
å¦å¤–,計算復(fù)é›œåº¦ç›®å‰æ˜¯åŸºäºŽDNNçš„é™å™ªæ–¹æ³•在助è½è¨(shè)備䏿‡‰(yÄ«ng)用的關(guÄn)éµå•題。由于其多層çµ(jié)æ§‹(gòu),DNN模型在é‹è¡Œæ™‚需è¦å¤§é‡å…§(nèi)å˜å’Œé«˜è¨ˆç®—æˆæœ¬ã€‚å› æ¤ï¼Œä¿æŒå…¶æ€§èƒ½çš„åŒæ™‚,減少在線計算é‡ï¼Œä»¥æ¤ä¾†ç°¡åŒ–DNN模型的架構(gòu)ï¼Œé€™æ¨£çš„è¦æ±‚是éžå¸¸è‹›åˆ»çš„ã€‚æœ€è¿‘ï¼Œç ”ç©¶äººå“¡æå‡ºäº†è¨±å¤šæ–¹æ³•來制備基于DNN的高度å¯é‡æ§‹(gòu)且節(jié)能的處ç†å™¨ï¼Œç”¨ä¾†å¯¦æ–½å„類模å¼åˆ†é¡žå’Œå›žæ¸ä»»å‹™(wù)[33-39]ã€‚åŒæ™‚ï¼Œç ”ç©¶äººå“¡ä¹Ÿåœ¨åŠªåŠ›è§£æ±ºé«˜è¨ˆç®—æˆæœ¬çš„å•題。例如,蒸餾方法[40]將復(fù)雜模型轉(zhuÇŽn)æ›æˆåˆ°æ›´é©åˆéƒ¨ç½²çš„簡化模型。å¦ä¸€å€‹è‘—å的方法是在基于深度å¸(xué)ç¿’(xÃ)的模型ä¸ï¼Œå°åƒæ•¸(shù)進行二進制化處ç†ä»¥æ¸›å°‘å…§(nèi)å˜å¤§å°å’Œè¨ªå•é‡[41]。隨著深度å¸(xué)ç¿’(xÃ)算法和硬件的快速發(fÄ)展,上述æåˆ°çš„é™å™ªæ–¹æ³•å¯ä»¥åœ¨ä¸ä¹…的將來在助è½è¨(shè)å‚™ä¸å¯¦ç¾(xià n)應(yÄ«ng)用。æ¤å¤–,已有多個系統(tÇ’ng)å¯ä»¥å°‡åŠ©è½è¨(shè)備與智能手機,電視機或MP3æ’æ”¾å™¨ç‰å…¶ä»–è¨(shè)備集æˆã€‚這些è¨(shè)å‚™å¯ä»¥ç‚ºåŠ©è½è¨(shè)å‚™æä¾›æ›´å„ª(yÅu)越的計算和å˜å„²èƒ½åŠ›ï¼Œå› æ¤ï¼Œé€™ä¹Ÿå¯ä»¥å¾ˆå¥½åœ°è§£æ±ºåŸºäºŽæ©Ÿå™¨å¸(xué)ç¿’(xÃ)é™å™ªæ–¹æ³•çš„é«˜è¨ˆç®—æˆæœ¬å•題。目å‰ï¼Œè«¸å¦‚美國明尼蘇é”å·žçš„Starkeyè½åŠ›æŠ€è¡“(shù)å…¬å¸ï¼Œæ£è‡´åŠ›äºŽå°‡æ©Ÿå™¨å¸(xué)ç¿’(xÃ)技術(shù)與實際助è½è¨(shè)å‚™çµ(jié)åˆã€‚
機器å¸(xué)ç¿’(xÃ)和神經(jÄ«ng)ç¶²(wÇŽng)絡(luò)的發(fÄ)展很大程度地推動了å„行æ¥(yè)的智能化發(fÄ)展,相信在ä¸ä¹…的將來,基于機器å¸(xué)ç¿’(xÃ)實ç¾(xià n)助è½è¨(shè)備的智能語音增強技術(shù)將得以應(yÄ«ng)用,為è½åŠ›éšœç¤™è€…ä¹ƒè‡³æ•´å€‹äººé¡žå¸¶ä¾†ç¦éŸ³ã€‚
標簽:
ä¸åœ‹å‚³å‹•ç¶²(wÇŽng)版權(quán)與å…è²¬è²æ˜Žï¼šå‡¡æœ¬ç¶²(wÇŽng)注明[來æºï¼šä¸åœ‹å‚³å‹•ç¶²(wÇŽng)]的所有文å—ã€åœ–片ã€éŸ³è¦–å’Œè¦–é »æ–‡ä»¶ï¼Œç‰ˆæ¬Š(quán)å‡ç‚ºä¸åœ‹å‚³å‹•ç¶²(wÇŽng)(www.hysjfh.com)ç¨å®¶æ‰€æœ‰ã€‚如需轉(zhuÇŽn)載請與0755-82949061è¯(lián)系。任何媒體ã€ç¶²(wÇŽng)站或個人轉(zhuÇŽn)è¼‰ä½¿ç”¨æ™‚é ˆæ³¨æ˜Žä¾†æºâ€œä¸åœ‹å‚³å‹•ç¶²(wÇŽng)â€ï¼Œé•å者本網(wÇŽng)將追究其法律責任。
本網(wÇŽng)轉(zhuÇŽn)載并注明其他來æºçš„稿件,å‡ä¾†è‡ªäº’è¯(lián)ç¶²(wÇŽng)或æ¥(yè)å…§(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuÇŽn)載請ä¿ç•™ç¨¿ä»¶ä¾†æºåŠä½œè€…ï¼Œç¦æ¢æ“…自篡改,é•è€…è‡ªè² ç‰ˆæ¬Š(quán)法律責任。