時(shÃ)間:2018-11-21 19:06:18來æºï¼šæ–‡/北京大å¸(xué)æ·±åœ³ç ”ç©¶ç”Ÿé™¢ç¾(xià n)代信號(hà o)與數(shù)據(jù)處ç†å¯¦(shÃ)é©—(yà n)室å½
基于語音的說話人èª(rèn)è‰æŠ€è¡“(shù)(è²ç´‹è˜(shÃ)別技術(shù))屬于生物特å¾è˜(shÃ)åˆ¥ç ”ç©¶èŒƒç–‡ï¼Œåœ¨äº’è¯(lián)ç¶²(wÇŽng)/物è¯(lián)ç¶²(wÇŽng)時(shÃ)代具有é‡è¦çš„æ‡‰(yÄ«ng)用價(jià )值。目å‰ï¼Œé™å®šæ¢ä»¶ä¸‹çš„說話人身份èª(rèn)è‰æŠ€è¡“(shù)已較為æˆç†Ÿï¼Œåœ¨æ™ºèƒ½æ‰‹æ©Ÿ(jÄ«)ã€éŠ€è¡Œæœå‹™(wù)ã€é–€ç¦æŽ§åˆ¶å’Œæ™ºèƒ½å®¢æœç‰å ´(chÇŽng)景ç²å¾—了廣泛的應(yÄ«ng)ç”¨ã€‚ç„¶è€Œï¼Œä½œç‚ºæ™ºèƒ½æŽ§åˆ¶å ´(chÇŽng)景ä¸å¯¦(shÃ)ç¾(xià n)基于語音的自然人機(jÄ«)交互的關(guÄn)éµæŠ€è¡“(shù),çŸèªžéŸ³èªªè©±äººèº«ä»½èª(rèn)è‰æŠ€è¡“(shù)ç›®å‰å°šä¸èƒ½æ»¿è¶³æ‡‰(yÄ«ng)用需求。本文將é‡é»ž(diÇŽn)å°(duì)çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)çš„ç ”ç©¶é€²(jìn)行技術(shù)綜述。首先,概述說話人確èª(rèn)技術(shù)çš„åŸºæœ¬æ¦‚å¿µå’Œä¸»æµæŠ€è¡“(shù)路線;其次,分æžçŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)é¢è‡¨çš„æŒ‘戰(zhà n);然åŽï¼Œå°(duì)基于深度å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)技術(shù)進(jìn)行綜述;最åŽï¼Œå±•望了çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)的發(fÄ)展趨勢(shì)和應(yÄ«ng)ç”¨å‰æ™¯ã€‚
1 引言
äººé¡žä¹‹æ‰€ä»¥èƒ½å¤ â€èžå…¶è²è€ŒçŸ¥å…¶äººâ€ï¼Œæ˜¯å› ?yà n)槊總€(gè)說話人都有ä¸åŒçš„說話方å¼å’Œç”¨è©žç¿’(xÃ)慣,以åŠç•¥æœ‰å·®ç•°çš„發(fÄ)è²å™¨å®˜ç”Ÿç†çµ(jié)æ§‹(gòu),這兩點(diÇŽn)å°Ž(dÇŽo)致ä¸åŒèªªè©±äººåœ¨è²éŸ³ä¸Šå„具特點(diÇŽn),具有ä¸åŒè²ç´‹ä¿¡æ¯ã€‚基于語音的說話人確èª(rèn)是利用計(jì)算機(jÄ«)分æžå’Œæå–語音ä¸è˜Š(yùn)å«çš„說話人信æ¯ä¾†è‡ªå‹•(dòng)進(jìn)行說話人身份èª(rèn)è‰çš„æŠ€è¡“(shù),是自然人機(jÄ«)交互的é‡è¦æŠ€è¡“(shù)之一,也是智能機(jÄ«)器人的關(guÄn)éµæŠ€è¡“(shù),具有é‡è¦çš„ç ”ç©¶?jÄ«)r(jià )值。
說話人確èª(rèn)技術(shù)ç›®å‰å»£æ³›æ‡‰(yÄ«ng)用于å„類具有身份èª(rèn)è‰éœ€æ±‚çš„é ˜(lÇng)åŸŸï¼Œä¾‹å¦‚ï¼šåœ¨æ™ºèƒ½å®¶å±…é ˜(lÇng)域,說話人確èª(rèn)技術(shù)能幫助智能è¨(shè)備確èª(rèn)說話人的身份,使得智能系統(tÇ’ng)能å°(duì)于ä¸åŒèªªè©±äººæä¾›å®šåˆ¶åŒ–æœå‹™(wù)和內(nèi)容;在金èžé ˜(lÇng)域,說話人確èª(rèn)技術(shù)å¯ä»¥ç”¨äºŽåŸºäºŽç¶²(wÇŽng)絡(luò)交易的é (yuÇŽn)程身份èª(rèn)è‰ï¼Œé€²(jìn)而æé«˜é‡‘èžè³¬æˆ¶çš„安全性,并é™ä½ŽåŸºäºŽäº’è¯(lián)ç¶²(wÇŽng)的金èžçŠ¯ç½ªæˆåŠŸçŽ‡ï¼›åœ¨å…¬å®‰å¸æ³•é ˜(lÇng)域,å¯ä»¥ç”¨äºŽé›»ä¿¡è©é¨™çŠ¯çš„èº«ä»½åµæŸ¥ï¼Œå¾žè€Œå¹«åŠ©å…¬å®‰æœ‰æ•ˆé制并打擊犯罪。具體而言,公安人員å¯ä»¥åˆ©ç”¨èªªè©±äººç¢ºèª(rèn)技術(shù)ï¼Œå…ˆå¾žé›»è©±éŒ„éŸ³ä¸æˆªå–目標(biÄo)說話人的語音數(shù)據(jù),å†åŒ¹é…說話人數(shù)據(jù)庫(kù),最終鎖定犯罪嫌疑人。使用先進(jìn)的說話人確èª(rèn)技術(shù)å¯ä»¥é™ä½Žè¾¦æ¡ˆæˆæœ¬ï¼Œæé«˜ç ´æ¡ˆçŽ‡ã€‚
說話人確èª(rèn)技術(shù)çš„ç ”ç©¶é–‹å§‹äºŽ20世紀(jì)30å¹´ä»£ï¼Œæ—©æœŸç ”ç©¶äººå“¡çš„å·¥ä½œä¸»è¦é›†ä¸åœ¨äººè€³è½è¾¨ï¼Œæ¨¡æ¿åŒ¹é…ç‰æ–¹å‘;隨著統(tÇ’ng)計(jì)å¸(xué)和計(jì)算機(jÄ«)ç§‘å¸(xué)的發(fÄ)展,說話人確èª(rèn)的工作開始轉(zhuÇŽn)å‘èªžéŸ³ç‰¹å¾æå–和模å¼åŒ¹é…ç‰æ–¹æ³•ç ”ç©¶ï¼›è¿‘å¹´éš¨è‘—äººå·¥æ™ºèƒ½çš„å´›èµ·å’Œè¨ˆ(jì)算能力的æå‡ï¼ŒåŸºäºŽæ©Ÿ(jÄ«)器å¸(xué)ç¿’(xÃ)和深度å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)技術(shù)逿¼¸æˆç‚ºä¸»æµã€‚
本文將首先介紹說話人確èª(rèn)çš„åŸºæœ¬æ¦‚å¿µï¼Œå…¶æ¬¡å¾žç‰¹å¾æå–å’ŒçŸèªžéŸ³å»ºæ¨¡å…©å€‹(gè)角度,å°(duì)æ™ºèƒ½èªžéŸ³æŽ§åˆ¶å ´(chÇŽng)景下的çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)的發(fÄ)展æ·ç¨‹é€²(jìn)行簡(jiÇŽn)è¦å›žé¡§ï¼Œç„¶åŽåˆ†æžå¹¾é¡žé‹(yùn)用深度å¸(xué)ç¿’(xÃ)çš„çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù),最åŽå°(duì)發(fÄ)展趨勢(shì)åšå‡ºç¸½çµ(jié)與展望。
2 說話人確èª(rèn)技術(shù)綜述
說話人確èª(rèn)(SpeakerVerification)技術(shù),如圖1所示,是確定待è˜(shÃ)別的語音是å¦ä¾†è‡ªå…¶æ‰€å®£ç¨±çš„目標(biÄo)說話人[1][2],是“一å°(duì)一â€çš„判決å•題。具體而言,說話人確èª(rèn)任務(wù)å¯ä»¥åˆ†ç‚ºè¨“(xùn)練,注冊(cè),驗(yà n)è‰ä¸‰å€‹(gè)階段。在訓(xùn)練階段:利用大é‡çš„æ•¸(shù)據(jù)訓(xùn)練說話人通用模型;注冊(cè)階段:采集注冊(cè)說話人的少é‡èªžéŸ³æ•¸(shù)據(jù)并通éŽç®—法ç²å¾—注冊(cè)說話人的è²ç´‹æ¨¡åž‹ï¼›é©—(yà n)è‰éšŽæ®µï¼šè¼¸å…¥è²ç¨±ç‚ºç›®æ¨™(biÄo)說話人的測(cè)試語音并計(jì)ç®—å°(duì)應(yÄ«ng)的說話人模型,å†èˆ‡å·²ç¶“(jÄ«ng)注冊(cè)的目標(biÄo)說話人模型進(jìn)行匹é…,最終判定其身份是å¦ç‚ºå·²æ³¨å†Š(cè)的目標(biÄo)說話人。
圖1說話人確èª(rèn)概念示æ„圖
2.1文本相關(guÄn)和文本無關(guÄn)
æ ¹æ“š(jù)說話人確èª(rèn)技術(shù)å°(duì)èªžéŸ³çš„æ–‡æœ¬ä¿¡æ¯æ˜¯å¦äºˆä»¥é™åˆ¶ï¼Œå¯ä»¥å°‡èªªè©±äººç¢ºèª(rèn)技術(shù)分為文本無關(guÄn)的(text-independent)和文本相關(guÄn)的(text-dependent)。
文本無關(guÄn)的說話人確èª(rèn)技術(shù):訓(xùn)練模型時(shÃ)ä¸é™å®šæ‰€é‡‡ç”¨èªžéŸ³æ•¸(shù)據(jù)的文本信æ¯ï¼Œä¸”訓(xùn)練語音和測(cè)試語音的文本內(nèi)容ä¸è¦æ±‚一致,å³èªªè©±äººå¯ä»¥éš¨æ„èªªä»»æ„語å¥ã€‚
文本相關(guÄn)的說話人確èª(rèn)技術(shù):模型訓(xùn)練時(shÃ)所采用語音數(shù)據(jù)的文本內(nèi)容é (yù)先固定在æŸä¸€å€‹(gè)特定的范åœå…§(nèi)ï¼Œå¹¶è¦æ±‚訓(xùn)練語音和測(cè)試語音的文本內(nèi)å®¹ä¿æŒä¸€è‡´ã€‚
2.2說話人確èª(rèn)技術(shù)性能評(pÃng)測(cè)
è¡¡é‡èªªè©±äººç¢ºèª(rèn)技術(shù)性能的兩個(gè)基本指標(biÄo)是:錯(cuò)誤接å—率(FalseAcceptationRate,F(xià n)AR)和錯(cuò)誤拒絕率(FalseRejectionRate,F(xià n)RR),其定義如下:
å…¶ä¸ï¼ŒF(xià n)AR表示將éžç›®æ¨™(biÄo)說話人的語音經(jÄ«ng)說話人確èª(rèn)系統(tÇ’ng),其相似度得分大于給定的閾值,從而被判斷為目標(biÄo)說話人的錯(cuò)誤率。FAR的值越å°ï¼Œè¡¨ç¤ºç³»çµ±(tÇ’ng)å°‡éžç›®æ¨™(biÄo)說話人錯(cuò)誤è˜(shÃ)別æˆç›®æ¨™(biÄo)說話人的概率越低,系統(tÇ’ng)的性能就越好。當(dÄng)處于需è¦å¯¦(shÃ)ç¾(xià n)快速訪å•,å°(duì)于準(zhÇ”n)ç¢ºåº¦çš„è¦æ±‚ä¸é«˜çš„æ—¥å¸¸ç”Ÿæ´»ä¸ï¼Œèªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)å¯ä»¥è¨(shè)定ç¨é«˜çš„FAR值。
å¦ä¸€æ–¹é¢ï¼ŒF(xià n)RR表示將目標(biÄo)說話人語音經(jÄ«ng)說話人確èª(rèn)系統(tÇ’ng)的得分低于è¨(shè)置的閾值,被系統(tÇ’ng)判斷為éžç›®æ¨™(biÄo)說話人的錯(cuò)誤率。å¯ä»¥çœ‹å‡ºï¼ŒF(xià n)RR的值越å°ï¼Œç³»çµ±(tÇ’ng)將目標(biÄo)說話人誤è˜(shÃ)為éžç›®æ¨™(biÄo)說話人的概率越低,系統(tÇ’ng)的性能越好;在需è¦é«˜å®‰å…¨æ€§çš„商æ¥(yè)å ´(chÇŽng)景ä¸ï¼Œèªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)å¯è¨(shè)定ç¨é«˜çš„FRR值,以犧牲訪å•速度為代價(jià ),æ›å–更高的系統(tÇ’ng)安全性。
æ ¹æ“š(jù)FARå’ŒFRRï¼Œå¯æ‹“展得到三個(gè)常用的說話人確èª(rèn)系統(tÇ’ng)性能評(pÃng)價(jià )指標(biÄo)。
(1)ç‰éŒ¯(cuò)誤率(EER)
在說話人確èª(rèn)系統(tÇ’ng)效能評(pÃng)測(cè)ä¸ï¼ŒF(xià n)AR隨著閾值的增大而減少,F(xià n)RR隨閾值的增大而增大。目å‰åœ‹(guó)際競(jìng)è³½ä¸æœ€å¸¸ç”¨çš„æ¸¬(cè)è©•(pÃng)指標(biÄo)是將FARå’ŒFRRçµ±(tÇ’ng)一為一個(gè)指標(biÄo)。å³å–å…©è€…ç›¸ç‰æ™‚(shÃ)的錯(cuò)誤率作為衡é‡èªªè©±äººç¢ºèª(rèn)算法的性能指標(biÄo),該錯(cuò)誤率稱為ç‰éŒ¯(cuò)誤率(EqualErrorRate,EER)。在EER指標(biÄo)ä¸ï¼ŒF(xià n)ARå’ŒFRR被賦予相åŒçš„æ¬Š(quán)é‡ï¼Œå³èª(rèn)為他們å°(duì)系統(tÇ’ng)影響的權(quán)釿˜¯ç›¸åŒçš„。
å°(duì)于ä¸åŒçš„說話人確èª(rèn)算法而言,較低的EER值,æ„味著FARå’ŒEER曲線都會(huì)å‘下移動(dòng),表示算法的性能較優(yÅu)秀。
(2ï¼‰æœ€å°æª¢æ¸¬(cè)代價(jià )
美國(guó)國(guó)家標(biÄo)準(zhÇ”n)åŠæŠ€è¡“(shù)ç ”ç©¶æ‰€ï¼ˆNationalInstituteofStandardsandTechnology,NIST)在其舉辦的說話人確èª(rèn)è©•(pÃng)測(cè)(SpeakerRecognitionEvaluation,SRE)競(jìng)è³½ä¸å®šç¾©äº†ä¸€å€‹(gè)利用FARå’ŒFRRåŠ æ¬Š(quán)和來衡é‡èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)性能的指標(biÄo)ï¼Œå³æª¢æ¸¬(cè)代價(jià )函數(shù)(DetectionCostFunction,DCF)[3]。DCF定義如下:
å…¶ä¸ï¼ŒCFRR表示錯(cuò)誤拒絕的權(quán)é‡ç³»æ•¸(shù),CFAR表示錯(cuò)誤接å—的權(quán)é‡ç³»æ•¸(shù)ï¼›é€™äº›åƒæ•¸(shù)的值在比賽ä¸ç”±NIST官方給定,é‡å°(duì)ä¸åŒçš„任務(wù),æ¯å±†æ¯”è³½ä¸é€™äº›åƒæ•¸(shù)的值ä¸ç›¡ç›¸åŒï¼›åœ¨å¯¦(shÃ)際應(yÄ«ng)用ä¸ï¼Œé€™äº›æ¬Š(quán)é‡åƒæ•¸(shù)值å¯ä»¥æ ¹æ“š(jù)具體的應(yÄ«ng)ç”¨å ´(chÇŽng)景進(jìn)行è¨(shè)定。DCFçš„å€¼å–æ±ºäºŽåˆ¤æ±ºé–¾å€¼ï¼Œæ”¹è®Šåˆ¤æ±ºé–¾å€¼å°±å¯ä»¥ä½¿å¾—DCF的值é”(dá)到最å°ï¼Œå°±å½¢æˆäº†æœ€å°æª¢æ¸¬(cè)代價(jià )(minDCF)。
相較于EER,minDCF考慮了兩種ä¸åŒéŒ¯(cuò)誤率帶來ä¸åŒçš„代價(jià )ï¼Œå› æ¤åœ¨å¯¦(shÃ)際應(yÄ«ng)ç”¨ä¸æ›´åŠ åˆç†ï¼Œå¯ä»¥æ›´å¥½åœ°è©•(pÃng)價(jià )說話人確èª(rèn)系統(tÇ’ng)的性能。
(3)DET曲線
說話人確èª(rèn)系統(tÇ’ng)ä¸ï¼Œå¯ä»¥æ ¹æ“š(jù)ä¸åŒçš„æ‡‰(yÄ«ng)ç”¨å ´(chÇŽng)景è¨(shè)ç½®ä¸åŒçš„閾值,å°(duì)FARå’ŒFRR進(jìn)行å–èˆï¼Œå¯¦(shÃ)際應(yÄ«ng)用ä¸ä¸€èˆ¬é‡‡ç”¨DET曲線(DetectionErrorTrade-offCurve,DETCurve)來表示FARå’ŒFRR隨閾值變化關(guÄn)系的曲線。如圖2展示的是i-vector系統(tÇ’ng)[4]采用ä¸åŒåŽç«¯æ‰“分模型所å°(duì)應(yÄ«ng)çš„DET曲線,從DET曲線å¯ä»¥ç›´è§€åœ°çœ‹å‡ºä¸åŒåŽç«¯æ‰“分函數(shù)åŽèªªè©±äººç¢ºèª(rèn)算法的性能差異。顯然DET曲線離原點(diÇŽn)越近系統(tÇ’ng)的性能越好。æ¤å¤–,DET曲線ä¸çš„變化是一種階梯狀的階èºå‡½æ•¸(shù),當(dÄng)測(cè)試數(shù)據(jù)é›†è¶³å¤ å¤šçš„æ™‚(shÃ)候,DET曲線æ‰èƒ½é¡¯ç¤ºå‡ºè¼ƒå¹³æ»‘的斜率。
圖3DET曲線
3 主æµçŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)綜述
說話人確èª(rèn)技術(shù)ç¶“(jÄ«ng)éŽè¿‘80年的發(fÄ)展,在辨è˜(shÃ)èƒ½åŠ›ï¼Œé¯æ£’性和模型表é”(dá)能力上都å–得了一些令人矚目的æˆç¸¾(jÄ«)ã€‚åœ¨å®‰éœæ¢ä»¶ä¸‹çš„é•·(zhÇŽng)時(shÃ)說話人確èª(rèn)技術(shù)已經(jÄ«ng)å¯ä»¥æ»¿è¶³å•†ç”¨éœ€æ±‚。實(shÃ)際應(yÄ«ng)用ä¸ï¼Œç ”究人員發(fÄ)ç¾(xià n)說話人語音的長(zhÇŽng)çŸå°(duì)于說話人確èª(rèn)系統(tÇ’ng)有較大的影響[5][6],主æµçš„說話人確èª(rèn)技術(shù)在測(cè)試語音時(shÃ)é•·(zhÇŽng)較çŸ(å°äºŽ3ç§’)çš„æ¢ä»¶ä¸‹ï¼Œå…¶æ€§èƒ½æœ‰è¼ƒå¤§çš„æ³¢å‹•(dòng)。圖3顯示了高斯混åˆ-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)[7]系統(tÇ’ng)å’Œivector-GPLDA[8]系統(tÇ’ng)ç•¶(dÄng)語音時(shÃ)é•·(zhÇŽng)從150秒縮çŸç‚º2ç§’é–“[9],EER的變化情æ³ã€‚å¯è¦‹èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)隨著訓(xùn)練和測(cè)試數(shù)據(jù)ä¸èªžéŸ³æŒçºŒ(xù)時(shÃ)間的變çŸè€Œæ€¥åЇ䏋é™ã€‚é‡å°(duì)這個(gè)å•é¡Œï¼Œç ”ç©¶è€…å€‘é–‹å§‹å°‡èªªè©±äººç¢ºèª(rèn)技術(shù)çš„ç ”ç©¶é‡é»ž(diÇŽn)轉(zhuÇŽn)å‘çŸèªžéŸ³æ¢ä»¶ä¸‹çš„說話人確èª(rèn)技術(shù)。
圖3說話人確èª(rèn)系統(tÇ’ng)性能隨ä¸åŒèªžéŸ³æ™‚(shÃ)é•·(zhÇŽng)的變化
3.1èªžéŸ³æŽ§åˆ¶å ´(chÇŽng)景下çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)的挑戰(zhà n)
一般而言,çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)常見于智能家居,智能機(jÄ«)å™¨äººç‰æ™ºèƒ½èªžéŸ³æŽ§åˆ¶å ´(chÇŽng)景。å°(duì)äºŽæ™ºèƒ½èªžéŸ³æŽ§åˆ¶å ´(chÇŽng)景下的çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù),其çŸèªžéŸ³æŒ‡çš„æ˜¯ï¼Œèªªè©±äººçš„æ³¨å†Š(cè)和驗(yà n)è‰çš„語音內(nèi)容å‡ç‚ºæ™‚(shÃ)é•·(zhÇŽng)較çŸçš„詞語,比如:“開門â€ã€â€œé—œ(guÄn)é–€â€ç‰ï¼Œæ™‚(shÃ)é•·(zhÇŽng)çŸäºŽ3秒的語音。考慮具體應(yÄ«ng)ç”¨å ´(chÇŽng)景,采集的語音信號(hà o)æ··åˆäº†å…¶ä»–說話人ã€ç’°(huán)境噪音ã€ä¿¡é“失é…ç‰å¹²æ“¾ä¿¡æ¯ã€‚å°(duì)于çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)的難點(diÇŽn),總çµ(jié)如下:
(1)時(shÃ)é•·(zhÇŽng)çŸï¼šèªªè©±äººæ³¨å†Š(cè)和測(cè)試的語音時(shÃ)é•·(zhÇŽng)較çŸï¼Œé€šå¸¸åƒ…僅åªåŒ…å«å¹¾å€‹(gè)å—,比如:“開窗â€ï¼Œâ€é—œ(guÄn)燈â€ç‰ã€‚這些語å¥ä¸åŒ…å«çš„æœ‰æ•ˆèªžéŸ³ä¿¡æ¯è¼ƒå°‘,且說話人信æ¯ä¸å……è¶³[10],å¯èƒ½ä½¿å¾—訓(xùn)練和測(cè)試時(shÃ)匹é…度下é™ï¼Œé€²(jìn)而使得說話人確èª(rèn)系統(tÇ’ng)表ç¾(xià n)較差。
(2)噪è²å¹²æ“¾å•題:實(shÃ)際應(yÄ«ng)用ä¸ï¼Œç’°(huán)境背景噪è²å°‡æœƒ(huì)å°(duì)說話人確èª(rèn)çµ(jié)æžœé€ æˆéžå¸¸å¤§çš„干擾,噪è²å°‡æœƒ(huì)å°Ž(dÇŽo)致目標(biÄo)èªªè©±äººèªžéŸ³ä¸æ··å…¥å¤§é‡çš„ä¸ç¢ºå®šä¿¡æ¯ï¼Œé€²(jìn)è€Œä½¿å¾—åƒæ•¸(shù)模型難以估計(jì)準(zhÇ”n)確統(tÇ’ng)計(jì)é‡ï¼Œæœ€çµ‚åš´(yán)é‡é™ä½Žèªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)的性能[11]。
(3)無效錄音:在實(shÃ)éš›å ´(chÇŽng)景ä¸é‡‡é›†èªžéŸ³æ•¸(shù)據(jù)時(shÃ),測(cè)試集和訓(xùn)練集ä¸çš„語音ä¸å¯é¿å…的混入無效語音,這使得有用語音的時(shÃ)間進(jìn)一æ¥è®ŠçŸï¼Œä¸è¶³ä»¥æä¾›è¶³å¤ 的信æ¯ä¾†è¨“(xùn)練模型。å°(duì)于傳統(tÇ’ng)的說話人統(tÇ’ng)計(jì)模型,這將使模型的åŽé©—(yà n)å”(xié)方差變大[12][13],系統(tÇ’ng)估計(jì)çš„ä¸ç¢ºå®šæ€§ä¸Šå‡ã€‚
3.2çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)
由于çŸèªžéŸ³åŒ…å«ä¿¡æ¯æœ‰é™ï¼Œä¸èƒ½æ²¿è¥²å‚³çµ±(tÇ’ng)的長(zhÇŽng)時(shÃ)說話人確èª(rèn)技術(shù)路線,需è¦å°‹æ‰¾æ›´é©åˆçŸèªžéŸ³çš„特å¾è¡¨ç¤ºï¼Œå¹¶å°(duì)çŸèªžéŸ³é€²(jìn)行åˆç†å»ºæ¨¡æˆ–補(bÇ”)償。
3.2.1ç‰¹å¾æå–
傳統(tÇ’ng)é•·(zhÇŽng)時(shÃ)說話人確èª(rèn)æ–¹æ³•å¤šé‡‡ç”¨æ¢…çˆ¾å€’èœæ¿¾æ³¢å™¨ç³»æ•¸(shù)(MelFilterCepstralCoefficient,MFCC)作為輸入特å¾ï¼Œä½†å°(duì)于çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)ï¼Œå› ?yà n)檎Z音ä¸çš„ä¸ç¢ºå®šæ€§å¾€å¾€ä¸èƒ½å¿½ç•¥ï¼Œæ‰€ä»¥åŸºäºŽMFCC和傳統(tÇ’ng)i-vector的方法難以估計(jì)準(zhÇ”n)確的說話人表å¾ï¼Œå°Ž(dÇŽo)致è˜(shÃ)別率較差[14]。為了克æœé€™ä¸€å•é¡Œï¼Œæœ‰ç ”ç©¶è€…æå‡ºé‡‡ç”¨å¤šç‰¹å¾èžåˆçš„æ–¹æ³•,利用ä¸åŒç‰¹å¾åŒ…å«ä¸åŒä¿¡æ¯çš„特性,彌補(bÇ”)çŸèªžéŸ³çš„缺陷。在數(shù)據(jù)釿œ‰é™çš„æ–‡æœ¬ç„¡é—œ(guÄn)說話人確èª(rèn)å ´(chÇŽng)景下,é¸å–å°(duì)語音上下文信æ¯è®ŠåŒ–䏿•感的特å¾é€²(jìn)行èžåˆ[15]ã€‚åˆæœŸç ”究者們嘗試了利用LPCC,LSF,PLPå’ŒPARCOR(Partialcorrelationcoefficients)[16][17][18]ç‰çŸæ™‚(shÃ)é »èœç‰¹å¾é€²(jìn)行èžåˆï¼Œä¾†æå‡çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)的性能。近年,Todisco[19]æå‡ºäº†ä¸€ç¨®æ›´èƒ½è¡¨å¾èªªè©±äººä¿¡æ¯çš„æ–°ç‰¹å¾ï¼Œç¨±ç‚ºCQCC(constantQtransformcoefficients)ï¼Œé€šéŽæ¨¡æ“¬äººçš„è½è¦ºæ„ŸçŸ¥ç³»çµ±(tÇ’ng),引入常數(shù)Qå› å,使得生æˆçš„é »èœåœ–åœ¨é«˜é »å’Œä½Žé »éƒ½å…·æœ‰è¼ƒé«˜çš„åˆ†è¾¨çŽ‡ï¼ŒåŒMFCC特å¾ç›¸æ¯”æ›´é©åˆçŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)任務(wù)。æ¤å¤–,Leungç‰[20]利用語音上下文的關(guÄn)è¯(lián)性,æå‡ºäº†åŸºäºŽN-gram語言模型的çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)的方法。Pennyç‰[21]æå‡ºå°‡éŸ³ç´ åŽé©—(yà n)概率信æ¯è½‰(zhuÇŽn)æ›ç‚ºç‰¹å¾çš„æ–¹æ³•,利用語音è˜(shÃ)åˆ¥å¾—åˆ°éŸ³ç´ åŽé©—(yà n)概率信æ¯ï¼Œè¼”助訓(xùn)ç·´UBM。Fu[22]則使用串è¯(lián)特å¾(Tandemfeature)方法,å³ä¸²è¯(lián)çŸæ™‚(shÃ)é »èœç‰¹å¾å’ŒåŸºäºŽèªžéŸ³è˜(shÃ)別深度網(wÇŽng)絡(luò)的特å¾ï¼Œåœ¨åŸºäºŽGMM-UBM的框架下å–得了較高的è˜(shÃ)別率。Sainath[23]采用自編碼器的çµ(jié)æ§‹(gòu),將網(wÇŽng)絡(luò)çš„æŸå€‹(gè)éš±è—層è¨(shè)ç½®ç‚ºç“¶é ¸å±¤(Bottlenecklayer)ï¼Œå°‡ç“¶é ¸å±¤çš„è¼¸å‡ºå’Œå…¶ä»–ç‰¹å¾ä¸²è¯(lián),實(shÃ)é©—(yà n)表明該方法有助于æå‡çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)性能。
3.2.2çŸèªžéŸ³å»ºæ¨¡
近年隨著i-vector框架æˆç‚ºèªªè©±äººç¢ºèª(rèn)的基準(zhÇ”n)(benchmark)ï¼Œç ”ç©¶è€…ä¹Ÿå±•é–‹äº†åŸºäºŽi-vector框架的çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)ç ”ç©¶ã€‚ç”±äºŽPLDA的框架å¯ä»¥é©ç”¨äºŽä»»æ„語音長(zhÇŽng)度的說話人確èª(rèn)[24]ï¼Œå› æ¤ï¼Œè¨±å¤šç ”究者開始了基于i-vector-PLDA框架下å°(duì)çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)çš„æŽ¢ç´¢ã€‚å…¶ä¸æ¨¡å¼åŒ¹é…å’Œæ¸ä¸€åŒ–æ˜¯è¿‘å¹´çš„ç ”ç©¶ç†±é»ž(diÇŽn)。
Jelilç‰[25]æå‡ºäº†åœ¨æ–‡æœ¬ç›¸é—œ(guÄn)çš„çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)ä¸ä½¿ç”¨èªžéŸ³ä¸éš±å«çš„éŸ³ç´ åºåˆ—ä¿¡æ¯çš„æ–¹æ³•,分別構(gòu)建了說話人相關(guÄn)çš„GMM和特定çŸèªžçš„高斯åŽé©—(yà n)概率圖,在測(cè)試階段,一方é¢éœ€è¦æ¯”較目標(biÄo)說話人的GMM,å¦ä¸€æ–¹é¢ï¼Œä¹Ÿè¦åˆ©ç”¨å‹•(dòng)æ…‹(tà i)時(shÃ)é–“è¦(guÄ«)æ•´(DTW)方法與特定çŸèªžæ¨¡æ¿åŽé©—(yà n)圖匹é…ï¼›Deyç‰[26]則嘗試在在基于DNNå’Œi-vector框架下通éŽDTW引用åºåˆ—ä¿¡æ¯ï¼Œä¾†æå‡æ–‡æœ¬ç›¸é—œ(guÄn)çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)性能。
æ¸ä¸€åŒ–方法主è¦ç”¨äºŽè£œ(bÇ”)償訓(xùn)ç·´ã€æ³¨å†Š(cè)åŠæ¸¬(cè)試éŽç¨‹ä¸èªžéŸ³æ™‚(shÃ)é•·(zhÇŽng)ä¸åŒ¹é…é€ æˆçš„影響。Hautam?kiç‰äºº[12]æå‡ºåŸºäºŽminimaxç–ç•¥æå–i-vectorå‘é‡ä»¥è¡¨å¾èªªè©±äººï¼Œåœ¨ä½¿ç”¨EM算法æå–Baum-Welchçµ±(tÇ’ng)計(jì)釿™‚(shÃ)引入minimax方法幫助模型ç²å–æ›´åŠ é¯æ£’çš„i-vectorï¼›2014年,Kanagasundaramç‰[27][28]發(fÄ)ç¾(xià n)模型估計(jì)åŒä¸€èªªè©±äººå¤šæ¢çŸèªžéŸ³çš„i-vectors有明顯差異,他們å‡è¨(shè)這種差異來æºäºŽi-vectors所包å«çš„ä¸ä¸€è‡´çš„éŸ³ç´ ä¿¡æ¯ï¼Œå› ?yà n)æ§Žé™¶Z音ä¸åŒ…å«çš„詞匯少ã€è¦†è“‹çš„éŸ³ç´ å°‘ï¼Œå› æ¤åŒ…å«çš„èªªè©±äººä¿¡æ¯æœ‰é™ï¼Œåœ¨è©²å‡è¨(shè)的基礎(chÇ”)上,他們æå‡ºçŸèªžéŸ³æ–¹å·®è¦(guÄ«)æ•´(Shortutterancevariancenormalization,SUVN)的方法來補(bÇ”)償失é…éŸ³ç´ å…§(nèi)容。Hasanç‰[29]在統(tÇ’ng)計(jì)時(shÃ)é•·(zhÇŽng)å’ŒéŸ³ç´ ?cái)?shù)é‡çš„é—œ(guÄn)系時(shÃ)發(fÄ)ç¾(xià n),當(dÄng)語音時(shÃ)é•·(zhÇŽng)è®ŠçŸæ™‚(shÃ),一å¥è©±ä¸å¯æª¢æ¸¬(cè)åˆ°çš„éŸ³ç´ ?cái)?shù)é‡å‘ˆæŒ‡æ•¸(shù)趨勢(shì)下é™ï¼ŒåŸºäºŽé€™å€‹(gè)發(fÄ)ç¾(xià n),他們將時(shÃ)é•·(zhÇŽng)差異視為i-vector空間的噪è²ï¼Œå¹¶å°(duì)其建模,æé«˜äº†èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)在çŸèªžéŸ³æ¢ä»¶ä¸‹çš„æ€§èƒ½ã€‚
2013å¹´åŽåŸºäºŽæ·±åº¦å¸(xué)ç¿’(xÃ)的方法也被引入,在DNN框架下,Snyderç‰äºº[30]利用時(shÃ)åºæ± 化層(temporalpoolinglayer)處ç†è®Šé•·(zhÇŽng)語音輸入;長(zhÇŽng)時(shÃ)說話人確èª(rèn)ä¸èªžéŸ³çš„i-vectorsé‚„å¯ä»¥å¸(xué)ç¿’(xÃ)到çŸèªžéŸ³ä¸‹çš„éŸ³ç´ å…§(nèi)容差異[29]ï¼Œå—æ¤å•Ÿç™¼(fÄ),Hongç‰[31]å°‡é·ç§»å¸(xué)ç¿’(xÃ)(transferlearning)的方法引入çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)ä¸ï¼Œå¾žé•·(zhÇŽng)時(shÃ)語音訓(xùn)練的模型域?qÅ«)Wç¿’(xÃ)說話人å€(qÅ«)分性信æ¯ï¼Œå¹¶å°‡KLæ£å‰‡åŒ–é …(xià ng)åŠ å…¥åˆ°åŽç«¯PLDA目標(biÄo)函數(shù)ä¸ï¼Œä¾†åº¦é‡æºåŸŸå’Œç›®æ¨™(biÄo)域的相似度,實(shÃ)é©—(yà n)çµ(jié)果顯示該方法有助于æå‡i-vector-PLDA框架下的çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)性能。
3.3基于i-vectorå’ŒPLDA的說話人確èª(rèn)算法
2011年,Dehak在實(shÃ)é©—(yà n)ä¸ç™¼(fÄ)ç¾(xià n),JFA算法[32]å‡è¨(shè)本å¾ä¿¡é“空間是利用說話人無關(guÄn)的信é“ä¿¡æ¯ä¼°è¨ˆ(jì)得到,但實(shÃ)éš›ä¸éƒ¨åˆ†èªªè©±äººç›¸é—œ(guÄn)的信æ¯ä¹Ÿæœƒ(huì)泄露至本å¾ä¿¡é“空間之ä¸ï¼Œå³JFA算法雖然å‡è¨(shè)利用本å¾éŸ³ç©ºé–“和本å¾ä¿¡é“空間來å€(qÅ«)分說話人信æ¯å’Œä¿¡é“ä¿¡æ¯ï¼Œä½†æ˜¯ç„¡æ³•有效分離兩個(gè)ç©ºé–“ã€‚å› æ¤ï¼ŒDehakä¸åŠƒåˆ†å¾éŸ³ä¿¡é“空間和本å¾éŸ³ç©ºé–“,并使用一個(gè)全局差異(TotalVariability)空間來統(tÇ’ng)一æè¿°èªªè©±äººä¿¡æ¯å’Œä¿¡é“ä¿¡æ¯ï¼Œå¹¶ä¸€å€‹(gè)å…¨å±€å·®ç•°å› å(i-vector)æè¿°èªªè©±äººå› å和信é“å› å[4]。在i-vector說話人確èª(rèn)系統(tÇ’ng)ä¸ï¼Œèªªè©±äººè¶…矢é‡è¢«åˆ†è§£ç‚ºï¼š
å…¬å¼ä¸m表示éžç‰¹å®šèªªè©±äººçš„超矢é‡ï¼›?是低秩的全局差異空間;?æ˜¯å…¨å±€å·®ç•°å› å,也稱為身份矢é‡ï¼Œå³i-vector。
在i-vector方法ä¸ï¼Œèªªè©±äººä¿¡æ¯å’Œä¿¡é“ä¿¡æ¯éƒ½åŒ…å«åœ¨å…¨å±€å·®ç•°ç©ºé–“ä¸ï¼Œç‚ºäº†æé«˜i-vectorå°(duì)說話人表å¾çš„æº–(zhÇ”n)確度,需è¦å¼•入信é“補(bÇ”)償技術(shù)來進(jìn)ä¸€æ¥æ¶ˆé™¤ä¿¡é“å› åçš„å½±éŸ¿ï¼Œå› æ¤ï¼Œå¼•å…¥PLDA[33]å°(duì)i-vectoråšé€²(jìn)一æ¥çš„å› å分æžï¼Œå³å°‡i-vector空間進(jìn)一æ¥åˆ†è§£ç‚ºèªªè©±äººç©ºé–“和信é“空間,具體分解如下:
å…¶ä¸ï¼Œ?表示說話人的語音;?是所有訓(xùn)ç·´i-vectorçš„å‡å€¼ï¼›?表示說話人空間矩陣,æè¿°èªªè©±äººç›¸é—œ(guÄn)特å¾ï¼›?æ˜¯èªªè©±äººå› åï¼›?是信é“空間矩陣,æè¿°åŒä¸€èªªè©±äººä¸åŒèªžéŸ³ä¹‹é–“的差異;?是信é“å› åï¼›?為噪è²å› å。æ¤å¤–,?å’Œ?滿足?(0,1)分布。在測(cè)試階段,通éŽå°(duì)數(shù)似然比來判斷兩æ¢èªžéŸ³æ˜¯å¦ç”±åŒä¸€èªªè©±äººç©ºé–“的特å¾ç”Ÿæˆï¼Œå…¶å…¬å¼å¦‚下:
å…¶ä¸Ï‰1,ω2分別為注冊(cè)和測(cè)試階段的說話人i-vectorå‘é‡ï¼ŒH0å‡è¨(shè)兩段語音屬于ä¸åŒèªªè©±äººï¼ŒH1å‡è¨(shè)兩段語音屬于åŒä¸€å€‹(gè)說話人。
4 基于深度å¸(xué)ç¿’(xÃ)的時(shÃ)說話人確èª(rèn)ä¸»æµæŠ€è¡“(shù)
2013å¹´å‰ï¼Œä¸»æµçš„說話人確èª(rèn)技術(shù)都是基于統(tÇ’ng)計(jì)模型方法。隨著深度å¸(xué)ç¿’(xÃ)方法在語音è˜(shÃ)別,圖åƒè™•ç†ç‰é ˜(lÇng)域å–å¾—çªç ´æ€§é€²(jìn)展,å¸(xué)è€…å€‘é–‹å§‹ç ”ç©¶åŸºäºŽæ·±åº¦å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)技術(shù)。其ä¸ä¸»è¦åˆ†æ”¯åŒ…括:基于深度網(wÇŽng)絡(luò)特å¾å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)方法,基于度é‡å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)方法,基于多任務(wù)å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)方法和端到端的說話人確èª(rèn)方法。
4.1基于深度網(wÇŽng)絡(luò)ç‰¹å¾æå–的方法
基于深度網(wÇŽng)絡(luò)的特å¾å¸(xué)ç¿’(xÃ)方法,利用復(fù)雜éžç·šæ€§çµ(jié)æ§‹(gòu)è³¦äºˆçš„ç‰¹å¾æå–能力,能自動(dòng)å°(duì)輸入的語音信號(hà o)進(jìn)行特å¾åˆ†æžï¼Œæå–å‡ºæ›´é«˜å±¤ã€æ›´æŠ½è±¡çš„說話人表å¾ã€‚
2014年,谷æŒçš„ç ”ç©¶å“¡Ehsanç‰äºº[34]æå‡ºäº†åŸºäºŽDNN(DeepNeuralNetworks,DNN)çµ(jié)æ§‹(gòu)的說話人確èª(rèn)算法,é¸å–最åŽä¸€å±¤éš±è—層激活åŽçš„輸出作為說話人幀級(jÃ)別特å¾(frame-levelfeatures);一段語音所有幀級(jÃ)別特å¾å–å¹³å‡åŽå¾—到該段語音的å¥åç´š(jÃ)特å¾(utterance-levelfeatures),稱之為d-vectorï¼›2015年,Chenç‰äºº[35]發(fÄ)ç¾(xià n)輸入層到DNN第一個(gè)éš±è—層間å˜åœ¨æ¬Š(quán)值矩陣éŽå¤§çš„å•題,將其å¯è¦–化åŽï¼Œç™¼(fÄ)ç¾(xià n)å˜åœ¨å¤§é‡çš„零值,而éžé›¶æ¬Š(quán)值則å˜åœ¨èšé›†æ•ˆæ‡‰(yÄ«ng),é‡å°(duì)這一å•題,æå‡ºäº†ä½¿ç”¨å±€éƒ¨é€£æŽ¥å’Œå·ç©ç¶²(wÇŽng)絡(luò)(ConvolutionalNeuralNetworks,CNN)代替全連接的方法,新網(wÇŽng)絡(luò)çš„åƒæ•¸(shù)é‡ä¸‹é™äº†30%,且性能僅有4%çš„æå¤±ï¼Œæ¤å¤–ï¼Œåœ¨åŒæ¨£å¤šçš„åƒæ•¸(shù)情æ³ä¸‹ï¼Œæ–°ç¶²(wÇŽng)絡(luò)çš„EER分別æé«˜äº†8%å’Œ10%ï¼›2017年,清è¯å¤§å¸(xué)çš„Wang[36]æå‡ºäº†ä¸€ç¨®CNNå’ŒTDNNæ··åˆçš„ç‰¹å¾æå–ç¶²(wÇŽng)絡(luò),輸入為語èœåœ–,輸出則是具有å¯åˆ†æ€§çš„說話人表å¾ï¼Œç”±äºŽé€šéŽèªžèœåœ–å¯ä»¥ç›´æŽ¥ç²å–å¥åç´š(jÃ)別的特å¾ï¼Œå› æ¤ç¶²(wÇŽng)絡(luò)性能具有較大的æå‡ã€‚2018年,Liç‰äºº[37]發(fÄ)ç¾(xià n)在基于DNN的特å¾å‚³çµ±(tÇ’ng)æå–çµ(jié)æ§‹(gòu)ä¸ï¼Œç”±äºŽä½¿ç”¨äº†å«æœ‰åƒæ•¸(shù)çš„softmax層,å¯èƒ½å°Ž(dÇŽo)致部分說話人信æ¯â€œæ³„æ¼â€åˆ°äº†éš±å±¤èˆ‡softmax層連接的權(quán)é‡åƒæ•¸(shù)ä¸ï¼Œå°Ž(dÇŽo)致由最åŽä¸€å±¤ç¶²(wÇŽng)絡(luò)節(jié)點(diÇŽn)所表示的深度特å¾ä¸å®Œå‚™ï¼Œé€²(jìn)而使得準(zhÇ”n)ç¢ºçŽ‡è¼ƒä½Žï¼Œå› æ¤ä½œè€…改進(jìn)了æå¤±å‡½æ•¸(shù),使得新的æå¤±å‡½æ•¸(shù)ä¸å«é¡å¤–åƒæ•¸(shù),說話人全部信æ¯è¡¨å¾å‡åœ¨ç¶²(wÇŽng)絡(luò)最åŽä¸€å±¤è¼¸å‡ºï¼›åŒå¹´ç´„ç¿°æ–¯éœæ™®é‡‘斯大å¸(xué)çš„Povey[30],æå‡ºåŸºäºŽDNNçš„x-vector說話人確èª(rèn)系統(tÇ’ng),該系統(tÇ’ng)å°‡èªžéŸ³ç‰¹å¾æå–éŽç¨‹åˆ†ç‚ºå¹€ç´š(jÃ)(frame-level)和段級(jÃ)(segment-level),并使用統(tÇ’ng)計(jì)æ± åŒ–å±¤é€£æŽ¥å…©ç´š(jÃ)特å¾ã€‚åŒå¹´P(guÄn)ovey[38]發(fÄ)ç¾(xià n)使用數(shù)據(jù)增強(qiáng),在原始語音數(shù)據(jù)ä¸ä»¥ä¸€å®šæ¯”ä¾‹åŠ å…¥å™ªè²ã€æ··éŸ¿ã€äººè²ç‰å¹²æ“¾å› ç´ ï¼Œä½¿å¾—ç¶²(wÇŽng)絡(luò)èƒ½å¤ å¾žå¸¶å™ªæ•¸(shù)據(jù)ä¸æç…‰å‡ºæœ‰æ•ˆä¿¡æ¯ï¼Œé€²(jìn)而æé«˜èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)的性能。
4.2基于度é‡å¸(xué)ç¿’(xÃ)的方法
基于度é‡å¸(xué)ç¿’(xÃ)的方法著眼于è¨(shè)計(jì)æ›´é©åˆèªªè©±äººç¢ºèª(rèn)任務(wù)的目標(biÄo)函數(shù)ï¼Œä½¿å¾—ç‰¹å¾æå–ç¶²(wÇŽng)絡(luò)é€šéŽæ–°çš„目標(biÄo)函數(shù)能å¸(xué)ç¿’(xÃ)到具有較å°é¡žå…§(nèi)è·é›¢ã€è¼ƒå¤§é¡žé¡žè·é›¢çš„特å¾ã€‚
2017年,百度æå‡ºäº†DeepSpeaker[39]系統(tÇ’ng),其使用人臉è˜(shÃ)別ä¸å»£æ³›æ‡‰(yÄ«ng)用的tripletloss作為æå¤±å‡½æ•¸(shù),模型訓(xùn)練時(shÃ)å…ˆæå–åŒä¸€èªªè©±äººå…©æ®µèªžéŸ³çš„表å¾ï¼Œå†æå–ä¸åŒèªªè©±äººèªžéŸ³çš„表å¾ï¼Œç›®æ¨™(biÄo)是令åŒä¸€èªªè©±äººè¡¨å¾ä¹‹é–“的余弦相似度高于ä¸åŒèªªè©±äººä¹‹é–“的余弦相似度。在文本無關(guÄn)的數(shù)據(jù)上,EER相比基于DNN的方法é™ä½Žäº†50%ï¼›2018年,ç´ç´„大å¸(xué)çš„Salehghaffari[40]æå‡ºäº†ä½¿ç”¨Simaeseçµ(jié)æ§‹(gòu),å³ä½¿ç”¨contrastiveloss作為æå¤±å‡½æ•¸(shù),其è¨(shè)計(jì)的基于CNN的說話人確èª(rèn)ç¶²(wÇŽng)絡(luò)較i-vector系統(tÇ’ng)é™ä½Žäº†è¿‘10%çš„EER。
4.3基于多任務(wù)å¸(xué)ç¿’(xÃ)的方法
由于ä¸åŒèªžéŸ³ä»»å‹™(wù)之間å˜åœ¨ä¸€å®šçš„相似性(如關(guÄn)éµè©žæª¢æ¸¬(cè)與說話人確èª(rèn),語音分離與語音增強(qiáng)ï¼‰ï¼Œç ”ç©¶è€…å€‘å˜—è©¦é€šéŽåœ¨ç›¸é—œ(guÄn)任務(wù)ä¸å…±äº«ä¿¡æ¯ï¼Œä½¿å¾—模型在說話人確èª(rèn)任務(wù)上具有更好的泛化能力,進(jìn)而æé«˜èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng)的泛化能力。
2018年清è¯å¤§å¸(xué)çš„Dingç‰äºº[41]將圖åƒç”Ÿæˆé ˜(lÇng)域ä¸çš„TripletGANé·ç§»åˆ°äº†èªªè©±äººç¢ºèª(rèn)é ˜(lÇng)域,é‹(yùn)用多任務(wù)å¸(xué)ç¿’(xÃ)çš„æ€æƒ³è®“ç¶²(wÇŽng)絡(luò)åŒæ™‚(shÃ)進(jìn)行說話人確èª(rèn)å’ŒèªžéŸ³åˆæˆå…©å€‹(gè)任務(wù),使用生æˆå°(duì)抗網(wÇŽng)絡(luò)(GenerativeAdversarialNetworks,GAN)作為數(shù)據(jù)生æˆå™¨ï¼Œç”Ÿæˆæ›´å¤šçš„語音數(shù)據(jù)作為說話人確èª(rèn)ç¶²(wÇŽng)絡(luò)的輸入,使其å¸(xué)ç¿’(xÃ)到更具泛化能力的說話人表å¾ï¼Œç›¸æ¯”tripletlossç¶²(wÇŽng)絡(luò)性能有較大的æå‡ï¼›åŒå¹´ï¼ŒNovoselovç‰äºº[42],將說話人確èª(rèn)任務(wù)和數(shù)å—è˜(shÃ)別任務(wù)相çµ(jié)åˆï¼Œä½¿å¾—ç¶²(wÇŽng)絡(luò)最åŽä¸€å±¤åŒæ™‚(shÃ)輸出說話人辨èª(rèn)和語音數(shù)å—è˜(shÃ)別çµ(jié)果,在RSR2015數(shù)據(jù)庫(kù)上其相比基準(zhÇ”n)算法有近50%çš„æå‡ï¼›Deyç‰äºº[43]å‰‡é€šéŽæ•¸(shù)å—辨èª(rèn)和說話人確èª(rèn)的多任務(wù)å¸(xué)ç¿’(xÃ),使網(wÇŽng)絡(luò)能è¯(lián)åˆå„ª(yÅu)化å„個(gè)å•題,并采用tripletloss作為目標(biÄo)函數(shù),在RSR數(shù)據(jù)庫(kù)上較i-vector方法æå‡äº†43%。
4.4端到端的說話人確èª(rèn)
端到端的說話人確èª(rèn)系統(tÇ’ng),輸入為ä¸åŒèªªè©±äººçš„語音信號(hà o),輸出å³ç‚ºèªªè©±äººç¢ºèª(rèn)çµ(jié)果。端到端的網(wÇŽng)絡(luò)通常包å«å¤§é‡åƒæ•¸(shù),相比其它基于深度å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)方法需è¦è¼ƒå¤šçš„訓(xùn)練與測(cè)試數(shù)據(jù)。
2016年,Googleçš„Heigoldç‰äºº[44]æå‡ºäº†ç«¯åˆ°ç«¯èªªè©±äººç¢ºèª(rèn)系統(tÇ’ng),其包å«å…©å€‹(gè)ç¶²(wÇŽng)絡(luò):é (yù)先訓(xùn)ç·´å¥½çš„ç‰¹å¾æå–ç¶²(wÇŽng)絡(luò)å’Œç”¨äºŽæ±ºç–æ‰“分的判決網(wÇŽng)絡(luò)。訓(xùn)練階段,首先利用é (yù)訓(xùn)ç·´çš„ç‰¹å¾æå–ç¶²(wÇŽng)絡(luò)ç²å–語音幀級(jÃ)特å¾ï¼Œå–å¹³å‡åŽå¾—到å¥åç´š(jÃ)別特å¾å¹¶èˆ‡å…¶å®ƒèªžå¥æå–出的特å¾è¨ˆ(jì)算余弦相似度;然åŽå°‡ç›¸ä¼¼åº¦è¼¸å…¥é‚輯回æ¸å±¤ä¸ï¼Œå…¶ä¸åƒ…åŒ…å«æ¬Š(quán)é‡è®Šé‡å’Œå置變é‡?jÄ«)蓚€(gè)標(biÄo)é‡åƒæ•¸(shù),最終é‚輯回æ¸å±¤è¼¸å‡ºæ˜¯å¦ç‚ºåŒä¸€èªªè©±äººï¼›æ³¨å†Š(cè)階段,ç²å–輸入語音的特å¾ï¼Œå†æ¬¡è¨“(xùn)練整個(gè)ç¶²(wÇŽng)絡(luò),訓(xùn)ç·´ä¸åƒ…改變é‚輯回æ¸å±¤çš„åç½®åƒæ•¸(shù)ï¼Œå…¶ä»–åƒæ•¸(shù)ä¿æŒä¸è®Šï¼›é©—(yà n)è‰éšŽæ®µï¼Œè¼¸å…¥å¾…é©—(yà n)è‰çš„語音,é‚輯回æ¸å±¤ç›´æŽ¥è¼¸å‡ºåˆ¤æ±ºçµ(jié)果。2016年微軟的Zhang[45]發(fÄ)ç¾(xià n)éœéŸ³å¹€ä¿¡è™Ÿ(hà o)å°(duì)å¥ç´š(jÃ)別特å¾çš„多余貢ç»(xià n)會(huì)弱化其表å¾èƒ½åŠ›ï¼Œå› æ¤æå‡ºä½¿ç”¨æ³¨æ„力機(jÄ«)制,引入兩個(gè)é (yù)訓(xùn)ç·´ç¶²(wÇŽng)絡(luò),一個(gè)用于ç²å–æ¯ä¸€å¹€èªžéŸ³çš„éŸ³ç´ ç‰¹å¾ï¼Œå¦ä¸€å€‹(gè)則判斷當(dÄng)å‰è©žæ˜¯å¦ç‚ºä¸‰éŸ³ç´ 組,çµ(jié)åˆå…©å€‹(gè)ç¶²(wÇŽng)絡(luò)輸出賦予æ¯ä¸€å¹€ä¿¡è™Ÿ(hà o)ä¸åŒæ¬Š(quán)é‡ï¼ŒåŠ æ¬Š(quán)åˆæˆå¥ç´š(jÃ)別特å¾ã€‚2017å¹´Googleçš„Chowdhury改進(jìn)了注æ„力機(jÄ«)制[46],權(quán)é‡çš„ç²å–ä¸å†ä¾è³´é (yù)先訓(xùn)練的輔助網(wÇŽng)絡(luò),而是直接å°(duì)幀級(jÃ)別特å¾é€²(jìn)行éžç·šæ€§è®Šæ›å¸(xué)ç¿’(xÃ)權(quán)é‡åƒæ•¸(shù),這樣極大地減少了網(wÇŽng)絡(luò)的復(fù)雜程度;Googleçš„Li[47]æå‡ºç”¨é ˜(lÇng)åŸŸè‡ªé©æ‡‰(yÄ«ng)的方法,在端到端的說話人確èª(rèn)任務(wù)ä¸åˆ©ç”¨å¤§èªžæ–™æ•¸(shù)據(jù)集輔助å°èªžæ–™æ•¸(shù)據(jù)é›†ï¼ŒåŒæ™‚(shÃ)é‡å°(duì)文本相關(guÄn)和文本無關(guÄn)å…©ç¨®å ´(chÇŽng)景分別è¨(shè)計(jì)了兩類ä¸åŒçš„æå¤±å‡½æ•¸(shù),使得網(wÇŽng)絡(luò)訓(xùn)練時(shÃ)間減少了60%,準(zhÇ”n)確率æé«˜äº†10%。
5 總çµ(jié)與展望
本文é‡é»ž(diÇŽn)介紹了é¢å‘æ™ºèƒ½èªžéŸ³æŽ§åˆ¶å ´(chÇŽng)景下的çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù),綜述了基本概念,分æžäº†çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)é¢è‡¨çš„æŒ‘戰(zhà n)ï¼Œå¹¶å¾žç‰¹å¾æå–å’ŒçŸèªžéŸ³å»ºæ¨¡å…©å€‹(gè)è§’åº¦ä»‹ç´¹äº†ä¸»æµæ–¹æ³•,最åŽä»‹ç´¹äº†åŸºäºŽæ·±åº¦å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)技術(shù)發(fÄ)展ç¾(xià n)狀。
相比于基于傳統(tÇ’ng)機(jÄ«)器å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)技術(shù),基于深度å¸(xué)ç¿’(xÃ)çš„çŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)技術(shù)性能更佳,這得益于深度網(wÇŽng)絡(luò)具有強(qiáng)å¤§çš„ç‰¹å¾æå–能力。但是,我們也看到,基于深度å¸(xué)ç¿’(xÃ)的方法需è¦å¤§é‡çš„æ¨™(biÄo)注訓(xùn)練語音數(shù)據(jù)進(jìn)行模型訓(xùn)練,這é™åˆ¶äº†åŸºäºŽæ·±åº¦å¸(xué)ç¿’(xÃ)的說話人確èª(rèn)æ¨¡åž‹çš„æ³›åŒ–ä»¥åŠæ‡‰(yÄ«ng)ç”¨æŽ¨å»£ã€‚å› æ¤é‡‡ç”¨é·ç§»å¸(xué)ç¿’(xÃ)方法將基于大語料數(shù)據(jù)庫(kù)訓(xùn)ç·´ç²å¾—的說話人模型é·ç§»åˆ°åŸºäºŽå°èªžæ–™æ•¸(shù)據(jù)庫(kù)çš„èªªè©±äººæ¨¡åž‹ã€æœ‰æ•ˆåœ°æå–çŸèªžéŸ³ä¸æ›´å…·å€(qÅ«)分性的特å¾ä»¥åŠè¨(shè)計(jì)æ›´é©åˆçŸèªžéŸ³èªªè©±äººç¢ºèª(rèn)任務(wù)的目標(biÄo)函數(shù)ç‰æ˜¯æœªä¾†é‡é»ž(diÇŽn)çš„ç ”ç©¶æ–¹å‘。
åƒè€ƒæ–‡ç»(xià n)
[1]HansenJHL,HasanT.SpeakerRecognitionbyMachinesandHumans:Atutorialreview[J].IEEESignalProcessingMagazine,2015,32(6):74-99.
[2]鄿–¹,æŽè—(lán)天,張慧,ç‰.è²ç´‹è˜(shÃ)別技術(shù)åŠå…¶æ‡‰(yÄ«ng)用ç¾(xià n)ç‹€[J].ä¿¡æ¯å®‰å…¨ç ”ç©¶,2016,2(1):44-57.
[3]SchefferN,FerrerL,GraciarenaM,etal.TheSRINIST2010speakerrecognitionevaluationsystem[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2011:5292-5295.
[4]DehakN,KennyPJ,DehakR,etal.Front-EndFactorAnalysisforSpeakerVerification[J].IEEETransactionsonAudioSpeech&LanguageProcessing,2011,19(4):788-798.
[5]MarkelJ,OshikaB,GrayA.Long-termfeatureaveragingforspeakerrecognition[J].IEEETransactionsonAcousticsSpeech&SignalProcessing,1977,25(4):330-337.
[6]K.Li,E.Wrench.Anapproachtotext-independentspeakerrecognitionwithshortutterances[C]//Acoustics,Speech,andSignalProcessing,IEEEInternationalConferenceonICASSP.IEEE,1983:555-558.
[7]ReynoldsDA,QuatieriTF,DunnRB.SpeakerVerificationUsingAdaptedGaussianMixtureModels[C]//DigitalSignalProcessing.2000:19–41.
[8]KennyP.Bayesianspeakerverificationwithheavytailedpriors[C]//Proc.OdysseySpeakerandLanguageRecogntionWorkshop,Brno,CzechRepublic.2010.
[9]PoddarA,SahidullahM,SahaG.Speakerverificationwithshortutterances:areviewofchallenges,trendsandopportunities[J].IetBiometrics,2018,7(2):91-101.
[10]LarcherA,KongAL,MaB,etal.Text-dependentspeakerverification:Classifiers,databasesandRSR2015[J].SpeechCommunication,2014,60(3):56-77.
[11]DasRK,PrasannaSRM.SpeakerVerificationfromShortUtterancePerspective:AReview[J].IeteTechnicalReview,2017(1):1-19.
[12]V.Hautam?ki,Y.-C.Cheng,P.Rajan,etal.Minimaxi-vectorextractorforshortdurationspeakerverification[J].2013.
[13]PoorjamAH,SaeidiR,KinnunenT,etal.IncorporatinguncertaintyasaQualityMeasureinI-VectorBasedLanguageRecognition[C]//TheSpeakerandLanguageRecognitionWorkshop.2016.
[14]KanagasundaramA,VogtR,DeanD,etal.i-vectorBasedSpeakerRecognitiononShortUtterances[C]//INTERSPEECH.DBLP,2011.
[15]HosseinzadehD,KrishnanS.OntheUseofComplementarySpectralFeaturesforSpeakerRecognition[J].EurasipJournalonAdvancesinSignalProcessing,2007,2008(1):1-10.
[16]MakhoulJ.Linearprediction:atutorialreview.ProcIEEE63:561-580[J].ProceedingsoftheIEEE,1975,63(4):561-580.
[17]HermanskyH.Perceptuallinearpredictive(PLP)analysisofspeech.[J].JournaloftheAcousticalSocietyofAmerica,1990,87(4):1738-1752.
[18]HuangX,AceroA.SpokenLanguageProcessing:AGuidetoTheory,Algorithm,andSystemDevelopment[M].PrenticeHallPTR,2001.
[19]TodiscoM,DelgadoH,EvansN.ArticulationratefilteringofCQCCfeaturesforautomaticspeakerverification[C]//INTERSPEECH.2018.
[20]LeungKY,MakMW,SiuMH,etal.Adaptivearticulatoryfeature-basedconditionalpronunciationmodelingforspeakerverification[J].SpeechCommunication,2006,48(1):71-84.
[21]KennyP,GuptaV,StafylakisT,etal.DeepneuralnetworksforextractingBaum-Welchstatisticsforspeakerrecognition[C]//Odyssey.2014.
[22]FuT,QianY,LiuY,etal.Tandemdeepfeaturesfortext-dependentspeakerverification[C]//ConferenceoftheInternationalSpeechCommunicationAssociation.InternationalSpeechCommunicationAssociation(ISCA),2014:747-753.
[23]SainathTN,KingsburyB,RamabhadranB.Auto-encoderbottleneckfeaturesusingdeepbeliefnetworks[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2012:4153-4156.
[24]KennyP,StafylakisT,OuelletP,etal.PLDAforspeakerverificationwithutterancesofarbitraryduration[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2013:7649-7653.
[25]JelilS,DasRK,SinhaR,etal.SpeakerVerificationUsingGaussianPosteriorgramsonFixedPhraseShortUtterances[C]//INTERSPEECH.2015.
[26]DeyS,MotlicekP,MadikeriS,etal.Exploitingsequenceinformationfortext-dependentSpeakerVerification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2017:5370-5374.
[27]KanagasundaramA,DeanD,Gonzalez-DominguezJ,etal.ImprovingShortUtterancebasedI-vectorSpeakerRecognitionusingSourceandUtterance-DurationNormalizationTechniques[C]//Proceed.ofINTERSPEECH.2013:3395-3400.
[28]KanagasundaramA,DeanD,SridharanS,etal.Improvingshortutterancei-vectorspeakerverificationusingutterancevariancemodellingandcompensationtechniques[J].SpeechCommunication,2014,59(2):69-82.
[29]HasanT,SaeidiR,HansenJHL,etal.Durationmismatchcompensationfori-vectorbasedspeakerrecognitionsystems[J].2013:7663-7667.
[30]SnyderD,GhahremaniP,PoveyD,etal.Deepneuralnetwork-basedspeakerembeddingsforend-to-endspeakerverification[C]//SpokenLanguageTechnologyWorkshop.IEEE,2017:165-170.
[31]HongQ,LiL,WanL,etal.TransferLearningforSpeakerVerificationonShortUtterances[C]//INTERSPEECH.2016:1848-1852.
[32]KennyP.Jointfactoranalysisofspeakerandsessionvariability:Theoryandalgorithms[J].2005.
[33]SenoussaouiM,KennyP,BrümmerN,etal.MixtureofPLDAModelsini-vectorSpaceforGender-IndependentSpeakerRecognition[C]//INTERSPEECH2011,ConferenceoftheInternationalSpeechCommunicationAssociation,Florence,Italy,August.DBLP,2011:25-28.
[34]VarianiE,LeiX,McdermottE,etal.Deepneuralnetworksforsmallfootprinttext-dependentspeakerverification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2014:4052-4056.
[35]ChenY,Lopez-MorenoI,SainathTN,etal.Locally-connectedandconvolutionalneuralnetworksforsmallfootprintspeakerrecognition[C]//SixteenthAnnualConferenceoftheInternationalSpeechCommunicationAssociation.2015.
[36]LiL,ChenY,ShiY,etal.DeepSpeakerFeatureLearningforText-independentSpeakerVerification[J].2017:1542-1546.
[37]LiL,TangZ,WangD,etal.Full-infoTrainingforDeepSpeakerFeatureLearning[J].2018.
[38]SnyderD,Garcia-RomeroD,SellG,etal.X-vectors:RobustDNNembeddingsforspeakerrecognition[J].ICASSP,Calgary,2018.
[39]LiC,MaX,JiangB,etal.DeepSpeaker:anEnd-to-EndNeuralSpeakerEmbeddingSystem[J].2017.
[40]HosseinSalehghaffari,etal.SpeakerVeri?cationusingConvolutionalNeuralNetworks[J].2018
[41]DingW,HeL.MTGAN:SpeakerVerificationthroughMultitaskingTripletGenerativeAdversarialNetworks[J].2018.
[42]NovoselovS,KudashevO,SchemelininV,etal.DeepCNNbasedfeatureextractorfortext-promptedspeakerrecognition[J].2018.
[43]SDey,TKoshinaka,PMotlicek,SMadikeri,etal,DNNbasedspeakerembeddingusingcontentinformationfortext-dependentspeakerverification[J].2018
[44]HeigoldG,MorenoI,BengioS,etal.End-to-endtext-dependentspeakerverification[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2016IEEEInternationalConferenceon.IEEE,2016:5115-5119.
[45]ZhangSX,ChenZ,ZhaoY,etal.End-to-endattentionbasedtext-dependentspeakerverification[C]//SpokenLanguageTechnologyWorkshop(SLT),2016IEEE.IEEE,2016:171-178.
[46]ChowdhuryFA,WangQ,MorenoIL,etal.Attention-BasedModelsforText-DependentSpeakerVerification[J].arXivpreprintarXiv:1710.10470,2017.
[47]WanL,WangQ,PapirA,etal.Generalizedend-to-endlossforspeakerverification[J].arXivpreprintarXiv:1710.10467,2017.
標(biÄo)簽:
ä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)版權(quán)與å…責(zé)è²æ˜Žï¼šå‡¡æœ¬ç¶²(wÇŽng)注明[來æºï¼šä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)]的所有文å—ã€åœ–片ã€éŸ³è¦–å’Œè¦–é »æ–‡ä»¶ï¼Œç‰ˆæ¬Š(quán)å‡ç‚ºä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)(www.hysjfh.com)ç¨(dú)家所有。如需轉(zhuÇŽn)載請(qÇng)與0755-82949061è¯(lián)系。任何媒體ã€ç¶²(wÇŽng)站或個(gè)人轉(zhuÇŽn)載使用時(shÃ)é ˆæ³¨æ˜Žä¾†æºâ€œä¸åœ‹(guó)傳動(dòng)ç¶²(wÇŽng)â€ï¼Œé•å者本網(wÇŽng)將追究其法律責(zé)任。
本網(wÇŽng)轉(zhuÇŽn)載并注明其他來æºçš„稿件,å‡ä¾†è‡ªäº’è¯(lián)ç¶²(wÇŽng)或æ¥(yè)å…§(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuÇŽn)載請(qÇng)ä¿ç•™ç¨¿ä»¶ä¾†æºåŠä½œè€…ï¼Œç¦æ¢æ“…自篡改,é•è€…è‡ªè² (fù)版權(quán)法律責(zé)任。