基于深度神經網絡和少量視音頻訓練樣本的自然情景下的情緒識別
文:作者較多,參考正文詳細列出2018年第三期
文:WanDing1,MingyuXu2,DongyanHuang3,WeisiLin4,MinghuiDong3,XinguoYu1,HaizhouLi3,5
1.CentralChinaNormalUniversity,China
2.UniversityofBritishColumbia,Canada
3.ASTAR,Singapore
4.NanyangTechnologicalUniversity,Singapore
5.ECEDepartment,NationalUniversityofSingapore,Singapore
摘要
本文介紹了團隊在2016年自然情景下音視頻情緒識別挑戰(EmotionRecognitionintheWildChallenge2016)的參賽系統。EmotiW2016挑戰的任務是根據視頻片段中人物的表情動作和聲音將視頻按七種基本情緒(無情緒、憤怒、悲傷、快樂、驚奇、恐懼和厭惡)進行分類。EmotiW2016挑戰任務的訓練和測試數據來源于電影和電視真人秀節目的片段。本文提出的解決方案首先基于視頻(臉部表情)和音頻兩個信息通道來分別進行情緒識別,然后將臉部識別和聲音識別子系統的預測結果進行融合(ScoreLevelFusion)。
視頻情緒識別首先提取臉部表情圖像的卷積神經網絡(CNN)特征。圖像特征提取所使用的深度卷積神經網絡以預先訓練好的ImageNet神經網絡為基礎,然后在FER2013圖像數據集上針對臉部情緒識別任務進行微調(FineTuning);然后基于CNN特征和三種圖像集合模型(ImageSetModel)提取視頻特征;最后使用不同的核分類器(SVM,PLS等)來對臉部視頻進行情緒分類。音頻情感識別則沒有利用外部數據集而是直接使用挑戰數據集來訓練長短期記憶循環神經網絡(Long-ShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN)。實驗結果表明文本提出的視頻識別子系統、音頻識別子系統以及他們的融合在準確率方面均能達到當前最先進的性能。該系統在EmotiW2016挑戰的測試數據集上的識別準確率為53.9%,比基準線(40.47%)高出13.5%。
引言
作為人機情感交互的關鍵技術之一,基于音視頻信號的情緒識別這一課題的研究已活躍了數十年。早期的音視頻情緒識別研究主要集中在實驗室擺拍條件下的情緒識別。近年來隨著技術的發展,越來越多的研究者開始把注意力轉向了自然情景下的情緒識別。諸如面部表情識別和分析挑戰(FacialExpressionRecognitionandAnalysisChallenge,FERA)[1]、音頻/視覺情緒挑戰(Audio/VisualEmotionChallenge,AVEC)[2]以及自然情境下的情感識別(EmotionRecognitionintheWildChallenge,EmotiW)[3]已經成為人們研究和測試其自然情景下情緒識別方法的基準(Benchmark)。
對于情緒識別,臉部表情和聲音是最主要的兩個信息通道。在所有的情緒表達信息中,臉部和聲音部分占了近93%[4]。基于時間維度特征提取方法的不同,臉部情緒識別可以分為三類。第一類基于人工設計的時空特征(諸如LocalBinaryPatternsfromThreeOrthogonalPlanes(LBP-TOP)和LocalPhaseQuantizationfromThreeOrthogonalPlanes(LPQ-TOP)[5-7]。
第一類方法將視頻數據視為三維像素體序列,沿著像素體的每一面(空間和時空維度)進行紋理特征的提取。第二類方法將視頻視為一組圖像,基于圖像集合的建模方法(ImageSetModeling)來提取視頻特征并用于情緒識別。基于圖像集的方法將視頻幀視為在不同條件下(姿態,照明等)捕獲的同一對象的圖像。第三類方法利用序列模型(SequenceModel),如遞歸神經網絡(RecurrentNeuralNetwork,RNN)來捕獲視頻所包含的的情緒識別的時間維度特征。與基于時空特征的方法相比,基于圖像集的方法和RNN方法對面部表情在時間維度的變化更加魯棒。RNN模型一般含有大量的自由變量。在訓練視頻樣本較少的情況下基于圖像集的方法相比RNN方法可以獲得更好的識別結果[8-9,37]。在視頻幀的圖像特征提取方面,一種方式是使用人工設計的特征,如Liu等人[8]將DenseSIFT[9],HistogramofOrientedGradients(HOG)[10]等傳統特征與不同的圖像集建模方法[11-14]進行結合以用于臉部視頻的情緒識別。[8]所展示的實驗結果還表明不同的傳統圖像特征對臉部情緒識別還具有互補作用。
Yao等人[15]定義了一種基于臉部圖像局部區域之間的差異的情緒識別特征。他們首先通過臉部正面化(frontalization)技術來配準局部區域[16],然后在局部區域上提取LBP特征,最后使用特征選擇來檢測最具差異性的區域并將這些區域的LBP特征值的差值作為人臉圖像的情緒識別特征。他們的方法在EmotiW2015中的靜態和視音頻情緒識別挑戰上均取得了良好的效果。除了人工設計圖像特征之外,圖像特征提取的另一種方法是使用深度卷積神經網絡(DeepConvolutionalNeuralNetwork,DCNN)。
這里的“深”表示網絡具有三個以上的卷積層。DCNN是一種端到端的圖像分類模型,其卷積層的輸出可以作為圖像特征且具有一定的通用性[17]。訓練有效的DCNN通常需要大量的數據樣本(如10萬張臉部表情圖像);然而目前公開的臉部情緒識別的數據集通常很小(如FER2013只有3萬張圖像)。為了解決這一問題,Liu等人[8]使用人臉識別數據集CFW[18](約17萬張圖像)來訓練DCNN。實驗表明學習到的DCNN特征比傳統的手工特征(Dense-SIFT和HOG)效果更好。Ng等人[19]利用遷移學習策略,將預先訓練好的通用圖像識別網絡作為情緒識別網絡的初始化,再FER-2013數據集[20]對神經網絡進行訓練(權值的微調)。經過微調的DCNN在EmotiW2015靜態面部表情識別子挑戰中取得了不錯的成績。Kim等人[37]基于決策融合方法,直接使用小數據集訓練多個DCNN并將DCNN對與臉部圖片的情緒預測結果進行均值融合。不過多個DCNN的特征融合方法仍有待研究。
在音頻情緒識別方面,經驗表明情緒識別音頻特征與臉部視覺特征互補。將基于面部和基于音頻的情緒識別結果進行融合可以取得比單一通道更好的結果[8-9,21-22]。近年來LSTM-RNN[26]在語音情感識別和其他聲學建模任務中得到了普遍地使用[2,22-23,27-29]。與傳統的隱馬爾可夫模型(HMM)[23]和標準遞歸神經網絡(StandardRNN)等模型相比,LSTM-RNN可以提取較長時間間隔(例如>100個時間步長)的關聯特征而不會遇到梯度消失等問題[25]。
本文所介紹的系統結合了不同的方法。臉部視頻情緒識別基于DCNN特征和圖像集合建模,音頻情緒識別基于LSTM-RNN模型。本文的主要工作有兩方面。第一個方面是DCNN圖像特征的提取采用了基于權值微調的遷移學習方法,基于少量樣本訓練得到的臉部圖像情緒識別DCNN特征的表現超過臉部識別大數據集訓練所得到的DCNN特征[19]。第二個方面是我們所訓練使用的音頻情緒識別LSTM-RNN模型,只使用了少量的訓練樣本(EmotiW2016所提供的773個音頻句子),但是在識別率方面仍然超出基準方法7%。方法的細節將在后面章節中具體介紹。
1.提出的方法
1.1基于面部視頻的情緒識別
本文所提出的面部視頻情緒識別方法由由三個步驟組成。第一步是對視頻每一幀的臉部圖像提取DCNN圖像特征。第二步是基于圖像集建模方法提取動態特征。最后一步是分類。由于基于圖像集的視頻特征通常位于非歐幾里德流形上[13],因此在特征提取后使用核函數將它們映射到歐幾里德空間進行最終分類。在我們所使用的方法中,第二步和第三步直接應用了文獻[8]所提供的開源代碼進行動態特征提取和分類。
1.1.1DeepCNN圖像特征
卷積神經網絡借鑒了動物視覺皮層中神經元的組織結構。網絡結構通過局部連通性(LocalConnectivity)、權值共享(WeightSharing)和池化(Pooling)等技術來達到諸如減少網絡復雜度和特征的平移不變性等效果。DeepCNN一般包含多層卷積層,卷積層的輸出可以作為輸入圖像的特征描述。假設輸入圖像是IW,H,C,其中W表示寬度,H表示高度,C表示通道的數量(一般輸入圖像為RGB通道)。對于I中的一個局部區域Lw,h,C,
(1)
其中Kw,h,C是與L大小相同的核(kernel);*表示卷積運算;b表示偏差變量(bias);σ表示激活函數(activationfunction),在實踐中通常是整流線性單元(RELU);oL表示L區域的特征值。通過將核K與I中的每個局部區域進行卷積計算,我們可以得到特征圖M,然后將其作為圖像特征向量用于進一步處理。
1.1.2臉部視頻的動態特征
給定d維圖像特征f,可將視頻視為一組圖像特征向量F=[f1,f2...fn],其中fiÎRd是視頻第i幀對應的特征向量。三種圖像集合模型被用于從F中提取視頻(圖像集合)特征,它們分別是線性子空間(LinearSubspace)[14],協方差矩陣[13]和多維高斯分布[15]。線性子空間模型所對應的特征向量P通過以下方式計算:
(2)
其中P=[p1,p2...pr],pj(jÎ[1,r])表示主特征向量(eigenvector)。
協方差矩陣C通過以下方式找到:
(3)
其中表示圖像特征的平均值。假設F中的特征向量遵循d維高斯分布N(μ,∑),μ和∑分別表示均值和協方差。高斯分布的特征通過以下方式計算定義:
(4)
(5)
1.1.3核函數和分類器
在核函數方面,我們選擇了多項式(Polynomial)和RBF(Radialbasisfunction)兩種核函數。在分類器方面我們采用了PLS(PartialLeastSquaresRegression)[30]。Liu等人在EmotiW2014數據集上的實驗結果[8]顯示PLS在面部情緒識別方面優于支持向量機(SVM)和LogisticRegression;我們在EmotiW2016的數據集上也觀察到相同的趨勢。給定視頻特征變量X和0-1標簽Y(七種基本情緒識別可以視作七個二分類任務),PLS分類器將它們分解為
其中Ux和Uy是projectedX-scores和Y-scores,Vx和Vy分別表示loadings,rx和ry表示residuals。PLS通過找到在其列向量之間具有最大協方差的Ux和Uy來確定X和Y之間的回歸系數。假設UX和UY是最大協方差投影,則回歸系數β由下式給出:
給定一個視頻特征向量x,它對應的分類預測為.
1.2基于音頻的情緒識別
基于音頻的情緒識別方法首先逐幀提取聲學特征,然后通過訓練LSTM-RNN(LongShort-TermMemoryRecurrentNeuralNetwork)進行時間維度特征的提取和情緒分類。假設一個影片剪輯所對應的音頻特征序列是F=[f1,f2...fn],所對應的情緒分類標簽是c。在訓練LSTM-RNN之前我們逐幀定義情緒標簽C=[c1,c2...cn],其中ci=cforifrom1ton。對應的LSTM所輸出的也是逐幀的預測結果。我們取逐幀預測結果的平均值作為視頻剪輯的情緒識別的最終預測結果。
1.2.1音頻特征
方法采用extendedversionofGenevaMinimalisticAcousticParameterSet(eGeMAPS)[31]音頻特征集來進行情緒識別。eGeMAPS中的音頻特征集基于專家知識設計,與傳統的高維特征集[32]相比eGeMAPS僅有88維特征,但是對語音情感建模問題表現出了的更高的魯棒性[33-34]。eGeMAPS的acousticlow-leveldescriptors(LLD)涵蓋了spectral、cepstral、prosodic以及voicequality等方面的信息。除了LLD之外,eGeMAPS還包含arithmeticmean和coefficientofvariation等統計特征。
1.2.2LSTM-RNN
相比sigmoid和tanh等傳統的激活函數,LSTM-RNN使用一種特殊的激活函數稱為MemoryBlocks。LSTMMemoryBlocks的結構如圖2所示。對于一個網絡層中MemoryBlock而言它在t時刻的輸入是前一網絡層在t時刻的輸出xt,,和當前Block在t-1時刻的輸出ht-1。MemoryBlock的結構由四個主要部分組成。這四個主要部分是:inputgate,memorycell,forgetgate以及outputgate。Memorycell結構具有一個權值為1.0的自連接。Memorycell結構確保在排除外部輸入的情況下,MemoryCell的狀態保持恒定。Inputgate允許(或屏蔽)輸入信號對memorycell的狀態或者進行改變。Outputgate允許(或屏蔽)memorycell的狀態對block的輸出進行改變。Forgetgate可以調整memorycell的自回復連接,使cell根據需要選擇保持或清除其之前的狀態。MemoryBlock的計算過程如下所示:
其中xt和ht-1表示輸入;W,U表示V是權值矩陣;b表示偏差向量,σ表示sigmoid函數;
其中xt和ht-1表示輸入;W,U表示V是權值矩陣;b表示偏差向量,σ表示sigmoid函數;
表示t時刻cell的狀態候選;f,c和o分別表示InputGate,ForgetGate,MemoryCell和OutputGate的輸出。h表示block在t時刻的最終輸出。
1.3系統的融合
基于面部視頻和音頻子系統的預測結果我們進一步進行了融合。融合引入了一個加權向量w=[λ1,λ2…λc]。其中c表示情緒類別的數量。最終預測結果S的計算方法為
其中SAandSV分別表示音頻和視頻子系統的情緒識別預測結果。
2.實驗
2.1EmotiW2016數據
基于視音頻的情緒識別是EmotiW2016所設立的子挑戰之一。數據集的樣本為多媒體視頻片段。樣本所對應的情緒狀態通過[40]中所定義的半自動方法進行標注。基于視音頻的情緒識別的任務是設計算法自動對視頻片段按七種基本情緒狀態(憤怒(Ang)、厭惡(Dis)、恐懼(Fea)、快樂(Hap)、中立(Neu)、悲傷(Sad)、驚喜(Sur))進行分類。EmotiW2016是EmotiW2013-15的延續,主要變化在于除了從電影中提取的視頻片段之外,還將真人秀節目的視頻片段引入到測試集中,以測試在基于電影數據所訓練的情緒識別方法的通用性。子挑戰的數據集包含1739個視頻片段:其中訓練集(Train)的樣本數為773個,驗證集(Validation)的樣本數為373個,測試集(Test)的樣本數為593個。挑戰的最終結果以系統在測試集上的準確率為準。
2.2深度神經網絡的實現
2.2.1CNN圖像特征提取
我們使用Caffe工具包[38],和FER2013數據集對預先訓練的AlexNetDeepCNN模型[39]進行微調。預訓練的AlexNet模型和FER2013數據集都是公開的。在使用FER2013數據集(~28000張臉部圖像)時,我們首先將FER2013默認的48x48x1圖像尺寸縮放至256x256x3以適應AlexNet模型的輸入要求。網絡的訓練采用隨機梯度下降(stochasticgradientdescent)算法。算法的hyper-parameters定義為momentum=0.9,weightdecay=0.0005,initiallearningrate(基準)=0.001。learningratedecay=0.1,decayepochs=10,batchsize=128。由于最后一個FullyConnectedLayer完全重新訓練而不保留AlexNet的權值,因此其initiallearningrate的倍數增加到4,為0.004而不是0.001。訓練終止的策略為EarlyStopping,即驗證集上的識別率不再提高即停止訓練。訓練好的網絡模型的最后一個Poolinglayer的輸出即作為面部情緒識別的圖像特征。
2.2.2音頻特征提取
我們首先使用Matlab工具箱從EmotiW2016影片片段中提取音頻信號,并將信號轉換為16kHz單聲道。然后,我們使用OpenSMILE工具包[35]來逐幀提取eGeMAPS音頻特征。在實驗中音頻幀的長度定義為0.04s。
2.2.3LSTM-RNN的結構
我們評估了六種不同的BLSTM-RNN結構以用于音頻情緒識別。六種LSTM-RNN的結構如表2所示。
實驗中音頻LSTM的實現和訓練使用的是CURRENNT工具包[36]。訓練網絡的learningrate為1e-5,batchsize為10個句子(每個句子對應于從一個影片剪輯中提取的音頻特征序列)。同樣LSTM訓練的終止策略也是earlystopping。基于隨機初始化的網絡權值,我們對六種LSTM結構中的每一種進行10次訓練。LSTM在驗證數據集上的識別率在31-35%之間,其中最好的模型基于結構4。我們將其作為音頻情緒識別的最終模型。
3.系統評估
為了測試評估CNN圖像特征的表現。我們使用三種分類器(PLS,SVM和LogisticRegression)分別在EmotiW2014和2016兩個數據集的驗證集上進行了測試。測試結果如表5和表6所示。
結果表明基于CNN和傳統手工特征PLS均表現出優于SVM和LogisticRegression分類器的分類性能。我們接著評估了不同方法的組合,如表7所示。基于實驗結果,我們在最終系統中選擇了DenseSIFT圖像特征和CNN圖像特征來用于基于人臉視頻的情緒識別。在音頻情緒識別方面我們將LSTM方法與傳統方法(EmotiW2014Baseline)進行了比較,結果如圖4所示。實驗結果表明LSTM方法的準確度比傳統方法的識別準確率高出了8%。
最后一個實驗是視頻和音頻系統的融合。我們測試了三種融合方案:第一種是其中情緒類別的融合均使用相同的權重;第二和第三種是對于每個情緒類別的子系統賦予不同的權重。在驗證數據集上的結果表明基于LSTM的音頻識別方法在進行恐懼和悲傷情緒分類時表現得很好(優于視頻方法),但對厭惡和驚訝兩種情緒的分類效果不佳。實驗結果同時顯示使用不同的權重進行系統融合能更好地結合子系統的相對優勢和弱點,達到比統一權值更好的融合效果。表3列出了實驗所測試的三種融合方案。融合方案3在驗證數據集以及最終測試數據集上取得了最佳結果,在測試集上的識別準確率達到了53.9%。
實驗結果表明:一、本文所提出的方法在識別憤怒和快樂兩種情緒時效果最好,分別獲得了80%和75%的準確率。這兩個識別結果與EmotiW2014和2015年的第一名的方法的表現持平。二、與14和15年的第一名方法相比,基于LSTM的音頻情緒識別方法在恐懼情緒的識別準確率方面取得了10%的提升。三、與2014第一名和2015第一名方法相比,本文的方法對于無情緒(Neutral)狀態的識別上存在著過擬合的問題。具體表現在無情緒狀態的識別在開發數據集上取得了約70%的準確率,與兩種第一名方法持平,但是但在測試數據集上較差,識別準確率下降了約7%。
4.總結
本文提出了一種基于視音頻的自然情景下的情緒識別方法,該方法只利用了少量的樣本數據來訓練深度神經網絡確能夠達到目前最先進的識別準確率。本文提出的方法在EmotiW2016測試集上達到了53.9%的識別準確率,相比比基線的40.47%[41]高出了13.5%。測試結果表明:一、當可用于訓練的臉部視頻情緒識別數據量較少時,基于DCNN權值微調的遷移學習策略是一種有效的方法;二、對于音頻情緒識別,直接使用EmotiW2016所提供的少量的訓練數據和LSTM-RNN模型就可以得到相比傳統方法更好的識別效果。我們今后的工作將分兩個方向進行。首先是通過考察不同的預先訓練的DCNN和不同微調策略來獲取更有效的為臉部情緒識別特征。其次是對基于音頻的情緒識別進行更深入的研究,通過設計更有效LSTM-RNN模型來提高音頻識別效果。
5.參考文獻
Valstar,MichelF.,etal."Fera2015-secondfacialexpressionrecognitionandanalysischallenge."AutomaticFaceandGestureRecognition(FG),201511thIEEEInternationalConferenceandWorkshopson.Vol.6.IEEE,2015.
Valstar,Michel,etal."AVEC2016-Depression,Mood,andEmotionRecognitionWorkshopandChallenge."arXivpreprintarXiv:1605.01600(2016).
Dhall,Abhinav,etal."Videoandimagebasedemotionrecognitionchallengesinthewild:Emotiw2015."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Valstar,MichelF.,etal."Thefirstfacialexpressionrecognitionandanalysischallenge."AutomaticFace&GestureRecognitionandWorkshops(FG2011),2011IEEEInternationalConferenceon.IEEE,2011.
Almaev,TimurR.,andMichelF.Valstar."Localgaborbinarypatternsfromthreeorthogonalplanesforautomaticfacialexpressionrecognition."AffectiveComputingandIntelligentInteraction(ACII),2013HumaineAssociationConferenceon.IEEE,2013.
Pietikainen,Matti,etal.Computervisionusinglocalbinarypatterns.Vol.40.SpringerScience&BusinessMedia,2011.
A.Dhall,A.Asthana,R.Goecke,andT.Gedeon.Emotionrecognitionusingphogandlpqfeatures.InFG.IEEE,2011.
Liu,Mengyi,etal."Combiningmultiplekernelmethodsonriemannianmanifoldforemotionrecognitioninthewild."Proceedingsofthe16thInternationalConferenceonMultimodalInteraction.ACM,2014.
D.G.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints.Internationaljournalofcomputervision,60(2):91{110),2004.
N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection.InCVPR.IEEE,2005.
J.HammandD.D.Lee.Grassmanndiscriminantanalysis:aunifyingviewonsubspace-basedlearning.InICML.ACM,2008.
R.Wang,H.Guo,L.S.Davis,andQ.Dai.Covariancediscriminativelearning:Anaturalandefficientapproachtoimagesetclassfication.InCVPR.IEEE,2012.
R.Vemulapalli,J.K.Pillai,andR.Chellappa.Kernellearningforextrinsicclassficationofmanifoldfeatures.InCVPR.IEEE,2013.
P.Li,Q.Wang,andL.Zhang.Anovelearthmover'sdistancemethodologyforimagematchingwithgaussianmixturemodels.InICCV.IEEE,2013.
Yao,Anbang,etal."Capturingau-awarefacialfeaturesandtheirlatentrelationsforemotionrecognitioninthewild."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Hassner,Tal,etal."Effectivefacefrontalizationinunconstrainedimages."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015.
Zeiler,MatthewD.,etal."Deconvolutionalnetworks."ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010.
Zhang,Xiao,etal."Findingcelebritiesinbillionsofwebimages."IEEETransactionsonMultimedia14.4(2012):995-1007.
Ng,Hong-Wei,etal."Deeplearningforemotionrecognitiononsmalldatasetsusingtransferlearning."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Goodfellow,IanJ.,etal."Challengesinrepresentationlearning:Areportonthreemachinelearningcontests."InternationalConferenceonNeuralInformationProcessing.SpringerBerlinHeidelberg,2013.
EbrahimiKahou,Samira,etal."Recurrentneuralnetworksforemotionrecognitioninvideo."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
He,Lang,etal."Multimodalaffectivedimensionpredictionusingdeepbidirectionallongshort-termmemoryrecurrentneuralnetworks."Proceedingsofthe5thInternationalWorkshoponAudio/VisualEmotionChallenge.ACM,2015.
Anagnostopoulos,Christos-Nikolaos,TheodorosIliou,andIoannisGiannoukos."Featuresandclassifiersforemotionrecognitionfromspeech:asurveyfrom2000to2011."ArtificialIntelligenceReview43.2(2015):155-177.
Connor,JeromeT.,R.DouglasMartin,andLesE.Atlas."Recurrentneuralnetworksandrobusttimeseriesprediction."IEEEtransactionsonneuralnetworks5.2(1994):240-254.
Pascanu,Razvan,TomasMikolov,andYoshuaBengio."Onthedifficultyoftrainingrecurrentneuralnetworks."ICML(3)28(2013):1310-1318.
Hochreiter,Sepp,andJürgenSchmidhuber."Longshort-termmemory."Neuralcomputation9.8(1997):1735-1780.
Senior,Andrew,HasimSak,andIzhakShafran."ContextdependentphonemodelsforLSTMRNNacousticmodelling."2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2015.
Zazo,Ruben,etal."LanguageIdentificationinShortUtterancesUsingLongShort-TermMemory(LSTM)RecurrentNeuralNetworks."PloSone11.1(2016):e0146917.
Khorrami,Pooya,etal."HowDeepNeuralNetworksCanImproveEmotionRecognitiononVideoData."arXivpreprintarXiv:1602.07377(2016).
H.Wold.Partialleastsquares.Encyclopediaofstatisticalsciences,1985.
Eyben,Florian,etal."TheGenevaminimalisticacousticparameterset(GeMAPS)forvoiceresearchandaffectivecomputing."IEEETransactionsonAffectiveComputing7.2(2016):190-202.
A.Dhall,R.Goecke,J.Joshi,K.Sikka,andT.Gedeon.Emotionrecognitioninthewildchallenge2014:Baseline,dataandprotocol.InACMICMI.ACM,2014.
F.Ringeval,S.Amiriparian,F.Eyben,K.Scherer,andB.Schuller.Emotionrecognitioninthewild:Incorporatingvoiceandlipactivityinmultimodaldecision-levelfusion.InProc.ofEmotiW,ICMI,pages473{480,Istanbul,Turkey,November2014.
D.Bone,C.-C.Lee,andS.S.Narayanan.Robustunsupervisedarousalrating:Arule-basedframeworkwithknowledge-inspiredvocalfeatures.IEEETransactionsonAffectiveComputing,5(2):201{213,April-June2014.
F.Eyben,F.Weninger,F.Grob,andB.Schuller.RecentdevelopmentsinopenSMILE,theMunichopen-sourcemultimediafeatureextractor.InProc.ofACMMM,pages835{838,Barcelona,Spain,October2013.
Weninger,Felix,JohannesBergmann,andBjornSchuller."IntroducingCURRENNT–theMunichopen-sourceCUDARecurREntneuralnetworktoolkit."JournalofMachineLearningResearch16.3(2015):547-551.
Kim,Bo-Kyeong,etal."Hierarchicalcommitteeofdeepcnnswithexponentially-weighteddecisionfusionforstaticfacialexpressionrecognition."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.
Jia,Yangqing,etal."Caffe:Convolutionalarchitectureforfastfeatureembedding."Proceedingsofthe22ndACMinternationalconferenceonMultimedia.ACM,2014.
Krizhevsky,Alex,IlyaSutskever,andGeoffreyE.Hinton."Imagenetclassificationwithdeepconvolutionalneuralnetworks."Advancesinneuralinformationprocessingsystems.2012.
AbhinavDhall,RolandGoecke,SimonLucey,andTomGedeon.CollectingLarge,RichlyAnnotatedFacial-ExpressionDatabasesfromMovies.IEEEMultiMedia,19(3):34{41,2012.
AbhinavDhall,RolandGoecke,JyotiJoshi,JesseHoey,andTomGedeon,EmotiW2016:VideoandGroup-levelEmotionRecognitionChallenges,ACMICMI2016.
中傳動網版權與免責聲明:
凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊
- 運動控制
- 伺服系統
- 機器視覺
- 機械傳動
- 編碼器
- 直驅系統
- 工業電源
- 電力電子
- 工業互聯
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯接
- 工業機器人
- 低壓電器
- 機柜