您現在的位置：中國傳動網 > 技術頻道 > 技術百科 > 一種基于強化注意力機制和序列優化的自動化圖像題注方法

一種基于強化注意力機制和序列優化的自動化圖像題注方法

時間：2018-03-07 15:46:33來源：中國傳動網

導語：?圖像題注旨在為輸入圖像自動生成自然語言的描述語句，可用于輔助視覺障礙者感知周圍環境和幫助人們更便捷地處理大量非結構化視覺信息等場景。

圖像題注旨在為輸入圖像自動生成自然語言的描述語句，可用于輔助視覺障礙者感知周圍環境和幫助人們更便捷地處理大量非結構化視覺信息等場景。當前的主流方法主要是基于深度編碼器-解碼器框架作端到端的訓練優化，但由于視覺概念和語義實體之間對應的偏差，導致在題注中對于圖像細粒度語義的識別和理解不足。本文針對此問題，提出了基于檢測特征和蒙特卡羅采樣的注意力機制和基于改進策略梯度的序列優化（Sequence Optimization）方法，并將二者融合成一個用于圖像題注的整體框架。

在我們的方法中，為了更好地提取圖像的強語義特征，首先用Faster R-CNN取代一般的卷積網絡作為編碼器；在此基礎上，基于蒙特卡羅采樣設計一個強化注意力機制（Reinforce Attention），以篩選出當前時刻值得關注的視覺概念，實現更精準的語義引導。在序列優化階段，我們利用折扣因子和詞頻-逆文檔頻率（TF-IDF）因子改進了策略梯度的評估函數，使得生成題注時具有更強語義性的單詞有更大的獎賞值，從而貢獻更多的梯度信息，更好地引導序列優化。我們主要在MS COCO數據集上進行訓練和評測，模型在當前所有權威的度量指標得分上都取得了顯著的提升。以CIDEr指標為例，和當前比較代表性的方法[5]和[7]相比，我們的模型在最終得分上分別提升了8.0%和4.1%。

圖像題注旨在為一幅輸入圖像生成相匹配的自然語言描述，其工作流程如下圖1（a）所示。開放域的圖像題注是一項頗具挑戰的任務，因為它不但需要對圖像中的所有局部和全局實體作實現細粒度語義理解，而且還需要生成這些實體間的屬性和聯系。從學術價值上來看，圖像題注領域的研究極大地激發著關于計算機視覺（CV）和自然語言處理（NLP）兩大領域如何更好地交叉融合；而在現實應用的維度上，圖像題注的進展對于構建一個更好的AI交互系統來說至關重要，尤其是在輔助視覺障礙者更好地感知世界，以及更全面地協助人們更加便捷地組織和理解海量的非結構化視覺信息等方面，有很大的價值。

圖像題注領域的研究進展非常快，近期產生了很多標志性的工作。目前基于深度編碼器-解碼器框架（Encoder-Decoder）的視覺注意力模型（Attention Models），在圖像題注的各個標準數據集上都取得了較好的成績。視覺注意力模型主要用于提取空間顯著區域，以更好地映射到待生成詞匯。基于此衍生了大量的改進工作，最近有部分研究工作致力于將自底向上（Bottom-up）的物體檢測和屬性預測方法（Object Detection&Attribute Prediction）和注意力機制融合到一起，在評價指標得分上取得了不錯的提升。但所有的這些工作，都采用的是Word-Level的訓練和優化方法，這導致了如下兩個問題：第一個是“Exposure Bias”，是指模型在訓練中根據給定的真實（Ground-Truth）單詞去計算下一個單詞的最大似然，而在測試中卻需要根據實際的生成（Generation）來預測下一個單詞；第二個問題是模型在訓練和評估中目標的不一致（Inconsistency），因為在訓練時采用交叉熵損失函數，而在評估模型生成的題注（Generated Captions）時，卻采用的是針對NLP領域專用的一些不可微的度量方法，比如BLEU[11]，ROUGE，METEOR和CIDEr等。

為了解決上述問題，最近的一些工作創新性地引入了基于強化學習的優化方法。借助策略梯度和基準函數（Baseline Function）將原先的單詞級別（Word-Level）的訓練改進成序列化（Sequence-Level）的模式，極大地彌補了原先方案的不足，提升了圖像題注的性能。然而，這些方法也存在一些局限，比如在[5]和[10]中，通過一次序列采樣生成一句完整題注，得到一個獎賞值（Reward），而后默認所有的單詞在梯度優化時共享這一個值。顯然，在多數情況下這樣是不合理的，因為不同的單詞詞性不同、語義有側重、隱含的信息量顯著差異，應該被區分為不同的語言實體（Linguistic Entity），在訓練中對應不同的視覺概念（Visual Concepts）。為了解決這些問題，我們提出了如下的融合強化注意力機制和序列優化的圖像題注方法。

在我們的方法中，首先用Faster R-CNN取代一般的卷積網絡作為編碼器，對輸入圖像抽取基于物體檢測和屬性預測的強語義特征向量（Semantic Features）。之后，我們基于蒙特卡羅采樣設計一個強化注意力機制（Reinforce Attention），以篩選出當前時刻值得關注的視覺概念，實現更精準的語義實體引導。在序列優化（Sequence Optimization）階段，我們采用策略梯度方法計算序列的近似梯度。而在計算每個采樣單詞的獎賞值時，我們利用折扣因子和詞頻-逆文檔頻率（TF-IDF）因子改進了原始的策略梯度函數，使得生成題注時具有更強語義性的單詞有更大的獎賞值，從而為訓練貢獻更多的梯度信息，以更好地引導序列優化。在實驗中，我們在MS COCO數據集上的各項性能指標得分均超過了當前的基線方法，證明了方法設計的有效性。

圖像題注方法

總體上，圖像題注的方法可以被分為兩大類：一類是基于模板的（template-based），另一類是基于神經網絡的（neural network-based）。前者主要通過一個模板來完成題注生成，而這個模板的填充需要基于對象檢測、屬性預測和場景理解的輸出。而本文中提出的方法采用的是跟后者一致的框架，所以下面我們主要介紹基于神經網絡做圖像題注的相關工作。

近些年，加載了視覺注意力機制的深度編碼器-解碼器的一系列工作，在圖像題注任務的各個標準數據集上都取得了非常不錯的結果。此類方法的核心機制在于：融合了視覺注意力機制的卷積網絡和循環網絡，能夠更好地挖掘隱含的上下文視覺信息，并在端到端地訓練充分融合局部和全局的實體信息，從而為題注生成提供更強的泛化能力。之后的很多工作從此出發：一方面是繼續強化和改善注意力機制的功效，提出了一些新的計算模塊或網絡架構；另一方面，部分工作致力于將基于檢測框架的特征提取和表征方法與注意力機制融合到一起，以獲得更好地實體捕捉能力。

但是目前基于視覺注意力的方法使用交叉熵的純單詞級別（Word-Level）訓練模式存在兩個顯著的缺陷：Exposure Bias和Inconsistency。為了更好地解決這兩個問題，基于強化學習的優化方法被引入圖像題注任務中。其中尤為代表性的工作是[10]，他們將問題重新建模為一個策略梯度優化問題，并采用REINFORCE算法進行優化；為了減小方差、提升訓練穩定性，[10]提出了一個混合增量式的訓練方法。隨后[5][15]等工作基于此做了不同的改進，他們主要是提出了更好的基準函數（Baseline Function），以更大限度地、更高效地提升序列優化的效果。但是當前的這些方法存在的一個顯著的局限性是：在對序列梯度進行采樣逼近時，默認一句話中的所有單詞享有共同的獎賞值。而這顯然是不合理的。為了彌補這個缺陷，我們引入了兩種優化策略：第一，從強化學習中評估函數的計算出發，引入折扣因子，更精準地計算每一個單詞采樣回傳的梯度值；第二，是從直接度量驅動（Metric-Driven）的初衷出發，將TF-IDF因子引入了獎賞計算中，以更好地發揮強語言實體對于序列整體優化的驅動作用。

方法

我們的模型整體工作框架如圖1所示，其中（a）是一個從輸入到輸出的前向計算流程，（b）為基于強化學習的序列優化過程。下面我們將從語義特征提取，題注生成器和序列優化三個方面，依次遞進地介紹我們的方法細節。

圖1（a）模型前向計算流程

圖1（b）基于強化學習的序列優化過程

對于輸入圖像，與常用做法不同的是，我們并非提取卷積特征向量，而是基于物體檢測和屬性預測提取圖像的語義特征向量，使得在訓練過程中可以更好地與真實題注語句中的語言實體相匹配。在本文中，我們用 Faster R-CNN 作為圖像題注模型中的視覺編碼器。給定輸入圖片，需要輸出的語義特征記為：。我們對 FasterR-CNN 最后的輸出做一個非極大值抑制（Non-maximumSuppression），對于每一個選中的候選區域 i，定義為該區域的池化后的卷積特征。這里我們首先用在 ImageNet 上預訓練過的 ResNet-101 對編碼器進行初始化，隨后將其放到Visual Genome 數據集上加訓。Visual Genome 數據集是一個用來做屬性預測的數據集，通過這一輪加訓，我們將池化卷積特征和屬性預測的輸出向量進行串聯（concatenation）運算，從而得到最終的語義特征向量。