基于粗標簽約束的細粒度分類

文:陸超豪,鄒月嫻(北京大學深圳研究生院 信息工程學院)2019年第一期

    摘要:細粒度分類識別的對象是類別相似度很高的物種。以鳥分類為例,不同的類別不僅在形態上具有極強的相似,在生物分類學上的關系也非常密切,往往有著相同的目、科。目前多數分類方法使用的監督信息是一個個獨立的類別標簽,這種形式的類別標簽不能表達不同類別在生物分類學上的相關性。相反,本文考慮這種相關性,并想使用這一信息來改善細粒度分類性能。為此,本文創新性地提出了一種新的粗標簽表示,和相應的代價函數。粗標簽表示的思想來自多標簽學習中的類別表示,這種粗標簽表示可以很好地表達不同類別在生物分類學上的結構信息,且粗標簽僅僅從類別名稱的后綴名稱中獲得,或者像CIFAR-100數據集預先給出。我們提出一種新的代價函數,進而可以充分利用這種粗標簽監督信息改善細粒度分類。我們的方法可以推廣到任何微調任務;它不會增加原始模型的大小,也不會增加額外的訓練時間。我們進行了大量的實驗,表明使用粗標簽約束可以改進分類準確率。

關鍵詞:圖像識別;細粒度分類;粗標簽約束;

1.引言

    細粒度分類旨在區分非常相似的類別,例如鳥[1,2]、狗[3]和花[4]。這些任務與傳統的圖像分類[5]不同,因為它們需要專家級知識才能找到類別之間的細微差別。細粒度分類在許多領域具有廣泛的應用,如:以圖搜圖、圖像生成和機器教學[6]。

    大部分已有的細粒度分類所使用的監督信息包括類別標簽,預先給定的候選框。我們發現所有的方法都使用一個個獨立的類別標簽作為監督信息,而細粒度分類的類別在生物分類學上存在很強的相關性,現有的類別標簽無法表達這種生物分類學上的相關性。

    目前流行的生物分類學方法,是有層次、有結構的。我們以鳥分類為例,鳥類下面有目、科、屬、種。在細粒度分類中,我們通常是識別“種”,而不是所對應的“科”和“屬”。這帶給我兩個思考:首先,能否利用生物分類學的結構信息來促進細粒度分類;第二、如何實現。

    本文從非常基本的層面回答了上述兩個問題。我們提出了一種新的粗標簽表示;和相應的代價函數來利用這種粗標簽監督信息。我們把常用的類別標簽稱之為細標簽,以表示一個個獨立類別;而粗標簽則是多個獨立類別的共同標簽。粗標簽表示的思路來源于多標簽學習[7,8],這種粗標簽可以表示類別之間的結構關系,包括粗標簽和細標簽之間的父子關系,屬于相同粗標簽的不同細標簽之間的兄弟關系。代價函數利用這一粗標簽監督信息,將細標簽分類的錯誤約束在更小的區間,進而改善分類準確率。通過我們新的粗標簽表示和代價函數,我們可以在現有網絡基礎上實現1-7個百分點的分類性能提升。這種方法不會改變原始模型的大小,也不會增加額外的訓練時間。

本文的主要貢獻可以概括如下:

我們提出了一種新的粗標簽表示,這種表示方法可以表達出不同類別在生物分類學上的相關性。

我們提出了一種新的代價函數,來利用這種粗標簽監督信息。

我們在三個細粒度分類數據庫(CUB[1][1][1][1],StanfordDogs,NABirds),、一個常規圖像分類數據庫(CIFAR-100)上進行了大量實驗,獲得了1-7個百分點的性能提升。

    本文剩下部分的組織如下:第二部分介紹相關工作;第三部分介紹本文提出的方法;第四部分介紹采用的數據庫與網絡架構;第五部分介紹實驗結果與分析;第六部分是總結。

2.相關工作

2.1細粒度分類

    細粒度分類的方法主要依賴于局部部件定位和更有判別力的特征提取器。細粒度分類任務與傳統分類任務之間的最大區別,是細粒度類別之間差異非常細微。以鳥分類為例,不同類別的區別可能是翅膀顏色不同,局部細節的差異成為影響分類的重要因素;因此我們使用圖像的局部信息來幫助分類,例如通過額外處理鳥的頭部和軀干[9-12],以提高整體分類性能;或者基于注意力機制[13,14]提高性能。使用更有判別力的特征提取器對于細粒度分類也是至關重要的。由于卷積神經網絡[15,16]在傳統圖像分類中的成功,使得微調預訓練模型成為一個非常有效的方法。此外,集成學習[17]的方法、新的特征編碼方法[18,19]都在細粒度分類上取得了一定的效果;這些工作在未來都有可能與我們的方法相結合。

2.2遷移學習

    在ImageNet[5]數據集上預訓練的網絡模型已被廣泛用于遷移學習。預訓練的網絡模型可以用作特征提取器,或者與整個網絡進行微調。與傳統的圖像分類相比,細粒度分類數據集要小得多;此外,對于細粒度分類的生物數據收集,一些稀有物種難以拍攝,導致不同類別的圖片數不均勻;這些因素使得從頭開始訓練細粒度分類模型變得非常困難。最近,使用大規模的帶噪網絡數據[20]來微調網絡,或使用大規模細粒度數據集[6,21]來微調小數據集,它們獲得了令人難以置信的實驗結果。

2.3多標簽學習

    在圖像分類中,多標簽學習研究單個圖片同時對應一組標簽,而常規的圖像分類研究單個圖片對應一個標簽。在某種程度上,常規的圖像分類可以被視為多標簽學習的特例。我們的方法和多標簽學習之間存在兩個主要差異。首先,在多標簽學習中,類別向量的每個維度表示該類別是否出現。假設存在N個類別,則多標簽類別的不同組合形式具有2N種可能性。我們使用多標簽類別的表示規則來表示粗標簽,但是粗標簽的數量小于N。其次,在多標簽學習中,網絡的輸出是多標簽向量;我們的方法使用粗標簽作為一種監督信息,最終輸出是單個標簽。

3.方法

    我們創建了一種新的粗標簽表示,可以很好地表示不同類別在生物分類學上的相關性。同時,我們提出了一種新的代價函數,來利用這種粗標簽監督信息,提升網絡的分類性能。

3.1粗標簽表示方法

    粗標簽的概念與細標簽相反。對圖片中的一個實例而言,細標簽代表它所屬的特定類別,粗標簽通常是幾個相關細標簽的共同標簽,我們通常使用額外的標簽來描述實例的粗標簽。這將在存儲上帶來額外的開銷,并且難以使粗標簽和細標簽在訓練期間彼此合并。

    CIFAR-100數據集為我們提供了圖片所屬的類和超類。CIFAR-100有100個類,每個類包含600個圖像。CIFAR-100中的100個類被分為20個超類。每個圖像都帶有一個“細”標簽(它所屬的類)和一個“粗”標簽(它所屬的超類)。例如,一個名為fish的超類有5個子類別:水族館魚,比目魚,射線,鯊魚和鱒魚。在這種情況下,我們使用額外的標簽“fish”來表示粗標簽。表1顯示了CIFAR-100的細標簽和相應粗標簽。

工業自動化

    在多標簽學習中,我們使用類別向量來表示實例。多標簽學習研究單個實例與多個標簽相關聯。假設總共有N個類別,多標簽向量的位置i為1,表示該實例屬于類i。表示實例的N維多標簽向量如下所示:

[0,0,1,0,0…1,0,0,1,0,0]      (1)

    在細粒度分類中,一個實例與單個標簽相關聯,類別向量是one-hot形式。假設總共有N個類別,類別向量的位置i為1,表示該實例屬于類i。表示實例的N維單標簽向量如下所示:

[0,0,0…0,1,0,0,0,0]      (2)

    每個細標簽僅有一個對應的粗標簽,而每個粗標簽至少對應一個細標簽。我們假設總共有N個細標簽。對于某一個粗標簽,我們假設有n個對應的細標簽。這n個細標簽分別是a1,a2…an。我們使用單標簽向量來表示細粒度標簽,而向量的位置i是1,表示它屬于類i。最終的粗標簽是所有相應細標簽的標簽向量的并集。故表示某一實例的N維粗標簽向量如下所示:

[1,1,0,0…0,0,1,0,0]      (3)

該粗標簽對應的所有細標簽如下:

[1,0,0,0…0,0,0,0,0]      (4)

[0,1,0,0…0,0,0,0,0]

[0,0,0,0…0,0,1,0,0]

    在生物分類學中,生物類別的關系通常由父子節點、兄弟節點表示,其需要多層樹結構用于存儲。樹結構可以表示許多關系,但是這種結構的類別信息很難在機器學習中得到有效利用。在機器學習中,所使用的監督信息通常是簡單的類別標簽而不是復雜的數據結構。相反,我們提出的粗標簽表示方法能夠表示類別之間的結構關系。具體而言,我們提出的粗標簽表示包含細標簽之間的結構信息;這里的結構信息不僅包括粗標簽與細標簽之間的父子關系,還包括不同細標簽之間的兄弟關系。

3.2代價函數

    本文提出了一種新的代價函數來利用這種粗標簽監督信息。該代價函數將Sigmoid交叉熵函數與Softmax交叉熵函數結合,可以很好地利用粗標簽來改善細標簽分類。在深度網絡的學習中,代價函數是評估訓練效果的重要指標,網絡參數調整的目標就是使代價函數最小化。在卷積神經網絡的訓練中,常用的代價函數包括Softmax交叉熵函數,Sigmoid交叉熵函數等等。

    我們假設一個神經網絡具有參數θ,輸入圖像為x,正確標簽y,共有N個可能的分類類別。神經網絡對于輸入圖像x產生的條件概率為pθ(x),則我們可以計算正確標簽與條件概率之間的softmax交叉熵:

工業自動化

    Sigmoid交叉熵是離散分類任務中的常用指標,這里每個類是獨立、且不相互排斥的。例如,在多標簽分類任務中,一個圖片可以同時包含房屋和樹。在基于粗標簽約束的細粒度分類中,假設輸入圖片x,使用的是新提出的粗標簽z作為正確標簽,然后我們計算條件概率pθ(x)和z之間的sigmoid交叉熵:

工業自動化

對于一個輸入圖片x,監督信息為細標簽y,粗標簽z;則最終的代價函數為:

工業自動化

    最終的代價函數由兩部分組成,第一部分是Lsoftmax,第二部分是Lsigmoid。顯然,在傳統的圖像分類中,我們通常使用Lsoftmax作為代價函數。所以我們使用細標簽最小化Lsoftmax代價函數,并使用粗標簽最小化Lsigmoid。粗標簽包含屬于相同粗標簽的不同細標簽之間的并行關系;在最小化代價函數的過程中,我們使用Lsigmoid將細標簽的分類錯誤約束在同一個粗標簽下的細標簽中,并使用Lsoftmax使模型學習如何正確分類細標簽。參數a和b是兩個超參數,它們是測量Lsoftmax和Lsigmoid對Lfinal的影響比率;我們通常將a設置為1,改變b的數值。

4.實驗設置

    我們使用開源TensorFlow[22]和Pytorch框架來實現,在多個NVIDIATITANXGPU上訓練所有模型。我們將簡要介紹本文中使用的三個細粒度分類數據集和一個標準圖像分類數據集,我們還將簡要介紹本文中用于微調的神經網絡。

4.1數據集

    本文選取了三個主流的細粒度分類數據庫CUB、NABirds、StanfordDogs;和一個常規的圖像分類數據庫CIFAR-100作為測評標準。

    CUB有5,994個訓練圖片和5,794個測試圖片,共200類。我們只觀察類別名稱的后綴是否相同,然后將它們分成70個超類。因此,對于CUB數據集,共有200個細標簽和70個粗標簽。NABirds數據集包含23,929個訓練圖片和24,633個測試圖片,共555類,我們使用相同的方法將它們分成156個超類。StanfordDogs數據集有12,000個訓練圖片和8,580個測試圖片,共120類,我們使用相同的方法將它們分成72個超類。

    我們還利用標準圖像分類數據集CIFAR-100進行研究。CIFAR-100數據集有100個類,每個類包含600個圖片,分別是500個訓練圖像和100個測試圖像。CIFAR-100中的100個類被分為20個超類。每個圖像都帶有一個“細”標簽(它所屬的類)和一個“粗”標簽(它所屬的超類)。我們使用官方的劃分作為我們的分類標準。上述四個數據集在表2中列出:

工業自動化

4.2網絡框架

    我們為三個細粒度分類數據庫微調三種類型的網絡架構:VGG19[23],Resnet50[15]和Inception-V3[16]。我們為標準圖像分類數據集微調VGG19和WideResidualNetwork[24]。

    VGG.在細粒度分類中,VGG是一個常見的網絡,如使用VGG作為特征提取器的Bilinear-CNN[18]。VGG采用了比AlexNet[25]更深的網絡結構,它在2014年ILSVRC比賽的定位和分類分別獲得第一和第二名。VGG網絡通常具有16-19層,卷積核大小為3x3。本文使用19層VGG網絡。

     ResidualNetwork.殘差網絡可有效緩解梯度消失,并使網絡有更深的結構。在我們的實驗中,我們使用ResNet50作為殘差網絡的代表。

    Inception-V3.Inception模塊最初是在GoogleNet中提出的;之后通過引入BatchNormalization、殘差連接等內容,進行優化。在我們的實驗中,我們使用Inception-V3網絡作為Inception系列的代表

    WideResidualNetwork.由于效果好的殘差網絡通常很深,許多殘差單元只能提供少量有效信息,或者只有少量塊可以提供重要信息。作者認為殘差網絡的效果主要來自殘差單元,而深度增加只是一種輔助。因此他減少了殘差網絡的深度,增加了網絡的寬度;他提出了16層的WideResidualNetwork,并在標準圖像分類數據集上效果與1000層的殘差網絡相當。

5.結果分析

5.1細粒度分類數據集

    我們首先在三個細粒度數據集上開展實驗,我們微調三個在ImageNet數據庫上預訓練的網絡模型。我們的實驗分為兩個步驟,第一步是僅使用細標簽作為監督信息,第二步我們使用粗標簽作為新的監督信息。在第二步中,我們設置代價函數的兩個參數a=1,b=1,其余超參數設置與第一步相同。實驗結果顯示,我們的方法可以提高任何數據集、在任何預訓練網絡上的性能。結果見表3,4和5。

工業自動化

工業自動化

    以CUB數據集為例,如果使用VGG19預訓練模型,使用粗標簽約束后準確率提高了近7個百分點,使用ResNet50或Inception-V3提高了2個百分點。在ImageNet數據庫上,VGG19性能比ResNet50或Inception-V3差一些,這表明VGG的特征提取能力不如ResNet50或Inception-V3,我們通過引入粗標簽監督信息后,大大改善了這一點;通過我們的方法,VGG19可以達到與Resnet50相同的效果。在(7)中,代價函數由a*Lsoftmax和b*Lsigmoid組成,參數a,b影響它們在反向傳播時的速度比。我們通常將a設置為1,然后更改b。如果b大于a,則Sigmoid交叉熵的影響更大。在我們的實驗中,我們發現通常設置b的值大于a,這使得網絡有更好的結果;這將導致最終增加近一個百分點。例如,當我們使用Inception-V3來微調具有粗標簽約束的CUB數據集時,我們設置b=2,最終結果比b=1高0.6%。但是,如何選擇參數a,b的值仍然需要手動調整。為了獲得更好的性能,當我們使用不同的模型微調不同的數據集時,參數值比例并不相同,因此我們在上述實驗中都設置a=1,b=1。

5.2標準圖像分類數據集

    在標準圖像分類數據庫CIFAR-100上,我們使用兩個卷積神經網絡VGG19和WideResidualNetwork評估我們的方法。CIFAR-100有100個細類和20個超類,每個超類包含五個更精細的子類。實驗結果見表6.

工業自動化

    如圖1所示,在引入粗標簽約束機制之后,網絡在測試集的準確率穩定地高于原始WRN,這表明該約束機制確實提高了原始WRN的性能。

自動化

圖1.使用WRN和具有粗標簽約束的WRN,在100個epochs之后測試集精度

    在我們的實驗中,我們為具有粗標簽約束的網絡和原始網絡設置相同的學習率和迭代次數。我們觀察到準確率曲線非常一致。這表明在引入約束機制之后,網絡的收斂趨勢沒有大的變化。此外,在初始訓練階段,具有粗標簽約束的網絡收斂得更快,并且準確度增加得更快。我們可以看到,具有粗標簽約束的網絡可以明顯地加速收斂,并促進整個網絡在正確方向上的收斂。表7是與現有方法進行比較。

自動化

6.總結

    在這項工作中,我們提出了新的粗標簽表示,可以很好地表達類別之間的結構信息。并且我們提出了相應的代價函數,可以利用這種粗標簽監督信息,通過粗標簽約束引導細標簽收斂。我們在三個細粒度分類數據集和一個標準圖像分類數據集中進行了大量實驗,實驗結果表明,該方法可以加速網絡收斂,穩定地提高原始網絡性能。

    使用粗標簽約束易于實現,可以推廣到任何微調任務;它不會增加原始模型的大小,也不會增加額外的訓練時間。因此,我們的方法應該有益于大量的模型。將來,我們計劃將我們的方法與現有方法結合以減少分類錯誤。

自動化

自動化

自動化

 

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期