基于非對稱均方誤差的人體姿態估計方法

文:黃玉程(深圳大學) 孟凡陽(深圳信息職業技術學院信息技術研究所)2019年第二期

摘要:在用于人體姿態估計的深度神經網絡中,損失函數通常使用均方誤差(MeanSquearError,MSE)。MSE雖然計算簡單,但無法確保與預測結果一致性,即神經網絡輸出的預測熱圖不同,計算得到的MSE相同。針對該問題,本文基于MSE提出非對稱均方誤差(AsymmetricMeanSquareError,AMSE)損失函數,對預測熱圖添加懲罰項,對較大的預測輸出值進行懲罰,保證MSE與預測結果的一致性。在COCOval2017數據集上的實驗結果表明,本文提出的AMSE預測效果優于MSE。

關鍵詞:人體姿態估計;均方誤差;非對稱均方誤差

1.引言

多人人體姿態估計作為眾多計算機視覺應用,例如行為識別、人機交互的基本挑戰之一[1-3],其主要目的是為了識別和定位圖片中不同人體的關鍵點。

自從Toshev等人將深度學習應用在人體姿態估計任務之后[4],人體姿態估計方法開始逐步由傳統方法向深度學習方向轉變[5-8],Toshev等人通過神經網絡直接回歸出人體關鍵點坐標,Tompson等人使用多分辨率圖片作為輸入,提取圖片多尺度特征,并用于人體關鍵點熱圖預測[9]。當前人體姿態估計框架分為兩大類,第一種為基于兩階段的方法[10-12],首先將圖片中每人的框架的找出,再對各框架中的人體進行關鍵點定位,第二種為基于各關鍵點的方法[13-15],首先將圖片中所有的關鍵點定位,再對定位后的關鍵點進行組合得到多人關鍵點。通常基于兩階段的方法效果更好,因為該方法能更好的利用圖片的全局語義信息。

當前最好的人體姿態估計方法都致力于新型網絡模型的研究,例如CPN和SBN,

CPN通過將多層級特征整合為金字塔網絡的形式解決困難關鍵點的檢測問題,SBN提供簡單高效的人體姿態估計方法,只對ResNet的最后一層添加反卷積層便取得了較好的結果[16]。這些方法均使用熱圖的方法進行預測,并通過MSE計算預測熱圖與標注熱圖之間的損失函數值,但使用MSE作為損失函數存在先天的不足,首先,不同預測熱圖與標注熱圖間的MSE值與mAP度量存在不一致問題,這意味著具有相同MSE的兩張預測熱圖會產生不同的錯誤率,我們稱之為不一致問題。為了解決以上問題,本文提出非對稱均方誤差(AMSE),通過指引模型選擇更好的輸出來保持一致性。實驗表明,在只增加少許計算量的情況下,使用AMSE訓練的模型效果明顯優于MSE訓練的模型。

綜上,本文的主要貢獻有以下幾點:

分析在人體姿態估計任務中,使用預測熱圖和標注熱圖計算MSE值所產生的不一致問題。

提出非對稱均方誤差(AMSE)作為改進損失函數,解決不一致問題。

2.非對稱均方誤差

2.1均方誤差

基于熱圖表示的人體姿態估計方法,以20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2063.png 大小的彩圖作為輸入,輸出為一組表示人體部位定位的2D熱圖,如圖1所示:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2126.png 

圖12D熱圖

其中S=(S1,S2,???SJ)表示J張熱圖,每張圖代表一個關鍵點,Sj?RW′H熱圖間的MSE值計算公式定義為:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2235.png(1)

其中M=J′W′H,Gj?RW′H示第j關鍵點的標注熱圖,熱圖是在關鍵點位置施加高斯斑所產生的圖片。對于第j個預測關鍵點的熱圖Sj,最終的關鍵點坐標Kj由熱圖中最大值20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2327.png 的位置確定:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2356.png  (2)

目前最好的人體姿態估計方法均采用MSE作為損失函數[17],但是MSE卻無法確保預測結果的一致性,在模型預測熱圖具有相同的MSE值的情況下,會出現不同的預測結果,該問題稱之為不一致問題。

2.2問題分析

對于給定標注熱圖G0和MSE值20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2484.png ,存在多個預測熱圖S*滿足以下公式:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2525.png  (3)

不同的熱圖S*預測結果不同,卻得到了相同的MSE值。為了簡化這一問題,假設S*滿足以下條件:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2601.png  (4)

如公式(4)所示,對預測熱圖上的每個點而言,只存在兩種情況,比目標值大20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2644.png或小20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2647.png。以一維熱圖為例,假設標注熱圖為[0.5,1,0.5]T,則存在8種滿足公式(4)的預測熱圖存在,如圖2所示,其中黑體字表示比相應位置的目標值大0.5,非黑體字表示比相應位置的目標值小0.5。

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉2745.png 

圖2具有相同MSE的預測熱圖

由圖2可知,在相同MSE值的情況下,(a)-(e)和(f)-(h)的預測熱圖經過公式(2)的求最值操作后,將產生一個像素位置的誤差導致最終結果不同,這便是MSE的不一致問題。實際上,不一致問題主要由公式(2)的操作產生,因為該操作對預測熱圖的絕對值不敏感,而預測熱圖內各值的相對順序卻對預測一致性十分重要,只有當預測熱圖內各值的相對順序和標注熱圖相同,才能通過公式(2)得到一致的結果。使用MSE的目的是為了縮小預測和目標間的絕對差值,由此導致的與公式(2)的不匹配現象,產生了不一致問題。

針對該問題,圖像處理領域提出了結構相似性指標SSIM[18],在MSE相同的情況下,通過提高圖片的結構相似性使人眼視覺效果得到改善。在人體姿態估計任務中,標注熱圖由關鍵點部位施加的高斯斑產生,每張64′64大小的標注熱圖僅在高斯斑的生成部分有值存在,所以,標注熱圖不僅缺少豐富的邊緣紋理信息,還非常的稀疏,使用SSIM并不合適,若增大高斯斑的范圍使紋理更明顯則又會導致關鍵點的定位不準確。

因此MSE仍為當前最廣泛使用的損失函數之一,針對存在的問題,本文提出了非對稱均方誤差(AMSE)進行改善。

2.3非對稱均方誤差

因為圖2內各熱圖MSE值相同,所以MSE無法區分各熱圖的不同,但是各預測熱圖卻會有不同的預測結果。由圖2(a),圖2(b)可知,當預測熱圖各值均大于或小于標注熱圖的值時,預測效果最好,因此,迫使模型輸出類似于圖2(a),圖2(b)的值,可能使模型的效果得到提升。通過將模型輸出值的平方加在原始MSE損失函數上,能引導模型輸出類似于圖2(b)的更小的預測值,公式定義如下:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉3514.png  (5)

式中M=J′W′H,Gj?RW′H,Sj?RW′H,Gj和Sj分別表示第j個關鍵點的標注熱圖和預測熱圖。當20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉3575.png=0.01時,該損失函數稱為正則化均方誤差(RMSE),RMSE通過對預測熱圖添加L2懲罰的方式,對預測熱圖中較大的值進行懲罰。但是由于平方項的存在,即使預測值與目標值相同,也無法使損失函數等于0,并始終對預測值進行懲罰。RMSE在目標值為1,0.5,0.25的曲線圖如圖3所示,圖中RMSE的取得最小值的點并不等于目標值,這會導致較差的預測結果,然而,RMSE通過對較大預測值增加懲罰項的方法的確使模型偏向輸出較小的值,這對預測表現是有利的。

 20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉3799.png

圖3RMSE預測曲線圖

如果損失函數不僅能在到達目標值時降至最小,還能對較大的預測值施加更多的懲罰,那么該損失函數就能更好的引導模型偏向輸出較小的值并避免了RMSE的缺陷。出于此目的,我們提出非對稱性均方誤差(AMSE),其定義如下:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉3978.png  (6)

式中Wj是由模型生成的常數項矩陣并當做常數進行反向傳播,使用Wj的目的是為了使AMSE在等于目標值時最小。當Wj等于20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉4044.png時,公式(6)為以下形式:

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉4080.png  (7)

雖然公式(7)和MSE相同,在預測值等于目標值時達到最小,但是它卻能對較大預測的輸出值進行懲罰,因此Wj等于20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉4142.png 是一個可行的選項,AMSE在目標值為1,0.5,0.25的曲線圖如圖4所示。

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉4182.png 

圖4AMSE預測曲線圖

由圖4可知,AMSE預測曲具有線非對稱性,并在預測值等于目標值時取最小值。實驗表明,Wj并不需要等于20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉4280.png ,不同形式的Wj也同樣有效。

3.實驗與分析

3.1實驗數據與模型

本實驗將在COCO關鍵點挑戰數據集上進行[19],對不受控環境下的多人人體關鍵點坐標進行預測,該數據集有超過20萬張圖片和25萬個標注人體實例,其中有15萬的實例已公開可作為驗證集和訓練集。與文獻[10]相同,實驗只通過COCOtrain2017數據集進行訓練并不使用額外數據,測試實驗將在val2017數據集上進行。實驗完成后,通過目標關鍵點相似度(OKS)進行度量,與目標檢測指標IoU的作用相似,通過人體尺度標準化后的預測點和目標點的距離,將用于計算OKS。

雖然當前神經網絡的結構和實驗的復雜性不斷增加,但SBN作為當前最好的人體姿態估計方法之一卻簡單有效,因此擬采用SBN作為實驗基準進行AMSE效果驗證。ResNet作為圖片特征提取的常用骨干網絡之一,SBN只需在ResNet的最后一層添加若干反卷積層。與SBN相同,我們將在ResNet最后一層添加三層反卷積層并使用批歸一化和ReLU激活函數,反卷積層有256個4′4濾波器并將步幅設為2,最后通過1′1卷積調整輸出通道,即可得到預測熱圖,標注熱圖由添加在關鍵點位置的2D高斯斑產生。

3.2模型訓練與測試

實驗骨干模型ResNet的初始化由ImageNet分類任務上

的預訓練完成,訓練時,標注人體邊框將被鎖定至一定比例,通過改變邊框長度將比例固定為4比3,最后從圖片中裁剪下固定比例的標注邊框并縮放至和SBN實驗相同的256′192分辨率以進行對比。實驗數據增強包括圖片翻轉、30%的圖片尺度變換和40°的圖片旋轉,模型訓練使用4塊GPU并訓練140代,訓練學習率設為0.001并在90代和120代降低至0.0001和0.00001,批訓練大小設為128,優化器為Adam[20],ResNet-50和ResNet-101的模型實驗均由Pytorch完成,除特別聲明,使用ResNet-50為默認骨干模型。

與文獻[10,11]相似,實驗采用兩階段式并使用預訓練mask-RCNN做第一階段的單人人體框架檢測[21],檢測器在COCOval2017上的準確率為56.4mAP。與常規方法相同[22],對原始和翻轉圖像的預測熱圖求平均后,即可用于關鍵點位置的預測,通過對最高響應到次高響應的方向上施加四分之一的偏移量,即可得到最終的關鍵點位置。

3.3實驗結果與分析

不同超參數的實驗結果如表1所示,當β=0,AMSE退化成MSE,該結果可作為比較的基準結果。當β=0.01時,實驗結果高于基準結果0.6個點達到73.0AP。實驗同時表明,AMSE對超參數β的選值并不敏感,當取值范圍為0.01到0.1之間時,都可取得較好的結果,如未特別聲明,設β=0.01為實驗默認值。

AMSE和MSE在不同骨干網絡下的比較如表2所示,gt-box表示是否使用標注框架,AMSE在不同骨干網絡下,不論是否使用標注框架,均能取得優于MSE的測試結果,此外,若測試時使用標注框架,AMSE在使用ResNet-101作為骨干網絡的情況下可使實驗結果提升更多。結果表明,AMSE能更有效的激發模型的性能。相較于MSE,當骨干網絡為ResNet-50時,在使用標注框架和不使用標注框架的情況下,AMSE分別能使實驗結果提升0.6和0.2個點,該結果表明,在提供準確的標注框架的情況下測試AMSE,能使實驗效果提升更多。

表3分別將本方法和Hourglass、CPN、SBN進行對比。SBN的人體框架檢測器AP為56.4與本方法相同,CPN和Hourglass的人體框架檢測器AP為55.3,OHKM表示是否使用難例挖掘[23]。本實驗的SBN效果與公開代碼效果一致,因此可直接與SBN論文中列出的結果相比較。表3可知,雖然SBN實驗結果優于Hourglass和CPN,但是AMSE仍然能使最終結果提高0.2和0.4個點,而使用AMSE作為損失函數的代價僅為訓練時增加的少許計算量。AMSE在當前最好的輕量級方法SBN上取得了較好的效果,該方法也應適用于其他效果一般的人體姿態估計方法,預測圖示例如圖5所示。

20190424 基于非對稱均方誤差的人體姿態估計方法 柳偉6021.png 

圖5預測熱圖示例

表1不同超參數的實驗結果

0.1.jpg 

表2不同骨干下的實驗結果

0.2.jpg 

表3不同模型下的實驗結果

 0.3.jpg

4.結論

本論文介紹了人體姿態估計任務中,在計算預測熱圖與標注熱圖間的MSE值時所存在的不一致問題,并針對該問題進行了詳細的分析。為了解決該問題,本文提出了一種新型有效的非對稱均方誤差(AMSE)損失函數,在MSE的基礎上對預測熱圖添加懲罰項,進而解決了該問題。在COCOval2017數據集的實驗結果表明,使用標注框架數據進行模型測試能使AMSM的最終效果提高0.5個點左右。雖然本方法提出于人體姿態估計任務當中,但是也應同樣適用于任何使用MSE作為損失函數且對相對值的順序敏感的任務當中。

參考文獻(References):

0.4.jpg

0.5.jpg



中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

伺服與運動控制

關注伺服與運動控制公眾號獲取更多資訊

直驅與傳動

關注直驅與傳動公眾號獲取更多資訊

中國傳動網

關注中國傳動網公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2025年 第1期

    2025年 第1期

    伺服與運動控制

    2025年 第1期

  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期