一種基于對抗損失的超分辨圖像重構算法
文:北京大學深圳研究生院 深圳信息職業技術學院 深圳大學 孟凡陽 劉偉 楊火祥 梅晨2018年第二期
現有的超分辨應用中,深度學習已成為實現超分辨率重構的一個主流。往往基于深度學習超分辨率生成的圖像給人帶來的主觀感知較差,主要原因是深度學習學習到的更多是圖像的低頻成分,而圖像的特征主要集中在高頻成分,怎樣利用圖像高頻成分的特征是急需解決的問題。
1.引言
作為表達信息的一種載體,圖片在生活中被廣泛使用,特別是超分辨率圖片的表達信息能力較低分辨率圖片的強大很多。隨著圖像技術的發展,人們對超分辨率圖像的需求越來越大,在機器視覺方面,圖像超分辨率重構的應用甚為廣泛。從上個世紀70年代起,從低分辨率圖片生成超分辨率圖片的應用就一直在被研究。隨著深度學習、硬件的飛速發展以及卷積神經網絡技術的實現,在過去10年間從低分辨率圖像重構超分辨率圖像得到了飛速的發展。
超分辨應用主要包括軍事領域、氣象遙感領域和醫學影像處理等等十分需要卻又難以獲取超分辨率圖像的場景。在軍事領域主要運用在高空觀察、夜間觀測以及戰場監控等,在氣象遙感領常常受限于天氣、成像系統,難以獲得超分辨圖像,在醫學影像方面需要大量的高清圖片來了解病人的身體狀況,如各種醫學成像、內窺鏡圖像等都需要運用到超分辨重構。
超分辨率重構的方法主要分為傳統法和基于深度學習的方法,傳統法主要包括插值法、非局部均值算法、凸集投影法以及基于機器學習的重構方法等。隨著Chao等人將深度學習的方法運用到超分辨重構上,提出了超分辨卷積神經網絡(SuperResolutionConvolutionalNeruralNetwork,SRCNN),該方法取得了顯著超越幾乎所有傳統方法的效果,由此深度學習在超分辨重構占領了統治地位。如圖1,同樣圖片通過雙三次插值法和SRCNN法重構的效果完全不同。隨后,Ledig等人又提出了在深度學習中引入GAN模型以提高生成圖片的主觀感知,取得了不錯的效果。但是,其損失函數度量依然是基于MSE,而MSE損失度量并不能有效度量主觀感知能力。本文基于GAN模型的深度學習基礎上對損失函數度量改進使超分辨重構圖像有更好的主觀感知。
圖1超分辨率重構圖片
在單圖象超象素重構(SingleImageSuper-resolutionReconstruction,SISR)研究中,基于深度學習的方法逐漸成為主流,并取得了非常好的效果。在這些算法中,損失函數是最為關鍵和重要的,大部分利用的PSNR或者SSIM等度量方式,雖然這些方式能夠較好地得到結果,但是,由于是像素級的,造成最終得到的圖像雖然在PSNR等指標上較好,但是,其得到的高清重構圖片的主觀感知較差。
針對這一問題,文獻[3]提出SRGAN算法,該算法利用了GAN模型生成圖像的能力,通過引入對抗損失來提高SR圖像的主觀感知質量。在對抗生成階段,利用的是預訓練以后的VGG19網絡提取的特征計算對應的內容和對抗的損失來替代PSNR度量,并取得了很好的主觀感覺質量。
但是,SRGAN在計算對應的損失函數時,利用的是預訓練的VGG19模型,因此,一方面并沒有很好地利用生成網絡的生成能力,因為判決網絡并沒有根據;另一方面,VGG19網絡雖然在目標分類和識別上,提取的特征具有很好的區分性,但是,在超分辨應用中,其對應的區分性并不是很好。
超分辨生成網絡的損失函數一般采用最小均方誤差(MSE)度量,最新研究(文獻[1])表明MSE度量無法有效度量人們的主觀感知,雖然利用MSE度量作為損失度量能夠獲得好高的PSNR以及其他的質量評價指標,但是對人的主觀感知并不是最好的。
針對以上問題,本文提出了一種改進的損失函數度量的對抗網絡的超分辨生成模型,如圖2所示,在SRGAN模型基礎上對損失函數度量進行改進加入對抗網絡,該網絡的目標通過兩個網絡損失度量之間的對抗,保證能夠生成超分辨率圖像的同時也有很好的主觀感知,通過全新的對抗模型,保證生成的圖像盡可能的利用圖像的高頻成分,進而保證最好的生成圖片的所有高、低頻部分,提高圖像的精確度以及主觀感知。
2.基于對抗損失的超分辨生成算法
2.1算法原理
算法原理如圖2所示:
圖2基于對抗損失的超分辨生成算法結構圖
如上圖所示,在原始的超分辨生成網絡的基礎上增加了權重計算網絡,單純的超分辨網絡對原始圖片的低頻部分容易訓練生成,高頻部分難以生成。增加權重計算網絡,讓高頻部分權重變大,平衡圖像中高、低頻成分的生成。
損失函數的選擇對結果具有非常重要的影響,傳統的超分辨生成網絡損失函數度量選擇的是MSE度量;如下:
MSE度量的實質是累加圖像各個像素對應的權重,而在實際的應用中,由于圖片中大部分為平滑區域,這使得訓練學習的過程中,更多會偏向于圖像的平滑區域。
在圖像中,大部分是平滑區域,只有少量是高頻的邊緣區域,但是邊緣區域對人們的主觀感知影響最大,因此,造成MSE算法一方面學習到的大部分屬于對圖像平滑區域的重構,而對于高頻區域的重構沒那么理想。
本文模型提出的雙層網絡,改變了超分辨生成網絡中損失函數的度量,超分辨率生成網絡損失度量函數如下:
公式中TH表示原始圖片對象的像素點,SH表示超分辨生成網絡重構圖片的像素點,這里,可以看出,兩個網絡的權重都與權重計算網絡生成的權重w相關,在前向傳播中,兩個網絡均進行計算,權重計算網絡生成的權重w的維度與超分表生成網絡生成的高清圖片S的維度相同,保證在計算損失函數度量的時候有相同的維度。在反向傳播的過程中,每次只對一個網絡權值更新,在一次前向傳播完成后,交替更新兩個網絡的參數,即在公式中對應lossa反向傳播的時候,wa不更新,lossb反向傳播的時候SH不更新。根據兩個網絡的損失對抗,增加原始圖片難以生成部分的權重。這里起主要作用的是兩個網絡損失度量函數中的wa和wb,更新超分辨網絡的權重,超分辨生成網絡中權重較大的部分會由于權重計算網絡的存在而減小,較小的權重會有所增加,經過權重計算網絡后再次反向傳播,這樣不停的利用兩個網絡的對抗更新超分辨生成網絡的參數,提升圖片較難生成部分的權重。
當誤差損失度量降到所設值或者迭代次數達到后,網絡訓練完成,超分辨生成網絡參數更新完成。測試的過程,只使用超分辨生成網絡生成圖片,計算生成圖片和原始真實圖片的SSIM、PSNR值。
通過以上兩個網絡的參數wa和wb的表達形式可以看出,即使w取最大值1時(歸一化處理),此時的網絡性能和沒有加損失對抗的超分辨生成網絡性能一樣,也就是說本文算法最差也能能達到超分辨生成網絡模型的效果。
3.算法實現步驟:
3.1權重計算網絡
圖3權重計算網絡結構圖
如圖3所示,權重計算網絡主要由三個卷積層和激活函數組成。網絡每經過一個卷積層后跟隨一個激活層,卷積層1卷積核有64個,大小為5x5,卷積層2卷積核128個,大小為3x3,卷積層3卷積核3個,大小3x3,且每層卷積后圖片大小保持不變。激活函數前兩層選用的是LeakyReLU函數,在最后一層卷積后激活函數選用了Tanh函數,網絡采用Adam優化,學習率隨著迭代次數的增加而變小。可以防止較小的梯度變為0。最后網絡輸出為權重w,權重計算網絡主要是通過產生的w對超分辨網絡進行調控,平衡超分辨網絡中的權重。
訓練權重生成網絡時直接使用真實高清圖像,既能夠最大限度的利用好圖片特征,也能幫助網絡更快的收斂,生成w的維度與真實高清圖片維度相同。
3.2超分辨生成網絡
圖4超分辨生成網絡結構圖
如圖4所示,超分辨生成網絡也是由三個卷積層和對應激活函數組成。卷積層1卷積核有192個,卷積核大小5x5,卷積層2卷積核有96個,卷積核大小為3*3,卷積層3卷積核的個數為Dim,卷積核大小為3x3,這里:
其中upscale_factor是生成超分辨圖像放大的倍數,因子3表示訓練圖片通道數為3。同樣激活層的函數與權重計算網絡相同,經過卷幾層和激活層后最后經過一個上采樣處理,生成與原始真實圖片對應的矩陣維度相同的圖片。
超分辨生成網絡的損失函數與權重計算網絡生成的權重w相關,每次更新超分辨生成網絡權重時候,權重計算網絡權重暫時不更新。
網絡中設。超分辨生成網絡的損失函數與權重生成網絡的損失函數訓練速度相當,因此,兩個網絡的學習率變化程度應為相同,以免造成算法難以收斂。
4.實驗結果
本文實驗訓練了1000低分辨率及與之對應的超分辨率圖片,最后得到訓練好的模型,經過測試后表現良好。訓練部分結果如圖4所示,以comic、baboon、lenna、zebra為例,進行全面測試與比較。
權重生成網絡生成權重如圖5,代表該算法生成圖片的高頻信息部分,從圖可以看出,算法充分提取了高頻信息,lenna的高頻區域相對較少,其他三張圖高頻信息都較多,在生成超分辨圖片時,lenna更容易生成,生成圖片與原始圖片的PSNR值高,comic、baboon、zebra為了平衡主觀感知,與原始圖片的PSNR值相對較低。
圖5權重計算網絡生成權重圖
從圖6、圖7的細節圖可以看出,SRGAN算法和本文算法在添加了對抗網絡后,生成圖片的清晰度都有明顯提升,對于高頻部分,如圖7的毛發部分,本文算法顯得更加細膩,相較于SRCNN在圖像高頻部分的生成有了加強,在圖像高頻部分的生成更為出色,主觀感知性能較好。
模型測試結果與SRCNN模型相比情況如表1:
表1算法與SRCNN、SRGAN算法質量分析對比
主要考查了PSNR和SSIM兩個評價指標,從上表和圖可以看出,本文提出的基于對抗損失的超分辨生成算法在超分辨率重構方面與深度學習模型SRCNN大部分性能都有了一定的提高,同時具有很好的主觀感知性能。
5.結論
本文算法最大的改進是增加了對抗網絡,對抗網絡的關鍵在于損失函數的選擇,本算法采用了層數較淺的網絡,針對機器視覺,尤其是嵌入式設備而言,層數較淺的網絡能夠更好的實現。主要是都通過兩個損失函數度量的對抗增加了圖片高頻部分這一重要指標的生成能力,實現較好的主觀感知。本算法采用的權重計算網絡和超分辨生成網絡深度在采用更深的網絡時,相較于其他基于深度學習的深層網絡性能沒有明顯提升,后續工作,可以在選擇損失函數度量方面進行更深的改進,如損失函數權重的進一步優化等。
中傳動網版權與免責聲明:
凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊
- 運動控制
- 伺服系統
- 機器視覺
- 機械傳動
- 編碼器
- 直驅系統
- 工業電源
- 電力電子
- 工業互聯
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯接
- 工業機器人
- 低壓電器
- 機柜