伴隨著電子信息技術的高速發展以及各類攝像頭的廣泛應用,全球圖像視頻數據爆炸式增長,人類社會正在進入視覺信息的大數據時代。海量的圖像和視頻在方便人們生產與生活的同時,也對智能視覺技術提出了新的挑戰。
目前大多數視覺處理系統可以很好地采集、傳輸和存儲圖像視頻,但是缺乏對其圖像視頻內容高效準確的分析、識別和挖掘方法。首先,圖像視頻內容復雜,包含場景多樣、物體種類繁多,這就要求處理方法對紛繁復雜的多種對象具有魯棒的處理能力;其次,非受控條件下,圖像和視頻的內容受光照、姿態、遮擋等影響變化大,這就要求處理方法對復雜變化具有魯棒性;最后,圖像視頻數據量大,特征維度高,部分應用需實時處理,對海量數據的計算效率有較高的要求。近年來深度學習方法的快速發展,為解決上述問題提供了有效的途徑。
圖1視覺大數據的特點、挑戰與核心問題
深度學習方法的前世今生
深度學習方法(Deeplearning)作為傳統神經網絡的拓展,近年來在語音、圖像、自然語言等的語義認知問題上取得巨大的進展,為解決視覺大數據的表示和理解問題提供了通用的框架。深度學習利用包含多個隱層的深層神經網絡,解決需要高度抽象特征的人工智能任務。深度學習借鑒了人腦的多層(通常認為是8-10層)神經細胞處理結構,多層非線性結構使得深度神經網絡備對抽象語義特征的抽取能力和對復雜任務的建模能力。傳統神經網絡受限于過擬合(overfitting)問題,很難訓練出泛化能力強的多層網絡模型。
深度學習通過組合低層特征形成更加抽象的高層表示屬性類別的特征,以發現數據的分布式特征表示。建立深度學習的一個動機在于模擬人腦的分析處理機制來解釋數據,人腦皮質具有多層的結構,信息在人腦中逐層處理,逐步抽象。深度架構看做一種“因子分解”,即從復雜的數據中抽取出可復用的表達本質特性的特征。深度學習模型由于其多層非線性結構,具有強大的能力,特別適合大數據的學習(圖2)。這是由于傳統淺層模型由于能力有限,在訓練數據量增大到一定程度時其能力往往飽和,無法充分利用大規模訓練數據所包含的有效信息。與此對應,深度學習方法由于其強大的能力,可以較為充分的利用大規模數據,從中提取有效的特征。
圖2深度學習方法與非深度學習方法在訓練數據量增加時的性能對比
深度學習方法在視覺領域的進展
目前,深度學習已經在人工智能的多個應用領域如圖像分類、語音識別、自然語言理解等取得了突破性的進展。深度學習由于其優異的效果,也引起了工業界的廣泛興趣,以谷歌、臉譜、微軟、百度等為代表的互聯網企業已經成為深度學習技術創新的重要力量。在語音領域,深度學習用深信度網絡DBN替換聲學模型中的混合高斯模型(GaussianMixtureModel,GMM),獲得了相對錯誤率顯著的降低(30%左右),并已經成功的應用于微軟、谷歌、訊飛等的語音識別引擎。在機器翻譯領域,神經語言模型較傳統方法取得了更好的效果。2016年,由谷歌DeepMind開發的AlphaGo圍棋程序依靠深度學習和強化學習的強大能力,在圍棋人機大戰中以3:1戰勝了韓國頂級棋手李世乭。
物體分類
在圖像領域,Krizhevsky等利用多層卷積神經網絡,在大規模圖像分類ImageNetLSVRC-2012競賽中(包含1千個類別,120萬圖像)取得了明顯高于傳統方法的結果,將Top5錯誤率由26%大幅降低至15%,該神經網絡有7層,包含約65萬個神經節點和6千萬參數。目前卷積神經網絡已經成為該領域的主流方法。在此基礎上,研究人員提出了VGGNet、GoogLeNet、殘差網絡ResidualNet等更深層的網絡,并提升了深度學習方法在大規模圖像分類領域的性能。深度網絡還能準確檢測出圖像物體的位置,也能預測例如人體部位手、頭、足的位置和姿態。
圖3AlexNet網絡結構
人像分析
在人臉識別方面,深度神經網絡在人臉識別領域公認困難的LFW數據庫上超過了人眼識別的準確度。圖4給出了在人臉識別領域取得優秀性能的DeepID網絡結構,該網絡根據人臉結構的特殊性,提出了使用局部共享卷積,提升了網絡對人臉圖像的分類能力。提出面向跨年齡人臉識別的隱因子卷積神經網絡,該網絡將隱因子學習引入深度網絡,將深度網絡中全連接層特征分解為身份和年齡兩個部分(圖5),為提升深度網絡對年齡變化的魯棒性提供了一條新途徑,實驗表明該網絡在著名的LFW數據庫上取得了99%的正確率,超過了人眼在這一數據庫上的表現97%,并在Morph和CACD這兩個重要的跨年齡數據庫上取得了領先的識別率,分別為88.1%和98.5%,還首次提出面向深度網絡的中心損失函數,增強深度特征學習中的聚類效果,實驗表明該方法可以提升人臉識別深度網絡的性能,在MegaFace百萬級人像比對國際測試的FGNet任務中取得了良好的效果。
圖4DeepID人像分類網絡結構[9]
圖5面向跨年齡人臉識別的隱因子卷積神經網絡
場景識別
場景識別與理解是計算機視覺的一個基本問題。傳統的場景識別方法多依賴于SIFT、HOG、SURF等局部特征。近年來,卷積神經網絡也被用于場景分類。早期的方法發現微調(Finetune)通過大規模物體數據庫Imagenet訓練的網絡,在場景分類中也有較好的效果。但與物體分類相比,場景類別更加抽象同一個場景類別內圖像的內容和布局可能包含復雜的變化。麻省理工學院的AI實驗室推出PLACE大規模場景數據庫,推動深度神經網絡在大規模場景分類的應用,使得研究人員可以直接利用場景數據而無需借助Imagenet訓練場景分類的深度模型。許多在物體分類中表現優異的網絡結構如AlexNet、VGGNet、GoogLeNet、ResidualNet等也在場景分類中取得了良好的效果。研究表明,Dropout和多尺度數據增強等策略有助于深度網絡的訓練,可以緩解網絡過擬合問題;Relaybackpropagation等方法可以提升場景分類深度網絡的性能。與傳統手工設計的特征相比,深度神經網絡學習的場景特征表達能力豐富,語義性更強,因此可以在識別任務中取得更好的效果。
圖6知識引導卷積神經網絡
行為識別
行為識別是計算機視覺領域的重要問題。近年來,研究人員逐步將深度神經網絡引入視頻的分析與理解中,使其成為行為識別研究中的一個新的研究方向。Karpathy等提出一個卷積神經網絡(ConvolutionalNeuralNetwork,CNN),通過不同的時序融合策略,實現對視頻中的行為識別。然而,此模型盡管利用海量數據(sports-1M)進行預訓練,行為識別的精準性仍有待提高。
另一流行的方法是3DCNN,此類方法通過對標準2DCNN在時間軸上的擴展,實現對視頻的時空建模。但是,巨大的訓練復雜度需要海量數據的支撐或3D卷積核的分解。牛津大學提出一個雙流CNN框架以避免3DCNN的訓練問題。通過外形流(Appearancestream)與運動流(MotionStream)CNN的獨立設計,此框架在標準數據庫UCF101與HMDB51中實現了精準的行為識別。然而,運動流CNN的輸入為疊加光流,這使得此框架只能捕捉住短時運動信息,而忽略視頻長時運動信息的理解。為進一步改進此結構的識別精準性,作者團隊提出軌跡池化的深度描述子(Trajectory-pooledDeepDescriptors),該方法為融合深度模型與傳統軌跡特征提供了一種新機制,實驗表明這種深度軌跡特征TDD較傳統手工設計的特征和傳統深度模型具有更強的表示能力和區分性,可明顯提高視頻分類的正確率。人們還開發了視頻關鍵域挖掘的深度模型,以及時間分割神經網絡,以提高此類框架的時空建模能力。另外,還開發了增強運動向量卷積神經網絡EMV-CNN,利用運動向量替代需要大量運算的光流,提速20倍以上。遞歸神經網絡(RecurrentNeuralNetwork,RNN),特別是長短時記憶模型(LongShort-TermMemory,LSTM)在各種序列建模任務中取得的成功,使得基于深度學習的行為識別方法逐步向序列建模方向發展。一種常見的訓練方法是利用雙流CNN提取的特征作為LSTM的輸入進行序列模型的訓練。
圖7軌跡采樣的深度卷積視頻特征
除此之外,深度學習還在圖像恢復和超分辨率、圖像質量評價、語義分割與解析、圖像內容文本生成、醫學圖像分析等許多任務中取得了較傳統方法更好的結果,大大推動了相互領域技術和方法的發展。
發展趨勢
深度學習方法雖然取得了重要的進展,但在計算機視覺的許多應用中仍然面臨巨大的挑戰,這主要體現在以下幾個方面:
首先,目前的深度學習方法往往依賴大規模數據進行訓練。但并非所有的視覺問題都有充足的訓練樣本,如特定人或物體的檢索,罕見物種的識別、醫學圖像中的稀有病例等,訓練數據可能非常稀少或者收集大量樣本的代價會很大。于此相對應,人的視覺系統僅需要少量樣本就可以識別類別,這很多程度是因為人可以復用在其他領域學習所得知識和經驗。近年來小數據樣本(Smalldataset)的學習越來越引起研究人員的關注,如何利用小數據樣本來進行有效的深度學習,是一個有待解決的挑戰性問題。
其次,深度卷積網絡采用誤差反向傳播算法進行參數學習,這就要求訓練數據有明確和豐富的監督信息。但在許多實際問題中,對圖像進行詳細、精確的標定極為耗時(如場景解析中的像素級標簽、視頻中精細的時空標定等);并且,許多訓練數據中監督信息缺失或監督信息包含噪聲(如從互聯網中收集的照片)。如何利用弱監督、噪聲監督、非監督統信息來訓練深度網絡,對利用大量標定不完全的數據具有重要的實際意義。
最后,深度神經網絡往往規模巨大、參數眾多。以AlexNet網絡為例,雖然輸入圖像已經被縮小到224×224,但模型仍包含六千萬的參數。這使得深度神經網絡較難應用于計算和存儲資源受限的場合如移動終端、嵌入式系統等。同時,也使得人們很難把高分辨率的圖像直接作為深度網絡的輸入。如何對復雜深度網絡模型進行壓縮和加速,降低運算和存儲消耗,對解決深度學習方法資源受限的難題具有現實意義。
中傳動網版權與免責聲明:
凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊
- 運動控制
- 伺服系統
- 機器視覺
- 機械傳動
- 編碼器
- 直驅系統
- 工業電源
- 電力電子
- 工業互聯
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯接
- 工業機器人
- 低壓電器
- 機柜