時間:2018-07-11 16:33:18來源:網絡轉載
或許你還記得南大LAMDA教授周志華和學生馮霽在今年早些時候發表的“深度森林”論文,他們認為基于決策樹集成的方法同樣可以構建深度學習模型,并提出深度森林gcForst,對神經網絡以外的深度模型進行了探索。現在,在深度森林的基礎上,他們又提出了基于決策樹集成方法的自編碼器(auto-encoder)eForest。實驗結果表明,eForest在速度和精度等方面均優于基于DNN的自編碼器。
自編碼是一項重要的任務,通常由卷積神經網絡(CNN)等深度神經網絡(DNN)實現。本文中,我們提出了EncoderForest(簡寫為eForest),這是第一個基于樹集成的自編碼器。我們提出了一種方法,讓森林能夠利用樹的決策路徑所定義的等效類來進行后向重建,并在監督和無監督環境中展示了其使用情況。實驗結果表明,與DNN自編碼器相比,eForest能夠以較快的訓練速度獲得更低的重建誤差,同時模型本身具有可重用性和容損性。
如果上面這段話看上去似曾相識,比如關鍵詞“基于樹的”、“eForest”,還有“相比DNN,基于樹的方法更加……”的表述,你沒有弄錯,南大LAMDA教授周志華和他的學生馮霽又出手了。
今年早些時候,他們兩人的論文《深度森林:探索深度神經網絡以外的方法》,在業界引發了不小的反響。在那篇論文中,周志華和馮霽提出了一種基于樹的方法gcForest——“multi-GrainedCascadeforest”,多粒度級聯森林——通過一種全新的決策樹集成方法,使用級聯結構,讓gcForest做表征學習。實驗中,gcForest使用相同的參數設置,在不同的域中都獲得了優異的性能,在大型和小型數據集上表現都很好。此外,由于是基于樹的結構,gcForest相比神經網絡也更容易分析。
在gcForest論文中,作者寫道:“我們認為,要解決復雜的問題,學習模型也需要往深了去。然而,當前的深度模型全部都是神經網絡。這篇論文展示了如何構建深度森林(deepforest),為在許多任務中使用深度神經網絡以外的方法打開了一扇門?!?/p>
現在,他們在gcForest的基礎上,繼續探索DNN以外的方法,這次瞄準的是自編碼器。
繼續探索神經網絡以外的方法,這次瞄準自編碼器
在最新論文《用決策樹做自編碼器》(AutoEncoderbyForest)中,周志華和馮霽提出了EncoderForest,也即“eForest”,讓一個決策樹集成在監督和無監督的環境中執行前向和后向編碼運算,實驗結果表明,eForest方法具有以下優點:
準確:實驗重建誤差低于基于MLP或CNN的自編碼器
高效:在單個KNL(多核CPU)上的訓練eForest的速度,比在Titan-XGPU上訓練CNN自編碼器速度更快
容損:訓練好的模型在部分受損的情況下仍然運行良好
可復用:在一個數據集上訓練好的模型能夠直接應用于同領域另外一個數據集
下面是小編對最新論文的編譯介紹,要查看完整的論文,請參見文末地址。
首個基于樹集成的自編碼器模型eForest
這一次,我們先從結論看起,再回過頭看eForest模型的提出和實驗結果。在結論部分,作者寫道,
在本文中,我們提出了首個基于樹集成的自編碼器模型EncoderForest(縮寫eForest),我們設計了一種有效的方法,使森林能夠利用由樹的決策路徑所定義的最大相容規則(MCR)來重構原始模式。實驗證明,eForest在精度和速度方面表現良好,而且具有容損和模型可復用的能力。尤其是在文本數據上,僅使用10%的輸入比特,模型仍然能夠以很高的精度重建原始數據。
eForest的另一個優點在于,它可以直接用于符號屬性或混合屬性的數據,不會將符號屬性轉換為數字屬性,在轉換過程通常會丟失信息或引入額外偏差的情況下,這一點就顯得尤為重要。
需要注意,監督eForest和無監督的eForest實際上是由多粒度級聯森林gcForst構建的深度森林在每一級同時使用的兩個成分。因此,這項工作也可能加深對gcForst的理解。構建深度eForest模型也是未來值得研究的有趣問題。
方法提出:一種可能是最簡單的森林后向重建策略
自編碼器有兩大基本功能:編碼和解碼。編碼對于森林來說很容易,因為單是葉節點信息就可以被視為一種編碼方式,而節點的子集甚至分支路徑都可能為編碼提供更多信息。
編碼過程
首先,我們提出EncoderForest的編碼過程。給定一個含有T顆樹的訓練好的樹集成模型,前向編碼過程接收輸入數據后,將該數據發送到集成中的樹的每個根節點,當數據遍歷所有樹的葉節點后,該過程將返回一個T維向量,其中每個元素t是樹t中葉節點的整數索引。
Algorithm1展示了一種更具體的前向編碼算法。注意該編碼過程與如何分割樹節點的特定學習規則是彼此獨立的。例如,可以在隨機森林的監督環境中學習決策規則,也可以在無監督的環境(例如完全隨機樹)中學習。
解碼過程
至于解碼過程,則不那么明顯。事實上,森林通常用于從每棵樹根到葉子的前向預測,如何進行向后重建,也即從葉子獲得的信息中推演原始樣本的過程并不清晰。
在這里,我們提出了一種有效并且簡單(很可能是最簡單的)策略,用于森林的后向重建。首先,每個葉節點實際上對應于來自根的一條路徑,我們可以基于葉節點確定這個路徑,例如下圖中紅色高亮的路徑。
其次,每條路徑對應一個符號規則,上圖中高亮的路徑可以對應以下規則集,其中RULEi對應森林中第i顆樹的路徑,符號“:”表示否定判斷:
然后,我們可以推導出最大相容規則(MCR)。從上面的規則集中可以得到這樣的MCR:
這個MCR的每個組成部分覆蓋范圍都不能擴大,否則就會與其他條件沖突。因此,原始樣本不得超出MCR定義的輸入區域。Algorithm2對這一規則給出了更詳細的描述。
獲得了MCR后,就可以對原始樣本進行重建。具體說,給定一個訓練好的含有T棵樹的森林,以及一個有中前向編碼的特定數據,后向解碼將首先通過中的每個元素定位單個葉節點,然后根據對應的決策路徑獲得相應的T個決策規則。通過計算MCR,我們可以將返回給輸入區域中的。Algorithm3給出了具體的算法。
通過前向編碼和后向編碼運算,eForest就能實現自編碼任務。
此外,eForest模型還可能給出一些關于決策樹集成模型表征學習能力的理論洞察,有助于設計新的深度森林模型。
實驗結果
作者在監督和無監督條件下評估了eForest的性能。其中,下標500和1000分別表示含有500顆和1000顆樹的森林,上標s和u分別表示監督和無監督。在這里eForestN將輸入實例重新表示為N維向量。
相比基于DNN的自編碼器,eForest在圖像重建、計算效率、模型可復用以及容損性實驗中表現都更好,而且無監督eForest表現有時候比監督eForest更好。此外,eForest還能用于文本類型數據。
圖像重建
文本重建
由于基于CNN和MLP的自編碼器無法用于文本類型數據,這里只比較了eForest的性能。也展示了eForest可以用于文本數據。
計算效率
容損性
模型可復用
論文地址:https://arxiv.org/pdf/1709.09018.pdf
標簽:
上一篇:工業以太網三部曲
中國傳動網版權與免責聲明:凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
產品新聞
更多>2025-06-16
2025-06-09
2025-06-06
2025-05-19
2025-04-30
2025-04-11