您現在的位置：中國傳動網 > 技術頻道 > 技術百科 > 首個基于森林的自編碼器，性能優于DNN

首個基于森林的自編碼器，性能優于DNN

時間：2018-07-11 16:33:18來源：網絡轉載

導語：?現在，在深度森林的基礎上，他們又提出了基于決策樹集成方法的自編碼器（auto-encoder)eForest。實驗結果表明，eForest在速度和精度等方面均優于基于DNN的自編碼器。

或許你還記得南大LAMDA教授周志華和學生馮霽在今年早些時候發表的“深度森林”論文，他們認為基于決策樹集成的方法同樣可以構建深度學習模型，并提出深度森林gcForst，對神經網絡以外的深度模型進行了探索。現在，在深度森林的基礎上，他們又提出了基于決策樹集成方法的自編碼器（auto-encoder)eForest。實驗結果表明，eForest在速度和精度等方面均優于基于DNN的自編碼器。

自編碼是一項重要的任務，通常由卷積神經網絡（CNN）等深度神經網絡（DNN）實現。本文中，我們提出了EncoderForest（簡寫為eForest），這是第一個基于樹集成的自編碼器。我們提出了一種方法，讓森林能夠利用樹的決策路徑所定義的等效類來進行后向重建，并在監督和無監督環境中展示了其使用情況。實驗結果表明，與DNN自編碼器相比，eForest能夠以較快的訓練速度獲得更低的重建誤差，同時模型本身具有可重用性和容損性。

如果上面這段話看上去似曾相識，比如關鍵詞“基于樹的”、“eForest”，還有“相比DNN，基于樹的方法更加……”的表述，你沒有弄錯，南大LAMDA教授周志華和他的學生馮霽又出手了。

今年早些時候，他們兩人的論文《深度森林：探索深度神經網絡以外的方法》，在業界引發了不小的反響。在那篇論文中，周志華和馮霽提出了一種基于樹的方法gcForest——“multi-GrainedCascadeforest”，多粒度級聯森林——通過一種全新的決策樹集成方法，使用級聯結構，讓gcForest做表征學習。實驗中，gcForest使用相同的參數設置，在不同的域中都獲得了優異的性能，在大型和小型數據集上表現都很好。此外，由于是基于樹的結構，gcForest相比神經網絡也更容易分析。

在gcForest論文中，作者寫道：“我們認為，要解決復雜的問題，學習模型也需要往深了去。然而，當前的深度模型全部都是神經網絡。這篇論文展示了如何構建深度森林（deepforest），為在許多任務中使用深度神經網絡以外的方法打開了一扇門?！?/p>

現在，他們在gcForest的基礎上，繼續探索DNN以外的方法，這次瞄準的是自編碼器。

繼續探索神經網絡以外的方法，這次瞄準自編碼器

在最新論文《用決策樹做自編碼器》（AutoEncoderbyForest）中，周志華和馮霽提出了EncoderForest，也即“eForest”，讓一個決策樹集成在監督和無監督的環境中執行前向和后向編碼運算，實驗結果表明，eForest方法具有以下優點：

準確：實驗重建誤差低于基于MLP或CNN的自編碼器

高效：在單個KNL（多核CPU）上的訓練eForest的速度，比在Titan-XGPU上訓練CNN自編碼器速度更快

容損：訓練好的模型在部分受損的情況下仍然運行良好

可復用：在一個數據集上訓練好的模型能夠直接應用于同領域另外一個數據集

下面是小編對最新論文的編譯介紹，要查看完整的論文，請參見文末地址。

首個基于樹集成的自編碼器模型eForest

這一次，我們先從結論看起，再回過頭看eForest模型的提出和實驗結果。在結論部分，作者寫道，

在本文中，我們提出了首個基于樹集成的自編碼器模型EncoderForest（縮寫eForest），我們設計了一種有效的方法，使森林能夠利用由樹的決策路徑所定義的最大相容規則（MCR）來重構原始模式。實驗證明，eForest在精度和速度方面表現良好，而且具有容損和模型可復用的能力。尤其是在文本數據上，僅使用10％的輸入比特，模型仍然能夠以很高的精度重建原始數據。

eForest的另一個優點在于，它可以直接用于符號屬性或混合屬性的數據，不會將符號屬性轉換為數字屬性，在轉換過程通常會丟失信息或引入額外偏差的情況下，這一點就顯得尤為重要。

需要注意，監督eForest和無監督的eForest實際上是由多粒度級聯森林gcForst構建的深度森林在每一級同時使用的兩個成分。因此，這項工作也可能加深對gcForst的理解。構建深度eForest模型也是未來值得研究的有趣問題。

方法提出：一種可能是最簡單的森林后向重建策略

自編碼器有兩大基本功能：編碼和解碼。編碼對于森林來說很容易，因為單是葉節點信息就可以被視為一種編碼方式，而節點的子集甚至分支路徑都可能為編碼提供更多信息。

編碼過程

首先，我們提出EncoderForest的編碼過程。給定一個含有T顆樹的訓練好的樹集成模型，前向編碼過程接收輸入數據后，將該數據發送到集成中的樹的每個根節點，當數據遍歷所有樹的葉節點后，該過程將返回一個T維向量，其中每個元素t是樹t中葉節點的整數索引。

Algorithm1展示了一種更具體的前向編碼算法。注意該編碼過程與如何分割樹節點的特定學習規則是彼此獨立的。例如，可以在隨機森林的監督環境中學習決策規則，也可以在無監督的環境（例如完全隨機樹）中學習。