傳動網 > 新聞頻道 > 行業資訊 > 資訊詳情

燒錢爭“最大”AI模型,真的有必要嗎?

時間:2022-03-03

來源:

導語:人類能夠高效使用工具,逐漸變得聰明,很大程度上要歸功于對生的拇指。不過,假如我們在演化過程中額外獲得了第二對對生的手指,使用工具的能力也未必會變得更好——一只手掌上有一個拇指,就已經足夠了,再多也沒用。

  可對神經網絡而言,就是另一回事了。機器學習理論不斷進步,隨之膨脹的,是神經網絡的規模。在研究和實踐中,人工智能專家們發現,大大增加神經網絡的參數量,使其超過數據數量的過程,也就是“過參數化”(overparameterization),能夠提高訓練的效率,加強網絡的泛化能力。

  但是,美國麻省理工學院(MIT)的研究者 Neil Thompson 在一項研究中指出,深度學習神經網絡的發展令人工智能革命成為可能,但其不斷增長的成本值得警惕。當規模的膨脹成為了一股無法阻擋的潮流,同步驟增的金錢成本,能源消耗甚至碳排放,都成為了學界和業界無法忽視的問題。

  作為目前被認為最成功的預訓練語言模型之一,美國人工智能公司 OpenAI 在 2020 年發布的 GPT-3 的參數量達到了 1750 億,是它的前身 GPT-2 的一百多倍。GPT-3 能夠根據簡單的創意寫出完整的小說,把晦澀艱深的法律條文用平易近人的語言闡述,也能回答從柴米油鹽到天文地理的提問,表現遠超此前的任何自然語言處理模型。

  不過,與卓越表現相伴的,是高昂的代價——GPT-3 訓練的硬件和電力成本高達 1200 萬美元(約 7500 萬人民幣)。根據一項 2021 年 4 月發表在預印本文獻庫 arXiv 的研究(未經同行評審),GPT-3 在訓練過程中消耗了 1287 兆瓦時電力,產生了 552 噸的碳排放,相當于一輛汽車 120 年的排放量。

  中國的研發團隊在大規模預訓練的道路上也沒有落后。智源研究院 2020 年發布的悟道 2.0 模型已經擁有 1.75 萬億個參數,相當于 GPT-3 的 10 倍。阿里達摩院 2021 年發布的 M6 模型參數量更是超過了 10 萬億。雖然專門為神經網絡運算研發的芯片,如 GPU(圖形處理單元)和 TPU(張量處理單元)已經大大抵消了算力需求的增長,但神經網絡訓練整體成本的增長仍然愈演愈烈。

  一、高維空間里,過參數化把神經網絡“打磨光滑”

  事實證明,過參數化是有效的,尤其在提高大模型的表現上,是極為成功的。在 12 月 NeurIPS 會議上發布的一項研究中,美國華盛頓微軟研究院(Microsoft Research)的 Sébastien Bubeck 和斯坦福大學(Stanford University)的 Mark Sellke 就為過參數化成功背后的奧秘提供了最為基礎的解釋。他們的研究表明,神經網絡必須比傳統預期大得多,才能在訓練和應用中避免一些非常基本的問題。

  舉例來說,神經網絡常常被用于識別圖像中的對象。圖像是有成千上萬個像素構成的,每個像素都可以用一個或幾個數值來表示。這些自由數值的組合在數學上相當于高維空間中一個點的坐標,而數值的總數也就是這個高維空間的維數。

  數學理論早已表明,要根據 n 個數據點擬合出一條曲線,我們就需要一個同樣包含 n 個參數的函數。在 1980 年代神經網絡首次出現時,人們也認為同樣的規律適用于神經網絡——無論數據的維數是多少,用來擬合 n 個數據點的神經網絡,應該只需要 n 個參數就能完成任務。然而事情并非如此,如今我們搭建的神經網絡中,參數的數量往往遠超訓練樣本的數量。難道數學教科書需要重寫了嗎?

  也不盡然。神經網絡的工作并不只是簡單的擬合幾個數據點。還有一種非常重要的能力,是對神經網絡來說至關重要,卻時常缺失的——魯棒性,也就是神經網絡在面對微小變化時的穩定性。例如,我們可以很容易地教會神經網絡識別長頸鹿的圖片,但假如神經網絡的魯棒性欠佳,它很有在面對與最典型的長頸鹿有細微差別的圖片時識別錯誤,比如把黑白的長頸鹿圖片識別成斑馬,“指鹿為馬”。

  在實踐中,研究者們發現,通過過參數化,神經網絡的魯棒性得到了加強。而這項新的分析提出,擬合相同數據點所得的曲線會隨著使用的參數數量增加而變得平滑,神經網絡也有著相似的效應——神經網絡的魯棒性與簡單曲線的平滑度是相似的,我們仍然可以用平面上的曲線來做類比:當一個函數曲線較為平滑時,如果 x 坐標稍微偏移,曲線上點的 y 坐標也不會劇烈變化。但如果函數波動明顯,y 坐標就會隨著 x 坐標的細微偏移而劇烈變化,從長頸鹿變成斑馬,甚至變成倉鼠都有可能。

  Bubeck 和 Sellke 的數學證明表明,要平滑地擬合一個 d 維空間中的 n 個數據點,不僅需要與數據點數量相同的 n 個參數,要需要 nd 個額外的參數才行。這項研究告訴我們,如果希望一個神經網絡能夠可靠地掌握訓練數據的規律,過參數化不只是提高訓練速度的催化劑,而首先是保證網絡魯棒性的先決條件。

  過參數化成功地保證了大模型在處理高維數據和泛化任務時的表現,成為了幾乎所有語音處理模型的選擇。GPT、BERT、悟道,這些模型的卓越表現都與數以億計的參數密不可分。不過,海量參數的亮眼表現,也成為了大模型大算力野蠻生長的推動力。模型規模的擴大,是否可能已經超出了合理的范圍呢?有分析顯示,從 2012 年起,深度學習的訓練成本每隔幾個月就會翻一番,從 2013 年到 2019 年,用于訓練深度學習模型的計算量在 6 年內增加了 300 000 倍。隨著參數量和訓練成本的進一步幾何級增長,疑問漸漸產生:神經網絡參數規模的增長,必然保證性能和效率的持續增長嗎?對單一指標的關注,是否忽視了經濟、環境和社會成本?這些成本,有可能被壓縮嗎?

  二、從更大到更省,也是一條路

  雖然神經網絡的規模的膨脹至少在未來數年是不可阻擋的潮流,我們仍有必要,也有能力控制它們的能耗和排放。許多學者指出,目前的學界和業界,尤其是科技巨頭公司,研發神經網絡的模式有過于粗放之嫌,在降低消耗方面還有很大提升空間。

  從算法本身出發來解決算法的缺點,是最直接的手段之一。自從上世紀人工智能誕生以來,在相同任務上提高效率降低成本的算法研究就一直是研究者們最關注的方向之一。就像導語中提到的例子,人類棋手不會對棋盤上每一個可以落子的點都進行計算,而早期的電腦棋手卻不知道如何初步篩選出少量的選點。完成相同任務時,人腦的效率遠遠高于人工智能的一個原因就是,人類不會關注對象的每一個細節,早期的模型卻會對每一個數值、每一個像素都一樣仔細徹底地進行分析。為什么模型不能舍棄不重要的細節來提高效率?舉例來說,近幾年誕生的“注意力模型”(attention model)就通過類比人類的“注意力”特點,在自然語言處理上取得了很好的效果——通過對輸入進行賦權處理,網絡每次只專注于分析復雜輸入的特定方面,一個接著一個,最終完成對整個數據集的處理。在這個框架下,模型能夠有選擇地關注輸入最有價值的部分,從而“學到”它們之間的關聯。這也是 GPT-3 和 BERT 等近年嶄露頭角的預訓練模型的基礎之一。實際上,無論一個算法或模型是否是為了節能減排而研發,只要它切實提高了模型的效率,就一定能在相同的準確性等指標下讓成本得以降低。

  這些預訓練模型的發展,也未必要完全依賴參數規模的增長。此前有研究者推測,正在研發和訓練中,并有望很快面世的 GPT-4 的參數規模將比 GPT-3 更大,可能增至 100 萬億。但 OpenAI 的首席執行官 Sam Altman 近期透露,GPT-4 的參數規模并不會比 GPT-3 大。在已經相當巨大的參數規模基礎上,依靠進一步擴大規模來獲得性能提升的邊際效益實在太低。與之相比,Altman 傾向于通過改進數據算法和微調(fine-tuning),在不改變參數規模的情況下適當投入更多計算資源,來改善神經網絡的表現。

  他指出,模型的參數越多,所能完成的任務就越復雜,但在特定任務上,模型的有效性未必與大小相關。例如,近期美國谷歌公司的一項研究就利用一個遠小于 GPT-3 的模型——微調語言網絡(FLAN)在許多相當有挑戰性的基準測試中獲得了比 GPT-3 更好的結果。

  三、可持續的綠色 AI,正在路上

  專門針對神經網絡場景設計的芯片是降低 AI 研發和部署成本的另一個關鍵。由于神經網絡訓練需要大量并行的浮點運算和讀寫,CPU 難以勝任,目前主要使用 GPU 或 TPU 進行。英特爾(Intel),英偉達(Nvidia),谷歌等公司都在設計和生產這些芯片。

  而除了芯片設計制造技術的進步以外,全新類型的芯片也可能很快誕生,為神經網絡的訓練和部署帶來變局。MIT 教授 Vivienne Sze 在著作《深度神經網絡的高效處理》(Efficient Processing of Deep Neural Networks)就提出了一種可行的構想:通過構建一種多層網格,允許芯片上的網絡自適應地重用數據,并根據不同場合深度學習模型的需要對帶寬進行調整,最大限度地降低數據傳輸成本并保持高吞吐量。根據這一構想,Sze 與 MIT 教授、Nvidia 研究員 Joel Emer 合作,設計了一款名為 Eyeriss 2 的芯片,據稱在處理各類深度學習模型時的能效比普通 GPU 高出了 10 倍。

  通過政策的激勵和管控,更合理地安排人工智能研發和部署,也是管控成本,提高整體效率的重要手段。例如,如果人工智能模型使用主要來自可再生能源的電力進行訓練,其碳足跡就會相應降低;在可再生能源密集的區域,可再生電力的時間分布不均勻,在電力冗余的時段進行訓練,也是提高人工智能產業能源利用效率的有效方法。

  中國 2022 年 2 月正式啟動的“東數西算”工程就被學界認為是促進產業綠色發展的強力手段。由于東部資源日趨緊張,大規模發展計算中心難以為繼,而西部可再生能源充沛,可以很好地承接東部算力需求。華為、百度、騰訊等眾多科技公司都響應了這一工程,在西部建立了計算或數據中心。“東數西算”所提升的不只是人工智能訓練,而是整個算力密集產業的能效,不僅能立竿見影地降低研發部署成本,更有希望讓整個行業的投資變得更加有效,推動東西部協調發展。

  另外,提到了新能源,就不得不提人工智能發展與能源轉型的雙向促進作用。可再生新能源的開發顯然能夠降低包括人工智能在內的許多產業的能源成本,而人工智能的發展,也將助力可再生能源的消納,構建更完善的電力體系。風電、光伏等綠色能源近年來快速發展,但由于波動性、隨機性、反調峰等特征,并網難、消納率的問題難以克服,大規模并網甚至可能影響電網的安全穩定運行,導致一些地方出現了“棄風”、“棄光”等現象,可再生能源利用率不高。人工智能技術的應用,將有效提升電網等能源系統消納多樣化電源和協調多能源的能力,實現電力系統的安全、高效、穩定運行。可再生能源產業和人工智能技術互相促進的正反饋,將會是未來幾年兩者發展的一大驅動力。

  算法研究者、硬件開發者和政策制定者都正在實現“綠色 AI”的道路上努力著。但這些硬件和軟件支持,終究只是支持。過于關注準確性等性能指標,而以犧牲速度和模型大小等效率指標為代價的觀念和評價體系,普遍存在于整個人工智能領域。這樣的評價觀念亟待轉變。畢竟模型做出來,不只是為了在學術期刊和會議上攀比的,更多時候是為了轉化為應用,服務業界的,而任何高能耗高排放的應用產品,都是不符合時代要求的。只有認識到這一點,才能真正讓“綠色 AI”像今天的“綠色化學”一樣,從文獻里走出來,走進每一個實驗室,走進每一家公司,走進每個人的生活。


AI
中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0