大數(shù)據(jù)重塑新芯片架構,AI處理器如何突破?

時間:2017-06-05

來源:網(wǎng)絡轉載

導語:史丹佛大學(StanfordUniversity)的研究人員將介紹一種可重配置處理器——Plasticine,它可支持比FPGA更高近100倍的每瓦特性能,同時也更易于編程。

業(yè)界共同的愿景是開發(fā)一款人工智能(AI)處理器,它可為神經(jīng)網(wǎng)絡處理訓練與推理等任務,甚至可能出現(xiàn)一些新的自我學習技術;這種AI處理器還必須能透過大規(guī)模的平行化方式提供強大的性能,同時具有高功效且易于編程...

由亞馬遜(Amazon)、Google和Facebook等網(wǎng)絡巨擘所收集的大量數(shù)據(jù)集,正推動處理這些巨量數(shù)據(jù)的新芯片復興。預計在六月底的年度計算機架構大會上將亮相其中兩項最新成果。

史丹佛大學(StanfordUniversity)的研究人員將介紹一種可重配置處理器——Plasticine,它可支持比FPGA更高近100倍的每瓦特性能,同時也更易于編程。此外,Nvidia的兩名資深設計人員定義了一款推理處理器,可提供較現(xiàn)有組件更高2倍性能與能源效率。

這些芯片象征著這項任務的冰山一角。過去一年來,英特爾(Intel)收購了三家機器學習創(chuàng)業(yè)公司。而其競爭對手——三星(Samsung)則連手DellEMC投資英國公司Graphcore,這是該領域的六家獨立新創(chuàng)公司之一。

Nvidia正致力于推動其GPU作為神經(jīng)網(wǎng)絡訓練引擎的銷售。同時,該公司也正調整其芯片架構,使其得以更有效地處理這些任務。

Google則聲稱其龐大的x86CPU叢集以及Nvidia的GPU均不足以勝任這項處理任務。因此,Google推出了自家的兩款加速器版本——Tensor處理器(TPU)。

Graphcore執(zhí)行長NigelToon說:“如今正是“運算2.0”(Compute2.0)的時代,它象征著一個全新的運算世界。Google最終將使用以TPU為基礎的機架結構,幾乎不使用任何CPU,因為它有98%的營收都來自搜尋——這正是機器學習的理想應用。”

最終,機器學習芯片將出現(xiàn)在廣泛的嵌入式系統(tǒng)中。以汽車每年賣出1,800萬輛和服務器約1,000萬套的年銷售量來看,Toon說:“自動駕駛車應用可望為這項技術帶來一個比云端更大的市場,而且是一個以往從未存在過的市場。”

如今業(yè)界共同的愿景是開發(fā)一款人工智能(AI)處理器,它可為神經(jīng)網(wǎng)絡處理訓練與推理等任務,甚至可能出現(xiàn)一些新的自我學習技術。這種AI處理器還必須能透過大規(guī)模的平行化方式提供強大的性能,同時具有高功效且易于編程。

即使是這項開發(fā)任務的基本數(shù)學也引發(fā)熱烈討論。Toon認為,16位浮點乘法與32位累加運算的組合,能夠帶來優(yōu)化精確度以及最小誤差。

這正是NvidiaVolta架構導入的Tensor核心所使用的途徑,同時也是Graphcore將在今年10月出樣給早期合作伙伴的高階芯片。該新創(chuàng)公司正專注于開發(fā)一款采用新內存與互連的大型芯片,該芯片并可外接至各種單元與叢集。

后多核心時代的靈活性

由KunleOlukotun帶領的史丹佛大學研究團隊也有類似的目標,不過,他們采取了一條與Plasticine不一樣的道路。

Olukotun說:“多核心時代即將結束……我們正處于一個現(xiàn)代應用程序(app)改變運算模式的時代。”O(jiān)lukotun曾經(jīng)協(xié)助一家新創(chuàng)公司率先打造出多核心設計,該技術最終成為Oracle基于Sparc處理器的一部份。

“對于機器學習的統(tǒng)計模型,真正需要的運算方式與古典的確定性運算途徑截然不同,所以這將帶來一個真正的機會。”

如同英國布里斯托的競爭對手Graphcore一樣,史丹佛大學研究團隊摒棄了共享一致的快取等傳統(tǒng)思維。史丹佛大學數(shù)據(jù)科學計劃執(zhí)行總監(jiān)StephenEglash認為,Plasticine“最令人興奮之處在于硬件可在運行時重新配置,為特定計算方式實現(xiàn)優(yōu)化。”

Olukotun說:“我們的目標在于讓擁有專業(yè)知識的任何人都能建立可生產(chǎn)的機器學習系統(tǒng),而不一定得由機器學習或硬件領域的專家來做。”

為了實現(xiàn)這一目標,史丹佛大學定義了一種新的語言Spatial,可將算法的各部份映像至平行處理器的各部份。Olukotun說:“我們擁有完整的編譯程序流程,從高層級的TensorFlow架構到硬件呈現(xiàn)。..。..事實上,它具有比FPGA更高10倍每瓦特性能,也更易于編程100倍。”

Spatial類似于Nvidia的CudaGPU編程語言,但應該更易于使用。它能將諸如分散/收集或MapReduce等功能映像至硬件中的外顯內存階層架構,經(jīng)由DRAM和SRAM實現(xiàn)串流數(shù)據(jù)集。

因此,Pasticine處理器“是一項軟件至上的計劃,”O(jiān)lukotun說。

Eglash認為在物聯(lián)網(wǎng)的邊緣節(jié)點正需要這樣的技術。“我們所產(chǎn)生的數(shù)據(jù)將會比傳送至云端的更龐大,所以必須采用一些分布式的本地運算。”

短期來看,機器學習將為智能型手機帶來“超級個性化”,針對用戶的喜好自動量身打造。別再為密碼和指紋傷腦筋了。Eglash說:“你的手機可能在幾秒內就知道你是不是本尊。”

在工業(yè)物聯(lián)網(wǎng)(IIoT),推理任務已經(jīng)被分配至網(wǎng)關了。GEDigital云端工程主管DarrenHaas說,“我們所打造的一切都可以被劃分成較小的裝置,甚至是RaspberryPi。..我們在云端建立了大規(guī)模的模型,并使其得以在邊緣執(zhí)行于輕量級硬件上。”

史丹佛大學的Plasticine架構

史丹佛大學的Plasticine是一種全新的架構,可能是Graphcore等新創(chuàng)公司將會采用的技術。它充份利用了平行模式和高層級抽象,以擷取有關數(shù)據(jù)位置、內存存取模式和控制流程等細節(jié),從而在“一系列的密集與稀疏應用上進行操作”。

在該芯片核心采用16×8的交錯式圖形運算單元(PCU)數(shù)組與圖形內存單元(PMU),透過3個互連信道利用3種控制協(xié)議進行連接。這款尺寸為113mm2的芯片采用Spatial將應用映像至數(shù)組上;相較于采用類似28nm制程打造的FPGA,該芯片可提供更高95倍的性能以及高達77倍的每瓦性能。

Plasticine在1GHz頻率頻率下的功耗高達49W,支持12.3TFlops的峰值浮點運算性能,以及16MB的芯片容量。

PCU是執(zhí)行巢狀模式之可重配置SIMD功能單元的多級管線。PMU使用庫存的緩存器內存和專用尋址邏輯與地址譯碼器。

這些主單元和其他周邊組件透過字級純量、多字符向量和位級控制互連進行連接,且全部都采用相同的拓撲結構。各個連接都采用分布式的分層控制機制,以盡可能減少使用同步單元,從而實現(xiàn)序列、流水線或串流的執(zhí)行。

該途徑簡化了編譯程序映像并可提高執(zhí)行效率。“每個Plasticine組件均用于映像應用的特定部份:本地地址計算在PMU中完成,DRAM地址運算發(fā)生在DRAM地址管理單元,其余的數(shù)據(jù)運算則在PCU中進行。”

Olukotun解釋說:“本質上,它是一組高度庫存的內存,支持專用地址單元產(chǎn)生附近的地址。只需執(zhí)行計算,即可讓內存在正確的時間將數(shù)據(jù)串流至運算單元,而無需解譯指令。”

該芯片采用四個DDR信道外接DRAM,并進行緩沖和管理,以盡可能減少芯片外處理。

Olukotun說:“許多機器學習都專注于建置卷積神經(jīng)網(wǎng)絡(CNN),但我們的目標是打造更靈活且涵蓋稀不斷變化中的疏密集算法,讓開發(fā)人員可以將其設計想法傳達給硬件。”

研究人員采用周期精確仿真來合成設計的RTL,為線性代數(shù)、機器學習、數(shù)據(jù)分析與圖形分析等任務產(chǎn)生基準。他說:“我們希望這些設計概念能直接用于芯片上,并計劃在6到18個月內進行芯片設計。”

Nvidia研究人員打造稀疏推理引擎

另一組由9名研究人員組成的研究團隊(其中有7人來自Nvidia)將介紹稀疏卷積神經(jīng)網(wǎng)絡(SCNN)推理加速器。該研究團隊包括資深的微處理器設計人員JoelEmer(曾協(xié)助定義同步多線程),以及Nvdia首席科學家WilliamDally。

相較于同級配置的密集CNN加速器,SCNN可提供更高2.7倍的性能和2.3倍的能源效率。該芯片采取較以往的研究更先進的途徑,可消除無關緊要的數(shù)學運算,并專注于以最高效的方法處理CNN權重與啟動。

此外,它采用了一種新的數(shù)據(jù)流,可在壓縮編碼過程中保持稀疏權重與啟動,從而避免不必要的數(shù)據(jù)傳輸以及減少儲存的需求。此外,“SCNN數(shù)據(jù)流有助于將這些權重與啟動有效地傳遞到乘法器數(shù)組,并在此廣泛重復使用。”

該途徑可讓“較大CNN的所有操作量保留在各層間的芯片緩沖區(qū),完全不必使用大規(guī)模網(wǎng)絡所需的高成本跨層DRAM參考資源。”

該芯片的處理元素(PE)采用支持權重和啟動向量的乘法器數(shù)組。該芯片采用16nm制程技術,將64個PE與16個乘法器封裝于7.4mm2模塊中,使其尺寸略大于類似的密集CNN加速器。

該論文并比較了SCNN與其他研究中的芯片。然而,Dally猜測這款芯片“比商用推理加速器的效率更高,因為它利用的是稀疏設計途徑。”

如同Plasticine一樣,目前的研究成果是以仿真為基礎,尚未制造芯片。Dally說:“我們正為這款設計進行布局以及時序收斂。”

Nvidia尚未宣布商用化SCNN技術的任何計劃,但在研究論中指出,“我們正持續(xù)在這個領域的研發(fā)工作。”

更多資訊請關注電力電子頻道

中傳動網(wǎng)版權與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0