傳動網 > 新聞頻道 > 行業資訊 > 資訊詳情

探討影響AI芯片未來發展趨勢的主要因素

時間:2018-11-08

來源:網絡轉載

導語:人工智能應用的蓬勃發展對算力提出了非常迫切的要求。由于摩爾定律已經失效,定制計算將成為主流方向,因而新型的AI芯片開始層出不窮,競爭也日趨白熱。

【中國傳動網 市場分析】 人工智能應用的蓬勃發展對算力提出了非常迫切的要求。由于摩爾定律已經失效,定制計算將成為主流方向,因而新型的AI芯片開始層出不窮,競爭也日趨白熱。參與這一競爭的不光是傳統的半導體芯片廠商,大型的互聯網和終端設備企業依托于自身龐大的應用規模,直接從自身業務需求出發,參與到AI芯片的開發行列。這其中以英偉達為代表的GPU方案已經形成規模龐大的生態體系,谷歌的TPU則形成了互聯網定義AI芯片的標桿,其余各家依托各自需求和優勢,提出了多類解決方案。本文將簡要梳理目前各家技術進展狀態,結合人工智能應用的發展趨勢,對影響AI芯片未來發展趨勢的主要因素做出一個粗淺探討。

AI計算芯片現狀

目前AI芯片領域主要的供應商仍然是英偉達,英偉達保持了極大的投入力度,快速提高GPU的核心性能,增加新型功能,保持了在AI訓練市場的霸主地位,并積極拓展嵌入式產品形態,推出Xavier系列。互聯網領域,谷歌推出TPU3.0,峰值性能達到100pflops,保持了專用加速處理器的領先地位。同時華為、百度、阿里、騰訊依托其龐大應用生態,開始正式入場,相繼發布其產品和路線圖。此外,FPGA技術,因其低延遲、計算架構靈活可定制,正在受到越來越多的關注,微軟持續推進在其數據中心部署FPGA,Xilinx和Intel倆家不約而同把FPGA未來市場中心放到數據中心市場。Xilinx更是推出了劃時代的ACAP,第一次將其產品定位到超越FPGA的范疇。相較云端高性能AI芯片,面向物聯網的AI專用芯片門檻要低很多,因此也吸引了眾多小體量公司參與。

▌NVIDIA:Xavier

2018年1月,英偉達發布了首個自動駕駛處理器——Xavier。這款芯片具有非常復雜的結構,內置六種處理器,超過90億個晶體管,可以處理海量數據。Xavier的GMSL(千兆多媒體串行鏈路)高速IO將其與迄今為止最大陣列的激光雷達、雷達和攝像頭傳感器連接起來。

2018年3月,NVIDIA發布首款2-petaFLOPS系統——DGX-2。它整合了16個完全互聯的GPU,使深度學習性能提升10倍。有了DGX-2,模型的復雜性和規模不再受傳統架構限制的約束。與傳統的x85架構相比,DGX-2訓練ResNet-50的性能相當于300臺配備雙英特爾至強GoldCPU服務器的性能,后者的成本超過270美元。

自2016年首次發布TPU以來,Google持續推進,2017年發布TPU2.0,2018年3月GoogleI/O大會推出TPU3.0。其每個pod的機架數量是TPU2.0的兩倍;每個機架的云TPU數量是原來的兩倍。據官方數據,TPU3.0的性能可能是TPU2.0的八倍,高達100petaflops。

圖:TPU1&2&3參數對比圖

2018年10月,華為正式發布兩款AI芯片:昇騰910和昇騰310。預計下一年第二季度正式上市。華為昇騰910采用7nm工藝,達芬奇架構,半精度(FP16)可達256TeraFLOPS,整數精度(INT8)可達512TeraOPS,自帶128通道全高清視頻解碼器H.264/265,最大功耗350W。華為昇騰310采用12nmFFC工藝,達芬奇架構,半精度(FP16)可達8TeraFLOPS,整數精度(INT8)可達16TeraOPS,自帶16通道全高清視頻解碼器H.264/265,最大功耗8W。

2018年5月,寒武紀推出第一款智能處理板卡——MLU100。搭載了寒武紀MLU100芯片,為云端推理提供強大的運算能力支撐。等效理論計算能力高達128TOPS,支持4通道64bitECCDDR4內存,并支持多種容量。1M是第三代機器學習專用芯片,使用TSMC7nm工藝生產,其8位運算效能比達5Tops/watt(每瓦5萬億次運算)。寒武紀1M處理器延續了前兩代IP產品(1H/1A)的完備性,可支持CNN、RNN、SOM等多種深度學習模型,此次又進一步支持了SVM、K-NN、K-Means、決策樹等經典機器學習算法的加速。這款芯片支持幫助終端設備進行本地訓練,可為視覺、語音、自然語言處理等任務提供高效計算平臺。

2017年12月,地平線自主設計研發了中國首款嵌入式人工智能視覺芯片——旭日1.0和征程1.0。旭日1.0是面向智能攝像頭的處理器,具備在前端實現大規模人臉檢測跟蹤、視頻結構化的處理能力,可廣泛用于智能城市、智能商業等場景。征程1.0是面向自動駕駛的處理器,可同時對行人、機動車、非機動車、車道線交通標識等多類目標進行精準的實時監測和識別,實現FCW/LDW/JACC等高級別輔助駕駛功能。

2018年10月,比特大陸正式發布邊緣計算人工智能芯片BM1880,可提供1TOPS@INT8算力。推出面向深度學習領域的第二代張量計算處理器BM1682,峰值性能達3TFLOPSFP32。

BM1682的算豐智能服務器SA3、嵌入式AI迷你機SE3、3D人臉識別智能終端以及基于BM1880的開發板、AI模塊、算力棒等產品。BM1682芯片量產發布,峰值算力達到3TFlops,功耗為30W。

2018年7月,百度AI開發者大會上李彥宏正式宣布研發AI芯片——昆侖。這款AI芯片適合對AI、深度學習有需求的廠商、機構等。借助著昆侖AI芯片強勁的運算性能,未來有望應用到無人駕駛、圖像識別等場景中去。

▌阿里:研發Ali-NPU、成立平頭哥半導體芯片公司

2018年4月,阿里巴巴達摩院宣布正在研發的一款神經網絡芯片——Ali-NPU。其主要用途是圖像視頻分析、機器學習等AI推理計算。9月,在云棲大會上,阿里巴巴正式宣布合并中天微達摩院團隊,成立平頭哥半導體芯片公司。

▌Xilinx:ACAP、收購深鑒科技

2018年3月,賽靈思宣布推出一款超越FPGA功能的新產品——ACAP(自適應計算加速平臺)。其核心是新一代的FPGA架構。10月,發布最新基于7nm工藝的ACAP平臺的第一款處理器——Versal。其使用多種計算加速技術,可以為任何應用程序提供強大的異構加速。VersalPrime系列和VersalAICore系列產品也將于2019年推出。

2018年7月,賽靈思宣布收購深鑒科技。

AI芯片發展面臨的矛盾、問題、挑戰

目前AI芯片發展面臨4大矛盾:圍繞這些矛盾,需要解決大量相關問題和挑戰。

▌大型云服務商與AI芯片提供商的矛盾

技術路線上,面向通用市場的英偉達持續推進GPU技術發展,但是大型云服務商也不愿陷入被動,結合自身規模龐大的應用需求,比較容易定義一款適合的AI芯片,相應的應用打磨也比較好解決。同時,新的芯片平臺都會帶來生態系統的分裂。但是對于普通用戶,競爭會帶來價格上的好處。由于AI算力需求飛速提升,短期內AI芯片市場還會進一步多樣化。

▌中美矛盾

中國依托于龐大市場規模,以及AI應用技術的大力投資,非常有機會在AI相關領域取得突破。但是受到《瓦森那協議》以及近期中美貿易戰等因素影響,中美在集成電路產業層面展開了激烈的競爭。AI芯片有機會為中國帶來破局的機會,因此后期可以預期,國內會有更多的資金投入到AI芯片領域。

▌專用與通用間的矛盾

云端市場由于各大巨頭高度壟斷,會形成多個相對封閉的AI芯片方案。而邊緣端市場由于高度分散,局部市場難以形成完整的技術生態體系,生態建設會圍繞主流核心技術拓展,包括ARM、Risc-V、NVDLA等。各大掌握核心技術的廠商,也會迎合這一趨勢,盡可能占領更大的生態份額,積極開放技術給中小企業開發各類AI芯片。

▌AI芯片創新與設計工具及生態之間的矛盾

以FPGA為例,學界和業界仍然沒有開創性的方法簡化FPGA的開發,這是現階段制約FPGA廣泛使用的最大障礙。和CPU或GPU成熟的編程模型和豐富的工具鏈相比,高性能的FPGA設計仍然大部分依靠硬件工程師編寫RTL模型實現。RTL語言的抽象度很低,往往是對硬件電路進行直接描述,這樣,一方面需要工程師擁有很高的硬件專業知識,另一方面在開發復雜的算法時會有更久的迭代周期。因此,FPGA標榜的可編程能力與其復雜的編程模型之間,形成了鮮明的矛盾。近五到十年來,高層次綜合(HighLevelSynthesis-HLS)一直是FPGA學術界研究的熱點,其重點就是希望設計更加高層次的編程模型和工具,利用現有的編程語言比如C、C++等,對FPGA進行設計開發。

在工業界,兩大FPGA公司都選擇支持基于OpenCL的FPGA高層次開發,并分別發布了自己的API和SDK等開發工具。這在一定程度上降低了FPGA的開發難度,使得C語言程序員可以嘗試在FPGA平臺上進行算法開發,特別是針對人工智能的相關應用。盡管如此,程序員仍然需要懂得基本的FPGA體系結構和設計約束,這樣才能寫出更加高效的OpenCL/HLS模型。因此,盡管有不少嘗試OpenCL/HLS進行產品開發的公司,但是目前國內實際能夠掌握這類設計方法的公司還是非常稀缺。各家專用AI芯片廠商,都需要建立自己相對獨立的應用開發工具鏈,這個投入通常比開發芯片本身還要龐大,成熟周期也慢很多。Xilinx對深鑒的收購有效補充了其在AI應用開發方面的工具短板。近期Intel開源了OpenVINO,也是在推動其AI及FPGA生態。也有少數在FPGA領域有長期積累的團隊,例如深維科技在為市場提供定制FPGA加速方案,可以對應用生態產生有效促進作用。

面對不同的需求,AI計算力最終將會駛向何方?

主要云服務商以及終端提供商都會圍繞自家優勢產品平臺發展AI芯片,云端AI芯片投入巨大,主流技術快速進化,國內企業需要重視AI芯片的隱性投入:設計開發工具、可重用資源和生態伙伴。不過近期不大可能迅速形成整合的局面,競爭會進一步加劇。在端上,基于DSA/RISC-V的AI芯片更多出現在邊緣端AI+IoT,百花齊放。

三大類技術路線各有優劣,長期并存。

GPU具有成熟的生態,在AI領域具有顯著的先發優勢,目前保持高速增長態勢。

以GoogleTPU為代表的專用AI芯片在峰值性能上較GPU有一定優勢。確定性是TPU另一個優勢。CPU和GPU需要考慮各種任務上的性能優化,因此會有越來越復雜的機制,帶來的副作用就是這些處理器的行為非常難以預測。而使用TPU能輕易預測運行一個神經網絡并得出模型與推測結果需要多長時間,這樣就能讓芯片以吞吐量接近峰值的狀態運行,同時嚴格控制延遲。不過,TPU的性能優勢使得它的靈活性較弱,這也是ASIC芯片的常見屬性。充分針對性優化的架構也可以得到最佳的能效比。但是開發一款高性能專用芯片的投入是非常高昂的,通常周期也需要至少15個月。

FPGA以及新一代ACAP芯片,則具備了高度的靈活性,可以根據需求定義計算架構,開發周期遠遠小于設計一款專用芯片。但是由于可編程資源必不可少的冗余,FPGA的能效比以及價格通常比專用芯片要差很多。但是ACAP的出現,引入了AI核的優點,勢必會進一步拉近與專用芯片的差距。隨著FPGA應用生態的逐步成熟,FPGA的優勢也會逐漸為更多用戶所了解。

總而言之,AI芯片的“戰國時代”大幕已經拉開,各路“諸侯”爭相割據一方,謀求霸業,大家難以獨善其身,合縱連橫、百家爭鳴將成為常態。這也必定會是一個英雄輩出的時代。

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0