2010年以來,由于大數據產業的發展,數據量呈現爆炸性增長態勢,而傳統的計算架構又無法支撐深度學習的大規模并行計算需求,于是研究界對AI芯片進行了新一輪的技術研發與應用研究。AI芯片是人工智能時代的技術核心之一,決定了平臺的基礎架構和發展生態。
目前,人工智能芯片技術領域的國內代表性企業包括中科寒武紀、中星微、地平線機器人、深鑒科技、靈汐科技、啟英泰倫、百度、華為等,國外包括英偉達、AMD、Google、高通、NervanaSystems、Movidius、IBM、ARM、CEVA、MIT/Eyeriss、蘋果、三星等。(以下排名不分先后)
中科寒武紀
寒武紀科技成立于2016年,總部在北京,創始人是中科院計算所的陳天石、陳云霽兄
弟,公司致力于打造各類智能云服務器、智能終端以及智能機器人的核心處理器芯片。阿里巴巴創投、聯想創投、國科投資、中科圖靈、元禾原點、涌鏵投資聯合投資,為全球AI芯片領域第一個獨角獸初創公司。
寒武紀是全球第一個成功流片并擁有成熟產品的AI芯片公司,擁有終端AI處理器IP和云端高性能AI芯片兩條產品線。2016年發布的寒武紀1A處理器(Cambricon-1A)是世界首款商用深度學習專用處理器,面向智能手機、安防監控、無人機、可穿戴設備以及智能駕駛等各類終端設備,在運行主流智能算法時性能功耗比全面超越傳統處理器。
中星微
1999年,由多位來自硅谷的博士企業家在北京中關村科技園區創建了中星微電子有限公司,啟動并承擔了國家戰略項目——“星光中國芯工程”,致力于數字多媒體芯片的開發、設計和產業化。
2016年初,中星微推出了全球首款集成了神經網絡處理器(NPU)的SVAC視頻編解碼SoC,使得智能分析結果可以與視頻數據同時編碼,形成結構化的視頻碼流。該技術被廣泛應用于視頻監控攝像頭,開啟了安防監控智能化的新時代。自主設計的嵌入式神經網絡處理器(NPU)采用了“數據驅動并行計算”架構,專門針對深度學習算法進行了優化,具備高性能、低功耗、高集成度、小尺寸等特點,特別適合物聯網前端智能的需求。
地平線機器人
地平線機器人成立于2015年,總部在北京,創始人是前百度深度學習研究院負責人余凱。
BPU(BrainProcessingUnit)是地平線機器人自主設計研發的高效人工智能處理器架構IP,支持ARM/GPU/FPGA/ASIC實現,專注于自動駕駛、人臉圖像辨識等專用領域。2017年,地平線發布基于高斯架構的嵌入式人工智能解決方案,將在智能駕駛、智能生活、公共安防三個領域進行應用,第一代BPU芯片“盤古”目前已進入流片階段,預計在2018年下半年推出,能支持1080P的高清圖像輸入,每秒鐘處理30幀,檢測跟蹤數百個目標。地平線的第一代BPU采用TSMC的40nm工藝,相對于傳統CPU/GPU,能效可以提升2~3個數量級(100~1,000倍左右)。
深鑒科技
深鑒科技成立于2016年,總部在北京。由清華大學與斯坦福大學的世界頂尖深度學習硬件研究者創立。深鑒科技于2018年7月被賽靈思收購。
深鑒科技將其開發的基于FPGA的神經網絡處理器稱為DPU。到目前為止,深鑒公開發布了兩款DPU:亞里士多德架構和笛卡爾架構,其中,亞里士多德架構是針對卷積神經網絡CNN而設計;笛卡爾架構專為處理DNN/RNN網絡而設計,可對經過結構壓縮后的稀疏神經網絡進行極致高效的硬件加速。相對于IntelXeonCPU與NvidiaTitanXGPU,應用笛卡爾架構的處理器在計算速度上分別提高189倍與13倍,具有24,000倍與3,000倍的更高能效。
靈汐科技
靈汐科技于2018年1月在北京成立,聯合創始人包括清華大學的世界頂尖類腦計算研究者。公司致力于新一代神經網絡處理器(Tianjic)開發,特點在于既能夠高效支撐現有流行的機器學習算法(包括CNN,MLP,LSTM等網絡架構),也能夠支撐更仿腦的、更具成長潛力的脈沖神經網絡算法;使芯片具有高計算力、高多任務并行度和較低功耗等優點。軟件工具鏈方面支持由Caffe、TensorFlow等算法平臺直接進行神經網絡的映射編譯,開發友善的用戶交互界面。Tianjic可用于云端計算和終端應用場景,助力人工智能的落地和推廣。
啟英泰倫
啟英泰倫于2015年11月在成都成立,是一家語音識別芯片研發商。啟英泰倫的CI1006是基于ASIC架構的人工智能語音識別芯片,包含了腦神經網絡處理硬件單元,能夠完美支持DNN運算架構,進行高性能的數據并行計算,可極大的提高人工智能深度學習語音技術對大量數據的處理效率。
百度
百度2017年8月HotChips大會上發布了XPU,這是一款256核、基于FPGA的云計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU采用新一代AI處理架構,擁有GPU的通用性和FPGA的高效率和低能耗,對百度的深度學習平臺PaddlePaddle做了高度的優化和加速。據介紹,XPU關注計算密集型、基于規則的多樣化計算任務,希望提高效率和性能,并帶來類似CPU的靈活性。但目前XPU有所欠缺的仍是可編程能力,而這也是涉及FPGA時普遍存在的問題。到目前為止,XPU尚未提供編譯器。
華為
麒麟970搭載的神經網絡處理器NPU采用了寒武紀IP。麒麟970采用了TSMC10nm工藝制程,擁有55億個晶體管,功耗相比上一代芯片降低20%。CPU架構方面為4核A73+4核A53組成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核MaliG72MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升20%和50%;NPU采用HiAI移動計算架構,在FP16下提供的運算性能可以達到1.92TFLOPs,相比四個Cortex-A73核心,處理同樣的AI任務,有大約具備50倍能效和25倍性能優勢。
英偉達
英偉達創立于1993年,總部位于美國加利福尼亞州圣克拉拉市。早在1999年,英偉達發明了GPU,重新定義了現代計算機圖形技術,徹底改變了并行計算。
深度學習對計算速度有非常苛刻的要求,而英偉達的GPU芯片可以讓大量處理器并行運算,速度比CPU快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發者的首選。自從GoogleBrain采用1.6萬個GPU核訓練DNN模型,并在語音和圖像識別等領域獲得巨大成功以來,英偉達已成為AI芯片市場中無可爭議的領導者。
AMD
美國AMD半導體公司專門為計算機、通信和消費電子行業設計和制造各種創新的微處理器(CPU、GPU、APU、主板芯片組、電視卡芯片等),以及提供閃存和低功率處理器解決方案,公司成立于1969年。AMD致力為技術用戶——從企業、政府機構到個人消費者——提供基于標準的、以客戶為中心的解決方案。
2017年12月Intel和AMD宣布將聯手推出一款結合英特爾處理器和AMD圖形單元的筆記本電腦芯片。目前AMD擁有針對AI和機器學習的高性能RadeonInstinc加速卡,開放式軟件平臺ROCm等。
Google在2016年宣布獨立開發一種名為TPU的全新的處理系統。TPU是專門為機器學習應用而設計的專用芯片。通過降低芯片的計算精度,減少實現每個計算操作所需晶體管數量的方式,讓芯片的每秒運行的操作個數更高,這樣經過精細調優的機器學習模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結果。在2016年3月打敗了李世石和2017年5月打敗了柯杰的阿爾法狗,就是采用了谷歌的TPU系列芯片。
GoogleI/O-2018開發者大會期間,正式發布了第三代人工智能學習專用處理器TPU3.0。TPU3.0采用8位低精度計算以節省晶體管數量,對精度影響很小但可以大幅節約功耗、加快速度,同時還有脈動陣列設計,優化矩陣乘法與卷積運算,并使用更大的片上內存,減少對系統內存的依賴。速度能加快到最高100PFlops(每秒1000萬億次浮點計算)。
高通
在智能手機芯片市場占據絕對優勢的高通公司,也在人工智能芯片方面積極布局。據
高通提供的資料顯示,其在人工智能方面已投資了Clarifai公司和中國“專注于物聯網人工智能服務”的云知聲。
而早在2015年CES上,高通就已推出了一款搭載驍龍SoC的飛行機器人——SnapdragonCargo。高通認為在工業、農業的監測以及航拍對拍照、攝像以及視頻新需求上,公司恰好可以發揮其在計算機視覺領域的能力。此外,高通的驍龍820芯片也被應用于VR頭盔中。事實上,高通已經在研發可以在本地完成深度學習的移動端設備芯片。
NervanaSystems
Nervana創立于2014年,公司推出的TheNervanaEngine是一個為深度學習專門定制和優化的ASIC芯片。這個方案的實現得益于一項叫做HighBandwidthMemory的新型內存技術,這項技術同時擁有高容量和高速度,提供32GB的片上儲存和8TB每秒的內存訪問速度。該公司目前提供一個人工智能服務“inthecloud”,他們聲稱這是世界上最快的且目前已被金融服務機構、醫療保健提供者和政府機構所使用的服務。他們的新型芯片將會保證Nervana云平臺在未來的幾年內仍保持最快的速度。
Movidius(被Intel收購)
2016年9月,Intel發表聲明收購了Movidius。Movidius專注于研發高性能視覺處理芯片。其最新一代的Myriad2視覺處理器主要由SPARC處理器作為主控制器,加上專門的DSP處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以DSP架構為基礎的視覺處理器,在視覺相關的應用領域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統中。
該芯片已被大量應用在Google3D項目的Tango手機、大疆無人機、FLIR智能紅外攝像機、海康深眸系列攝像機、華睿智能工業相機等產品中。
IBM
IBM很早以前就發布過watson,投入了很多的實際應用。除此之外,還啟動了類腦芯片的研發,即TrueNorth。
TrueNorth是IBM參與DARPA的研究項目SyNapse的最新成果。SyNapse全稱是SystemsofNeuromorphicAdaptivePlasticScalableElectronics(自適應可塑可伸縮電子神經系統,而SyNapse正好是突觸的意思),其終極目標是開發出打破馮·諾依曼體系結構的計算機體系結構。
ARM
ARM推出全新芯片架構DynamIQ,通過這項技術,AI芯片的性能有望在未來三到五年內提升50倍。
ARM的新CPU架構將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為AI算法設計的處理器。芯片廠商將可以為新處理器配置最多8個核心。同時為了能讓主流AI在自己的處理器上更好地運行,ARM還將推出一系列軟件庫。
CEVA
CEVA是專注于DSP的IP供應商,擁有眾多的產品線。其中,圖像和計算機視覺DSP產品CEVA-XM4是第一個支持深度學習的可編程DSP,而其發布的新一代型號CEVA-XM6,具有更優的性能、更強大的計算能力以及更低的能耗。
CEVA指出,智能手機、汽車、安全和商業應用,如無人機、自動化將是其業務開展的主要目標。
MIT/Eyeriss
Eyeriss事實上是MIT的一個項目,還不是一個公司,從長遠來看,如果進展順利,很可能孵化出一個新的公司。
Eyeriss是一個高效能的深度卷積神經網絡(CNN)加速器硬件,該芯片內建168個核心,專門用來部署神經網路(neuralnetwork),效能為一般GPU的10倍。其技術關鍵在于最小化GPU核心和記憶體之間交換數據的頻率(此運作過程通常會消耗大量的時間與能量):一般GPU內的核心通常共享單一記憶體,但Eyeriss的每個核心擁有屬于自己的記憶體。
目前,Eyeriss主要定位在人臉識別和語音識別,可應用在智能手機、穿戴式設備、機器人、自動駕駛車與其他物聯網應用裝置上。
蘋果
在iPhone8和iPhoneX的發布會上,蘋果明確表示其中所使用的A11處理器集成了一個專用于機器學習的硬件——“神經網絡引擎(NeuralEngine)”,每秒運算次數最高可達6000億次。這塊芯片將能夠改進蘋果設備在處理需要人工智能的任務時的表現,比如面部識別和語音識別等。
三星
2017年,華為海思推出了麒麟970芯片,據知情人士透露,為了對標華為,三星已經
研發了許多種類的人工智能芯片。三星計劃在未來三年內新上市的智能手機中都采用人工智能芯片,并且他們還將為人工智能設備建立新的組件業務。三星還投資了Graphcore、深鑒科技等人工智能芯片企業。