熟女人妻水多爽中文字幕,国产精品鲁鲁鲁,隔壁的少妇2做爰韩国电影,亚洲最大中文字幕无码网站

技術頻道

娓娓工業
您現在的位置: 中國傳動網 > 技術頻道 > 技術百科 > 淺談AI芯片和架構設計

淺談AI芯片和架構設計

時間:2019-04-03 13:57:25來源:華為公司企業業務部MKT AI解決方案總監 黃玖

導語:?根據華為GIV(Huawei?Global?Industry?Vision)預測,2025年全球新增數據量預計180ZB,將遠超人類處理能力,95%的數據將依賴AI處理。

前言

根據華為GIV(HuaweiGlobalIndustryVision)預測,2025年全球新增數據量預計180ZB,將遠超人類處理能力,95%的數據將依賴AI處理。數據是企業重要資產,借助人工智能手段進行更高效的數據分析、處理、決策,提升企業生產效率和智能化水平,將成為企業經營的核心任務之一。預計2025年,全球企業對AI的采用率將達86%,AI的崛起將深刻改變企業的業務模式和價值創造模式。

60年來人工智能發展雖幾起幾落,卻始終在新興ICT信息技術驅動下不斷取得新的突破。但近些年,CPU性能未能呈現如摩爾定律預測的定期翻倍,業內普遍觀點認為摩爾定律已經失效,能否開發出具有超高運算能力、符合市場需求的芯片,已成為人工智能領域可持續發展的重要因素。

從AlphaGo戰勝李世石說起

2016年谷歌AlphaGo與圍棋世界冠軍李世石上演“世紀人機大戰”,將人工智能的關注度推到了前所未有的高度。人工智能機器人阿爾法狗以4比1的總比分戰勝職業九段棋手李世石。此次人機大戰,谷歌DeepMind公司共消耗了1202顆CPU和176顆GPU的計算資源,阿爾法狗的浮點運算能力是1998年IBM深藍戰勝象棋冠軍時的3萬倍之多。

AI芯片

(圖一:AlphaGo與李世石對弈)

但從能效的角度,AlphaGo真的戰勝人類了嗎?我們從以下方面分析。成年男性每日需要能量大約2550千卡,1千卡(KCAL)=4.184千焦耳(KJ),如果我們把卡路里換算成焦耳大概是1000多萬焦耳,下棋1小時,李世石大概消耗0.7兆焦耳。AlphaGo與李世石下棋用了1202顆CPU,176顆GPU,以1顆CPU100W,1顆GPU200W,1小時,阿爾法狗需要,1瓦時=3600焦耳,共消耗559兆焦耳,這相當于李世石用的能耗大約是AlphaGo能耗的八百分之一。

之后,谷歌的DeepMind團隊對硬件進行改進,將運算單元從CPU換算成GPU,同樣級別比賽,阿爾法狗消耗雖下降了12倍,但仍然是人類能耗的67倍之多。

因此,我們看到,GPU在性能和效率上,相比CPU有很大的提升,但它仍更適合大規模分布式訓練場景。隨著5G、物聯網、云和超寬帶信息技術的發展,智能將延伸到每一臺智能設備和終端,包括各種形式邊緣計算,以及IoT物聯網、消費類智能終端,為了實現極致的用戶體驗,這類設備往往在最靠近用戶的地方,需要長時間待機,對功耗和空間的約束要是非常高的,顯然GPU無法滿足這類場景的需求。

而人工智能的本質是幫助各行各業提高生產效率,產生社會和商業價值。若像AlphaGo一樣,依賴龐大且昂貴的計算資源實現一個簡單的場景,實則大材小用。從我們對AI需求的理解來看,人工智能芯片的研發,從一開始就要考慮對全場景智能需求的覆蓋,無論是云、邊緣、還是終端;無論是深度學習訓練,還是推理,或者兩者兼具,而不是一種芯片包打天下。從人工智能芯片發展歷程來看,也是在逐步適應這個過程。

重新定義AI芯片

人工智能芯片經歷了從CPU->GPU->FPGA->AI芯片的發展歷程。

阿爾法狗的首次戰勝人類可謂是費了“洪荒之力”,本質上是基于馮.諾依曼計算架構所決定的。于是具備強大并行計算能力與浮點計算能力GPU一度成為深度學習模型訓練和推理的標配。相比CPU,GPU提供更快的處理速度,需要更少的服務器投入和更低的功耗,成為近些年來深度學習訓練的主流模式。

但GPU無法滿足所有場景深度學習計算任務。除前面所述,再舉個例子,比如L4自動駕駛,需要識別道路、行人、紅綠燈等狀況,如果基于CPU計算,時延無法滿足要求,恐怕車翻到河里還沒發現前方是河;如果用GPU計算,雖然時延可以滿足要求,但是功耗大,汽車電池無法長時間運行。此外,1塊GPU卡少則萬元多則近10萬人民幣,無法普及大多數普通消費者。

本質上,GPU不是專門針對AI算法開發的ASIC,人們亟需找到既能解決深度學習訓練和推理的運算能力,又能解決功耗和成本問題的芯片,FPGA芯片在這樣背景下誕生。

FPGA可編程的陣列(Field-ProgrammableGateArray),作為ASIC領域中的一種半定制電路而出現,本質上是基于無指令,無需共享內存的體系架構創新,滿足了特定場景的需求。

FPGA主要通過以下手段提升性能、降低時延;減少能耗、降低成本:

通過燒入可配置、可反復刷寫的FPGA配置文件來定義大量門電路和存儲器間的連線。

通過配置文件,將FPGA變成不同的處理器,支持各種不同的深度學習計算任務。

FPGA中的寄存器和片上內存,屬于各自的控制邏輯,無需不必要的沖裁和緩存。

根據研究發現,對于大量的矩陣運算GPU計算能力遠高于FPGA,但是由于FPGA體系結構特點,非常適用于低時延、流式計算密集型任務處理。在類似海量并發的云端推斷,比如語音云識別場景,FPGA相比GPU具備更低計算時延的優勢,能夠提供更佳的消費者體驗。

但是,FPGA芯片本質上是通過預編程的方法來提升性能的,AI需要處理的內容往往是大量非結構化數據,例如視頻、圖像等,這類數據很難通過預編程的方法得到滿意的結果。相反,需要通過人工智能芯片,進行大量樣本訓練和推理交互,形成算法模型后,集成了AI芯片和算法的智能設備,才能具備智能推理能力。

無論是GPU還是FPGA,雖然都可以運行AI算法,但均美中不足,GPU本質上不是專門針對AI算法開發的ASIC,功耗大、成本高;FPGA雖然架構有一定的創新,但是預編程繁瑣。從嚴格意義上來講,都不是AI芯片。那么,什么是AI芯片呢?我們知道,人工智能的深度學習算法的數據運算特征,需要芯片具備比傳統計算性能高出2-3個數量級。綜上分析,我們嘗試給出如下定義:

基于ASIC(專用集成電路),可以基于軟件靈活定義和高度定制的專用芯片。一方面,能夠進行深度學習神經網絡運算;另一方面,基于硬件計算架構的創新,提升深度學習運算效率,達到最佳能效(TOPS/W)的芯片,才可以稱之為AI芯片。

值得肯定的是,FPGA大膽邁出了人工智能芯片硬件架構創新的第一步,即ASIC專用集成電路模式。

AI芯片依賴架構創新

如上分析,FPGA之所以比CPU,GPU能耗低,本質上是無指令,無需共享內存的體現結構帶來的福利。在探討架構創新之前,我們來分析是什么原因造成了CPU/GPU無法滿足人工智能的需求。

目前市面上絕大多數AI芯片采用類CPU架構(馮.諾依曼架構的局部優化),本質上還是“計算優先”模式,比如通過擴展并行計算單元來提升芯片處理性能。但人工智能深度學習神經網絡算法訓練,多個計算單元往往需要頻繁的存儲器讀寫操作,而類CPU架構本質上還是共享存儲模式,無法根本解決馮.諾依曼計算架構共享內存模式導致的存儲性能瓶頸問題,又稱“內存墻”,類CPU架構示意如下:

AI芯片

(圖二:類CPU芯片架構)

深度學習神經網絡數據運算特征表現為:高并發、高耦合,以及“高并發+高耦合”的“三高”特征。算法處理需要進行:大量的計算、大量的并行處理、低延遲的操作要求。以訓練為例,訓練過程涉及大量數據存儲,對內存數量、訪問內存的帶寬和內存管理方法的要求都非常高。要求芯片具備一定精度的浮點數運算能力,且同時支持正向和反向的計算過程和多次迭代。其次,訓練過程需要不斷調整神經網絡中的參數(權重),包括參數的多次輸入和多次讀取,以及復雜的數據同步要求,整個在線訓練過程參數的頻繁操作,對存儲器帶來非常巨大的挑戰。

本質上,馮.諾依曼計算架構是摩爾定律在人工智能場景下失效的根因。如何通過硬件體系架構的創新,克服“存儲墻”瓶頸,實現人工智能最佳的深度學習算法運算效率,成為人工智能芯片架構創新和發展的方向。

AI芯片架構設計需要符合以下幾點要求:

符合深度學習神經網絡運算的基本需求,無論是訓練還是推斷,以及兩者的協同,在數據精度、可伸縮、可擴展能力以及功耗效率方面要滿足實際商用場景要求。

支持“近數據計算”,通過硬件架構設計,拉近運算和存儲的距離,減少數據搬移次數,降低能耗。比如支持神經網絡運算放在片上存儲器進行計算。

支持靈活伸縮和集群,支持大規模分布式并行AI訓練。比如并行運算單元內部通過超帶寬網絡進行互聯。

支持軟件定義AI芯片,滿足絕大多數復雜AI的算法的個性化定制和組合應用,通過廣泛的應用達到邊際效益,降低AI芯片成本。

華為達芬奇AI芯片架構介紹

華為公司順應趨勢,基于多年的芯片研發經驗,于2018年10月,推出全球獨創的達芬奇人工智能芯片架構,并基于此推出全棧全場景AI解決方案和首批Ascend(昇騰)系列芯片。值得一提的是,達芬奇架構針對AI運算特征而設計,以高性能3DCube計算引擎為基礎,實現了算力和能耗比(能效)的大幅提升。從云、邊緣、端獨立的和協同的AI實際需求出發,從極致低功耗,到極致大算力的AI場景,為云、邊、端之間的算法協同、遷移、部署、升級和運維,提供了統一架構底層核心支撐,大大降低了人工智能算法開發和迭代的門檻,降低企業人工智能部署和商用成本。可以說,統一、可擴展的達芬奇AI芯片架構,為華為“用得起”、“用得好”、“用得放心”的全棧全場景普惠AI戰略,提供了強大的支撐。

達芬奇架構如下:

AI芯片

(圖三:華為達芬奇芯片架構)

不同于傳統馮·諾伊曼架構,數據從處理單元外的存儲器提取,處理完之后再寫回存儲器。達芬奇架構設計一開始就考慮克服馮·諾伊曼架構導致的“內存墻”問題,在類CPU架構基礎(本質是計算優先)上,圍繞降低存儲復雜度做了進一步的創新優化(存儲優先)。如圖三所示,一方面,通過多核堆疊實現并行計算能力擴展;另一方面,通過設計了片上的存儲器(Cache/Buffer),拉近Cube運算和存儲的距離,減少對存儲器(DDR)的訪問,緩解馮·諾伊曼“瓶頸”問題;此外,運算與外部存儲之間,設計了高帶寬的片外存儲器(HBM),克服計算資源共享存儲器讀寫時的訪問速度限制。同時,為了支持更大規模云側神經網絡訓練,設計了超高帶Mesh網絡(LSU)實現多個cube擴展片上的互聯。

總結起來,達芬奇架構具備三大特征:

統一架構

支持幾十毫瓦到幾百瓦的全場景AI系列芯片。(參見圖四)

可擴展計算

每個AIcore,在一個時鐘周期可以進行完成4096次MAC運算

彈性多核堆疊,可擴展Cube:16x16xN,N=16/8/4/2/1

支持多種混合多精度(int8/int32/FP16/FP32),支持訓練和推理場景的數據精度要求

集成了張量、矢量、標量多種計算單元

可擴展內存

專用的和分布的,顯式控制的內存分布設計

4TByte/sL2Bufferç·©å­˜

1.2TByte/sHBM高帶寬內存

可擴展的片上互聯

片上超高帶寬Mesh網絡(LSU)

基于達芬奇創新架構,華為首批推出7nm的昇騰910(Ascend-Max)以及12nm的昇騰310(Ascend-Mini)。Ascend910芯片是目前全球已發布的單芯片計算密度最大的芯片。支持云側分布式大規模訓練場景,若是集齊1024個昇騰910,會出現迄今為止全球最大的AI計算集群,性能達到256個P,不管多么復雜的模型都能輕松訓練。

Ascend310芯片則是于邊緣計算推理場景高效算力和和低功耗AISoC。

基于達芬奇架構,華為公司還規劃了適用在藍牙耳機、智能手機、可穿戴設備的Ascend昇騰芯片系列(圖四:Nano、Tiny、Lite),未來將以IP方式跟其他芯片結合在一起服務于各個智能產品。目前市場面的AI芯片通常是云端訓練、邊緣推理兩款芯片,華為之所以考慮Lite等,核心原因是一些AI應用場景需要非常低的功耗。

此外,達芬奇AI芯片架構考慮了軟件定義AI芯片的能力。CANN(圖四所示)—也就是芯片高度自動化的算子開發工具,是為神經網絡定制的計算架構。CANN可以提升3倍的開發效率。除了效率之外,也兼顧算子性能,以適應人工智能應用的迅猛發展。

AI芯片

(圖四:華為全棧全場景AI架構)

在設計方面,Ascend昇騰芯片系列突破了功耗、算力等約束,實現了能效比的大幅提升(參見圖五)。以Ascend910芯片為例,半精度(FP16)運算能力為256TFLOPS,比NVIDIA的TeslaV100要高一倍,整數精度(INT8)512TOPS,最大功耗僅350W;昇騰310芯片主打極致高效計算和低功耗,半精度(FP16)運算能力8TFLOPS,整數精度(INT8)16TOPS,最大功耗僅為8W,310的TOPS/W(能效)是英偉達同類芯片NVP4的2倍之多。

AI芯片

(圖五:華為Ascend昇騰系列芯片橫跨全場景實現最優TOPS/W)

需要說明,華為不直接向第三方提供芯片,所以華為與芯片廠商,沒有直接競爭。華為提供硬件和云服務,圍繞芯片為基礎,開發AI加速模組,AI加速卡,AI服務器,AI一體機,以及面向自動駕駛和智能駕駛的MDC(Mobile-DC)進行銷售。

達芬奇架構背后的思考

與以往信息化不同,AI帶來智能化的目的,是降低企業生產成本,提高效率,這意味著AI應用將超越信息化,深入到企業生產系統,一旦進入生產系統,就必須跟線下、本地各種場景相結合。因此,這也是為何達芬奇架構設計的開始,就考慮了AI超動態、超寬范圍需求的目的。

但是,華為達芬奇架構也只是站在巨人的肩膀上做了一定的微創新,仍面臨巨大的技術難點和待攻克的難題:

雖然芯片制造工藝已處于納米級,但在類腦、基因、抗癌新藥研制等更復雜的人工智能領域,集成密度的進一步提高,將導致原子層電離泄露問題。比如,包括業界巨頭紛紛發力量子學,也正因為于此。

雖然緩解馮·諾伊曼“瓶頸”問題成為共識,但與計算核心緊耦合的片上存儲器的唯一方案SRAM,其容量僅為兆級。存儲器件工藝本身的創新仍需努力。

存儲優先模式,需要考慮多個片上存儲的封裝技術,以及多個片上存儲的管理,對軟件的復雜性要求進一步提升。

未來,在類腦智能領域(極限情況,AlphaGo消耗的能量與人類相同),能耗要求比最先進CMOS器件還要低幾個數量級。

因此,我們認為,華為在人工智能芯片技術的發展上取得了初步成果,但是AI芯片和架構設計,特別是神經網絡芯片所面臨的工程領域的挑戰遠未停止。

標簽:

點贊

分享到:

上一篇:步進電機的主要運用場合

下一篇:發動機掉速、積碳、發熱不用...

中國傳動網版權與免責聲明:凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

網站簡介|會員服務|聯系方式|幫助信息|版權信息|網站地圖|友情鏈接|法律支持|意見反饋|sitemap

傳動網-工業自動化與智能制造的全媒體“互聯網+”創新服務平臺

網站客服服務咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2025 ,All Rights Reserved 深圳市奧美大唐廣告有限公司 版權所有
粵ICP備 14004826號 | 營業執照證書 | 不良信息舉報中心 | 粵公網安備 44030402000946號

主站蜘蛛池模板: 三门峡市| 福泉市| 青铜峡市| 巴楚县| 泰顺县| 图们市| 永年县| 米易县| 咸宁市| 柏乡县| 崇仁县| 新闻| 平和县| 马公市| 德惠市| 永年县| 衡山县| 博白县| 钟山县| 六盘水市| 宁远县| 恩施市| 阿鲁科尔沁旗| 尼木县| 安远县| 丰原市| 雅安市| 玛纳斯县| 汕头市| 白银市| 云浮市| 科尔| 邯郸县| 搜索| 方城县| 济宁市| 衡南县| 西丰县| 故城县| 武汉市| 遵化市|