時間:2019-04-03 13:57:25來æºï¼šè¯ç‚ºå…¬å¸ä¼æ¥æ¥å‹™éƒ¨MKT AI解決方案總監 黃玖
å‰è¨€
æ ¹æ“šè¯ç‚ºGIV(HuaweiGlobalIndustryVisionï¼‰é æ¸¬ï¼Œ2025å¹´å…¨çƒæ–°å¢žæ•¸æ“šé‡é 計180ZB,將é 超人類處ç†èƒ½åŠ›ï¼Œ95%的數據將ä¾è³´AI處ç†ã€‚æ•¸æ“šæ˜¯ä¼æ¥é‡è¦è³‡ç”¢ï¼Œå€ŸåŠ©äººå·¥æ™ºèƒ½æ‰‹æ®µé€²è¡Œæ›´é«˜æ•ˆçš„æ•¸æ“šåˆ†æžã€è™•ç†ã€æ±ºç–,æå‡ä¼æ¥ç”Ÿç”¢æ•ˆçŽ‡å’Œæ™ºèƒ½åŒ–æ°´å¹³ï¼Œå°‡æˆç‚ºä¼æ¥ç¶“ç‡Ÿçš„æ ¸å¿ƒä»»å‹™ä¹‹ä¸€ã€‚é 計2025年,全çƒä¼æ¥å°AI的采用率將é”86%,AIçš„å´›èµ·å°‡æ·±åˆ»æ”¹è®Šä¼æ¥çš„æ¥å‹™æ¨¡å¼å’Œåƒ¹å€¼å‰µé€ 模å¼ã€‚
60年來人工智能發展雖幾起幾è½ï¼Œå»å§‹çµ‚在新興ICTä¿¡æ¯æŠ€è¡“é©…å‹•ä¸‹ä¸æ–·å–å¾—æ–°çš„çªç ´ã€‚但近些年,CPU性能未能呈ç¾å¦‚æ‘©çˆ¾å®šå¾‹é æ¸¬çš„定期翻å€ï¼Œæ¥å…§æ™®é觀點èªç‚ºæ‘©çˆ¾å®šå¾‹å·²ç¶“失效,能å¦é–‹ç™¼å‡ºå…·æœ‰è¶…高é‹ç®—能力ã€ç¬¦åˆå¸‚å ´éœ€æ±‚çš„èŠ¯ç‰‡ï¼Œå·²æˆç‚ºäººå·¥æ™ºèƒ½é ˜åŸŸå¯æŒçºŒç™¼å±•çš„é‡è¦å› ç´ ã€‚
從AlphaGoæˆ°å‹æŽä¸–石說起
2016å¹´è°·æŒAlphaGoèˆ‡åœæ£‹ä¸–ç•Œå† è»æŽä¸–石上演“世紀人機大戰â€ï¼Œå°‡äººå·¥æ™ºèƒ½çš„é—œæ³¨åº¦æŽ¨åˆ°äº†å‰æ‰€æœªæœ‰çš„高度。人工智能機器人阿爾法狗以4比1的總比分戰å‹è·æ¥ä¹æ®µæ£‹æ‰‹æŽä¸–çŸ³ã€‚æ¤æ¬¡äººæ©Ÿå¤§æˆ°ï¼Œè°·æŒDeepMindå…¬å¸å…±æ¶ˆè€—了1202顆CPUå’Œ176顆GPU的計算資æºï¼Œé˜¿çˆ¾æ³•狗的浮點é‹ç®—能力是1998å¹´IBMæ·±è—æˆ°å‹è±¡æ£‹å† è»æ™‚çš„3è¬å€ä¹‹å¤šã€‚
(圖一:AlphaGo與æŽä¸–石å°å¼ˆï¼‰
但從能效的角度,AlphaGo真的戰å‹äººé¡žäº†å—Žï¼Ÿæˆ‘們從以下方é¢åˆ†æžã€‚æˆå¹´ç”·æ€§æ¯æ—¥éœ€è¦èƒ½é‡å¤§ç´„2550åƒå¡ï¼Œ1åƒå¡(KCAL)=4.184åƒç„¦è€³(KJ),如果我們把å¡è·¯é‡Œæ›ç®—æˆç„¦è€³å¤§æ¦‚是1000多è¬ç„¦è€³ï¼Œä¸‹æ£‹1å°æ™‚,æŽä¸–石大概消耗0.7兆焦耳。AlphaGo與æŽä¸–石下棋用了1202顆CPU,176顆GPU,以1顆CPU100W,1顆GPU200W,1å°æ™‚,阿爾法狗需è¦ï¼Œ1瓦時=3600焦耳,共消耗559兆焦耳,這相當于æŽä¸–石用的能耗大約是AlphaGo能耗的八百分之一。
之åŽï¼Œè°·æŒçš„DeepMind團隊å°ç¡¬ä»¶é€²è¡Œæ”¹é€²ï¼Œå°‡é‹ç®—單元從CPUæ›ç®—æˆGPUï¼ŒåŒæ¨£ç´šåˆ¥æ¯”賽,阿爾法狗消耗雖下é™äº†12å€ï¼Œä½†ä»ç„¶æ˜¯äººé¡žèƒ½è€—çš„67å€ä¹‹å¤šã€‚
å› æ¤ï¼Œæˆ‘們看到,GPU在性能和效率上,相比CPU有很大的æå‡ï¼Œä½†å®ƒä»æ›´é©åˆå¤§è¦æ¨¡åˆ†å¸ƒå¼è¨“ç·´å ´æ™¯ã€‚éš¨è‘—5Gã€ç‰©è¯ç¶²ã€äº‘å’Œè¶…å¯¬å¸¶ä¿¡æ¯æŠ€è¡“çš„ç™¼å±•ï¼Œæ™ºèƒ½å°‡å»¶ä¼¸åˆ°æ¯ä¸€è‡ºæ™ºèƒ½è¨å‚™å’Œçµ‚端,包括å„種形å¼é‚Šç·£è¨ˆç®—,以åŠIoT物è¯ç¶²ã€æ¶ˆè²»é¡žæ™ºèƒ½çµ‚ç«¯ï¼Œç‚ºäº†å¯¦ç¾æ¥µè‡´çš„用戶體驗,這類è¨å‚™å¾€å¾€åœ¨æœ€é 近用戶的地方,需è¦é•·æ™‚間待機,å°åŠŸè€—å’Œç©ºé–“çš„ç´„æŸè¦æ˜¯éžå¸¸é«˜çš„,顯然GPUç„¡æ³•æ»¿è¶³é€™é¡žå ´æ™¯çš„éœ€æ±‚ã€‚
而人工智能的本質是幫助å„è¡Œå„æ¥æé«˜ç”Ÿç”¢æ•ˆçŽ‡ï¼Œç”¢ç”Ÿç¤¾æœƒå’Œå•†æ¥åƒ¹å€¼ã€‚è‹¥åƒAlphaGo一樣,ä¾è³´é¾å¤§ä¸”昂貴的計算資æºå¯¦ç¾ä¸€å€‹ç°¡å–®çš„å ´æ™¯ï¼Œå¯¦å‰‡å¤§æå°ç”¨ã€‚從我們å°AI需求的ç†è§£ä¾†çœ‹ï¼Œäººå·¥æ™ºèƒ½èŠ¯ç‰‡çš„ç ”ç™¼ï¼Œå¾žä¸€é–‹å§‹å°±è¦è€ƒæ…®å°å…¨å ´æ™¯æ™ºèƒ½éœ€æ±‚的覆蓋,無論是云ã€é‚Šç·£ã€é‚„是終端;無論是深度å¸ç¿’訓練,還是推ç†ï¼Œæˆ–è€…å…©è€…å…¼å…·ï¼Œè€Œä¸æ˜¯ä¸€ç¨®èŠ¯ç‰‡åŒ…æ‰“å¤©ä¸‹ã€‚å¾žäººå·¥æ™ºèƒ½èŠ¯ç‰‡ç™¼å±•æ·ç¨‹ä¾†çœ‹ï¼Œä¹Ÿæ˜¯åœ¨é€æ¥é©æ‡‰é€™å€‹éŽç¨‹ã€‚
釿–°å®šç¾©AI芯片
人工智能芯片經æ·äº†å¾žCPU->GPU->FPGA->AI芯片的發展æ·ç¨‹ã€‚
阿爾法狗的首次戰å‹äººé¡žå¯è¬‚是費了“洪è’之力â€ï¼Œæœ¬è³ªä¸Šæ˜¯åŸºäºŽé¦®.è«¾ä¾æ›¼è¨ˆç®—架構所決定的。于是具備強大并行計算能力與浮點計算能力GPU一度æˆç‚ºæ·±åº¦å¸ç¿’模型訓練和推ç†çš„æ¨™é…。相比CPU,GPUæä¾›æ›´å¿«çš„處ç†é€Ÿåº¦ï¼Œéœ€è¦æ›´å°‘çš„æœå‹™å™¨æŠ•入和更低的功耗,æˆç‚ºè¿‘些年來深度å¸ç¿’è¨“ç·´çš„ä¸»æµæ¨¡å¼ã€‚
但GPUç„¡æ³•æ»¿è¶³æ‰€æœ‰å ´æ™¯æ·±åº¦å¸ç¿’計算任務。除å‰é¢æ‰€è¿°ï¼Œå†èˆ‰å€‹ä¾‹å,比如L4自動駕駛,需è¦è˜åˆ¥é“è·¯ã€è¡Œäººã€ç´…ç¶ ç‡ˆç‰ç‹€æ³ï¼Œå¦‚果基于CPUè¨ˆç®—ï¼Œæ™‚å»¶ç„¡æ³•æ»¿è¶³è¦æ±‚ï¼Œææ€•車翻到河里還沒發ç¾å‰æ–¹æ˜¯æ²³ï¼›å¦‚果用GPU計算,雖然時延å¯ä»¥æ»¿è¶³è¦æ±‚ï¼Œä½†æ˜¯åŠŸè€—å¤§ï¼Œæ±½è»Šé›»æ± ç„¡æ³•é•·æ™‚é–“é‹è¡Œã€‚æ¤å¤–,1塊GPUå¡å°‘則è¬å…ƒå¤šå‰‡è¿‘10è¬äººæ°‘幣,無法普åŠå¤§å¤šæ•¸æ™®é€šæ¶ˆè²»è€…。
本質上,GPU䏿˜¯å°ˆé–€é‡å°AI算法開發的ASIC,人們亟需找到既能解決深度å¸ç¿’訓練和推ç†çš„é‹ç®—能力,åˆèƒ½è§£æ±ºåŠŸè€—å’Œæˆæœ¬å•題的芯片,FPGA芯片在這樣背景下誕生。
FPGAå¯ç·¨ç¨‹çš„陣列(Field-ProgrammableGateArray),作為ASICé ˜åŸŸä¸çš„一種åŠå®šåˆ¶é›»è·¯è€Œå‡ºç¾ï¼Œæœ¬è³ªä¸Šæ˜¯åŸºäºŽç„¡æŒ‡ä»¤ï¼Œç„¡éœ€å…±äº«å…§å˜çš„é«”ç³»æž¶æ§‹å‰µæ–°ï¼Œæ»¿è¶³äº†ç‰¹å®šå ´æ™¯çš„éœ€æ±‚ã€‚
FPGA主è¦é€šéŽä»¥ä¸‹æ‰‹æ®µæå‡æ€§èƒ½ã€é™ä½Žæ™‚延;減少能耗ã€é™ä½Žæˆæœ¬ï¼š
通éŽç‡’å…¥å¯é…ç½®ã€å¯å復刷寫的FPGAé…置文件來定義大é‡é–€é›»è·¯å’Œå˜å„²å™¨é–“的連線。
通éŽé…置文件,將FPGA變æˆä¸åŒçš„處ç†å™¨ï¼Œæ”¯æŒå„種ä¸åŒçš„æ·±åº¦å¸ç¿’計算任務。
FPGAä¸çš„寄å˜å™¨å’Œç‰‡ä¸Šå…§å˜ï¼Œå±¬äºŽå„自的控制é‚輯,無需ä¸å¿…è¦çš„æ²–è£å’Œç·©å˜ã€‚
æ ¹æ“šç ”ç©¶ç™¼ç¾ï¼Œå°äºŽå¤§é‡çš„矩陣é‹ç®—GPU計算能力é 高于FPGA,但是由于FPGAé«”ç³»çµæ§‹ç‰¹é»žï¼Œéžå¸¸é©ç”¨äºŽä½Žæ™‚å»¶ã€æµå¼è¨ˆç®—密集型任務處ç†ã€‚在類似海é‡å¹¶ç™¼çš„云端推斷,比如語音云è˜åˆ¥å ´æ™¯ï¼ŒFPGA相比GPUå…·å‚™æ›´ä½Žè¨ˆç®—æ™‚å»¶çš„å„ªå‹¢ï¼Œèƒ½å¤ æä¾›æ›´ä½³çš„æ¶ˆè²»è€…體驗。
但是,FPGA芯片本質上是通éŽé 編程的方法來æå‡æ€§èƒ½çš„,AI需è¦è™•ç†çš„內容往往是大é‡éžçµæ§‹åŒ–æ•¸æ“šï¼Œä¾‹å¦‚è¦–é »ã€åœ–åƒç‰ï¼Œé€™é¡žæ•¸æ“šå¾ˆé›£é€šéŽé 編程的方法得到滿æ„çš„çµæžœã€‚相å,需è¦é€šéŽäººå·¥æ™ºèƒ½èŠ¯ç‰‡ï¼Œé€²è¡Œå¤§é‡æ¨£æœ¬è¨“練和推ç†äº¤äº’,形æˆç®—法模型åŽï¼Œé›†æˆäº†AI芯片和算法的智能è¨å‚™ï¼Œæ‰èƒ½å…·å‚™æ™ºèƒ½æŽ¨ç†èƒ½åŠ›ã€‚
無論是GPU還是FPGA,雖然都å¯ä»¥é‹è¡ŒAI算法,但å‡ç¾Žä¸ä¸è¶³ï¼ŒGPUæœ¬è³ªä¸Šä¸æ˜¯å°ˆé–€é‡å°AI算法開發的ASICï¼ŒåŠŸè€—å¤§ã€æˆæœ¬é«˜ï¼›FPGA雖然架構有一定的創新,但是é 編程ç¹ç‘£ã€‚å¾žåš´æ ¼æ„ç¾©ä¸Šä¾†è¬›ï¼Œéƒ½ä¸æ˜¯AI芯片。那么,什么是AI芯片呢?我們知é“,人工智能的深度å¸ç¿’算法的數據é‹ç®—特å¾ï¼Œéœ€è¦èŠ¯ç‰‡å…·å‚™æ¯”å‚³çµ±è¨ˆç®—æ€§èƒ½é«˜å‡º2-3個數é‡ç´šã€‚綜上分æžï¼Œæˆ‘們嘗試給出如下定義:
基于ASIC(專用集æˆé›»è·¯ï¼‰ï¼Œå¯ä»¥åŸºäºŽè»Ÿä»¶éˆæ´»å®šç¾©å’Œé«˜åº¦å®šåˆ¶çš„專用芯片。一方é¢ï¼Œèƒ½å¤ 進行深度å¸ç¿’神經網絡é‹ç®—ï¼›å¦ä¸€æ–¹é¢ï¼ŒåŸºäºŽç¡¬ä»¶è¨ˆç®—架構的創新,æå‡æ·±åº¦å¸ç¿’é‹ç®—效率,é”到最佳能效(TOPS/W)的芯片,æ‰å¯ä»¥ç¨±ä¹‹ç‚ºAI芯片。
值得肯定的是,FPGA大膽é‚出了人工智能芯片硬件架構創新的第一æ¥ï¼Œå³ASIC專用集æˆé›»è·¯æ¨¡å¼ã€‚
AI芯片ä¾è³´æž¶æ§‹å‰µæ–°
如上分æžï¼ŒFPGA之所以比CPU,GPU能耗低,本質上是無指令,無需共享內å˜çš„é«”ç¾çµæ§‹å¸¶ä¾†çš„ç¦åˆ©ã€‚在探討架構創新之å‰ï¼Œæˆ‘å€‘ä¾†åˆ†æžæ˜¯ä»€ä¹ˆåŽŸå› é€ æˆäº†CPU/GPU無法滿足人工智能的需求。
ç›®å‰å¸‚é¢ä¸Šçµ•大多數AI芯片采用類CPU架構(馮.è«¾ä¾æ›¼æž¶æ§‹çš„å±€éƒ¨å„ªåŒ–ï¼‰ï¼Œæœ¬è³ªä¸Šé‚„æ˜¯â€œè¨ˆç®—å„ªå…ˆâ€æ¨¡å¼ï¼Œæ¯”å¦‚é€šéŽæ“´å±•并行計算單元來æå‡èŠ¯ç‰‡è™•ç†æ€§èƒ½ã€‚但人工智能深度å¸ç¿’神經網絡算法訓練,多個計算單元往往需è¦é »ç¹çš„å˜å„²å™¨è®€å¯«æ“作,而類CPU架構本質上還是共享å˜å„²æ¨¡å¼ï¼Œç„¡æ³•æ ¹æœ¬è§£æ±ºé¦®.è«¾ä¾æ›¼è¨ˆç®—æž¶æ§‹å…±äº«å…§å˜æ¨¡å¼å°Žè‡´çš„å˜å„²æ€§èƒ½ç“¶é ¸å•題,åˆç¨±â€œå…§å˜å¢»â€ï¼Œé¡žCPU架構示æ„如下:
(圖二:類CPU芯片架構)
深度å¸ç¿’神經網絡數據é‹ç®—特å¾è¡¨ç¾ç‚ºï¼šé«˜å¹¶ç™¼ã€é«˜è€¦åˆï¼Œä»¥åŠâ€œé«˜å¹¶ç™¼+高耦åˆâ€çš„“三高â€ç‰¹å¾ã€‚算法處ç†éœ€è¦é€²è¡Œï¼šå¤§é‡çš„計算ã€å¤§é‡çš„并行處ç†ã€ä½Žå»¶é²çš„æ“ä½œè¦æ±‚。以訓練為例,訓練éŽç¨‹æ¶‰åŠå¤§é‡æ•¸æ“šå˜å„²ï¼Œå°å…§å˜æ•¸é‡ã€è¨ªå•å…§å˜çš„帶寬和內å˜ç®¡ç†æ–¹æ³•çš„è¦æ±‚都éžå¸¸é«˜ã€‚è¦æ±‚芯片具備一定精度的浮點數é‹ç®—èƒ½åŠ›ï¼Œä¸”åŒæ™‚æ”¯æŒæ£å‘å’Œåå‘的計算éŽç¨‹å’Œå¤šæ¬¡è¿ä»£ã€‚其次,訓練éŽç¨‹éœ€è¦ä¸æ–·èª¿æ•´ç¥žç¶“網絡ä¸çš„åƒæ•¸ï¼ˆæ¬Šé‡ï¼‰ï¼ŒåŒ…æ‹¬åƒæ•¸çš„多次輸入和多次讀å–,以åŠå¾©é›œçš„æ•¸æ“šåŒæ¥è¦æ±‚,整個在線訓練éŽç¨‹åƒæ•¸çš„é »ç¹æ“作,å°å˜å„²å™¨å¸¶ä¾†éžå¸¸å·¨å¤§çš„æŒ‘戰。
本質上,馮.è«¾ä¾æ›¼è¨ˆç®—æž¶æ§‹æ˜¯æ‘©çˆ¾å®šå¾‹åœ¨äººå·¥æ™ºèƒ½å ´æ™¯ä¸‹å¤±æ•ˆçš„æ ¹å› ã€‚å¦‚ä½•é€šéŽç¡¬ä»¶é«”系架構的創新,克æœâ€œå˜å„²å¢»â€ç“¶é ¸ï¼Œå¯¦ç¾äººå·¥æ™ºèƒ½æœ€ä½³çš„æ·±åº¦å¸ç¿’算法é‹ç®—效率,æˆç‚ºäººå·¥æ™ºèƒ½èŠ¯ç‰‡æž¶æ§‹å‰µæ–°å’Œç™¼å±•çš„æ–¹å‘。
AI芯片架構è¨è¨ˆéœ€è¦ç¬¦åˆä»¥ä¸‹å¹¾é»žè¦æ±‚:
ç¬¦åˆæ·±åº¦å¸ç¿’神經網絡é‹ç®—的基本需求,無論是訓練還是推斷,以åŠå…©è€…çš„å”åŒï¼Œåœ¨æ•¸æ“šç²¾åº¦ã€å¯ä¼¸ç¸®ã€å¯æ“´å±•能力以åŠåŠŸè€—æ•ˆçŽ‡æ–¹é¢è¦æ»¿è¶³å¯¦éš›å•†ç”¨å ´æ™¯è¦æ±‚。
支æŒâ€œè¿‘數據計算â€ï¼Œé€šéŽç¡¬ä»¶æž¶æ§‹è¨è¨ˆï¼Œæ‹‰è¿‘é‹ç®—å’Œå˜å„²çš„è·é›¢ï¼Œæ¸›å°‘數據æ¬ç§»æ¬¡æ•¸ï¼Œé™ä½Žèƒ½è€—。比如支æŒç¥žç¶“網絡é‹ç®—放在片上å˜å„²å™¨é€²è¡Œè¨ˆç®—。
支æŒéˆæ´»ä¼¸ç¸®å’Œé›†ç¾¤ï¼Œæ”¯æŒå¤§è¦æ¨¡åˆ†å¸ƒå¼å¹¶è¡ŒAI訓練。比如并行é‹ç®—單元內部通éŽè¶…帶寬網絡進行互è¯ã€‚
支æŒè»Ÿä»¶å®šç¾©AI芯片,滿足絕大多數復雜AIçš„ç®—æ³•çš„å€‹æ€§åŒ–å®šåˆ¶å’Œçµ„åˆæ‡‰ç”¨ï¼Œé€šéŽå»£æ³›çš„æ‡‰ç”¨é”到邊際效益,é™ä½ŽAIèŠ¯ç‰‡æˆæœ¬ã€‚
è¯ç‚ºé”芬奇AI芯片架構介紹
è¯ç‚ºå…¬å¸é †æ‡‰è¶¨å‹¢ï¼ŒåŸºäºŽå¤šå¹´çš„èŠ¯ç‰‡ç ”ç™¼ç¶“é©—ï¼ŒäºŽ2018å¹´10月,推出全çƒç¨å‰µçš„é”èŠ¬å¥‡äººå·¥æ™ºèƒ½èŠ¯ç‰‡æž¶æ§‹ï¼Œå¹¶åŸºäºŽæ¤æŽ¨å‡ºå…¨æ£§å…¨å ´æ™¯AI解決方案和首批Ascend(昇騰)系列芯片。值得一æçš„æ˜¯ï¼Œé”芬奇架構é‡å°AIé‹ç®—特å¾è€Œè¨è¨ˆï¼Œä»¥é«˜æ€§èƒ½3DCube計算引擎為基礎,實ç¾äº†ç®—力和能耗比(能效)的大幅æå‡ã€‚從云ã€é‚Šç·£ã€ç«¯ç¨ç«‹çš„å’Œå”åŒçš„AI實際需求出發,從極致低功耗,到極致大算力的AIå ´æ™¯ï¼Œç‚ºäº‘ã€é‚Šã€ç«¯ä¹‹é–“的算法å”åŒã€é·ç§»ã€éƒ¨ç½²ã€å‡ç´šå’Œé‹ç¶ï¼Œæä¾›äº†çµ±ä¸€æž¶æ§‹åº•å±¤æ ¸å¿ƒæ”¯æ’,大大é™ä½Žäº†äººå·¥æ™ºèƒ½ç®—法開發和è¿ä»£çš„門檻,é™ä½Žä¼æ¥äººå·¥æ™ºèƒ½éƒ¨ç½²å’Œå•†ç”¨æˆæœ¬ã€‚å¯ä»¥èªªï¼Œçµ±ä¸€ã€å¯æ“´å±•çš„é”芬奇AI芯片架構,為è¯ç‚ºâ€œç”¨å¾—èµ·â€ã€â€œç”¨å¾—好â€ã€â€œç”¨å¾—放心â€çš„å…¨æ£§å…¨å ´æ™¯æ™®æƒ AI戰略,æä¾›äº†å¼·å¤§çš„æ”¯æ’。
é”芬奇架構如下:
(圖三:è¯ç‚ºé”芬奇芯片架構)
ä¸åŒäºŽå‚³çµ±é¦®Â·è«¾ä¼Šæ›¼æž¶æ§‹ï¼Œæ•¸æ“šå¾žè™•ç†å–®å…ƒå¤–çš„å˜å„²å™¨æå–,處ç†å®Œä¹‹åŽå†å¯«å›žå˜å„²å™¨ã€‚é”芬奇架構è¨è¨ˆä¸€é–‹å§‹å°±è€ƒæ…®å…‹æœé¦®Â·è«¾ä¼Šæ›¼æž¶æ§‹å°Žè‡´çš„“內å˜å¢»â€å•題,在類CPU架構基礎(本質是計算優先)上,åœç¹žé™ä½Žå˜å„²å¾©é›œåº¦åšäº†é€²ä¸€æ¥çš„創新優化(å˜å„²å„ªå…ˆï¼‰ã€‚如圖三所示,一方é¢ï¼Œé€šéŽå¤šæ ¸å †ç–Šå¯¦ç¾å¹¶è¡Œè¨ˆç®—能力擴展;å¦ä¸€æ–¹é¢ï¼Œé€šéŽè¨è¨ˆäº†ç‰‡ä¸Šçš„å˜å„²å™¨ï¼ˆCache/Buffer),拉近Cubeé‹ç®—å’Œå˜å„²çš„è·é›¢ï¼Œæ¸›å°‘å°å˜å„²å™¨ï¼ˆDDR)的訪å•ï¼Œç·©è§£é¦®Â·è«¾ä¼Šæ›¼â€œç“¶é ¸â€å•題;æ¤å¤–,é‹ç®—與外部å˜å„²ä¹‹é–“,è¨è¨ˆäº†é«˜å¸¶å¯¬çš„片外å˜å„²å™¨ï¼ˆHBM),克æœè¨ˆç®—資æºå…±äº«å˜å„²å™¨è®€å¯«æ™‚的訪å•速度é™åˆ¶ã€‚åŒæ™‚ï¼Œç‚ºäº†æ”¯æŒæ›´å¤§è¦æ¨¡äº‘å´ç¥žç¶“網絡訓練,è¨è¨ˆäº†è¶…高帶Mesh網絡(LSU)實ç¾å¤šå€‹cube擴展片上的互è¯ã€‚
總çµèµ·ä¾†ï¼Œé”芬奇架構具備三大特å¾ï¼š
統一架構
支æŒå¹¾åæ¯«ç“¦åˆ°å¹¾ç™¾ç“¦çš„å…¨å ´æ™¯AI系列芯片。(åƒè¦‹åœ–四)
坿“´å±•計算
æ¯å€‹AIcore,在一個時é˜å‘¨æœŸå¯ä»¥é€²è¡Œå®Œæˆ4096次MACé‹ç®—
å½ˆæ€§å¤šæ ¸å †ç–Šï¼Œå¯æ“´å±•Cube:16x16xN,N=16/8/4/2/1
支æŒå¤šç¨®æ··åˆå¤šç²¾åº¦ï¼ˆint8/int32/FP16/FP32),支æŒè¨“練和推ç†å ´æ™¯çš„æ•¸æ“šç²¾åº¦è¦æ±‚
集æˆäº†å¼µé‡ã€çŸ¢é‡ã€æ¨™é‡å¤šç¨®è¨ˆç®—單元
坿“´å±•å…§å˜
專用的和分布的,é¡¯å¼æŽ§åˆ¶çš„å…§å˜åˆ†å¸ƒè¨è¨ˆ
4TByte/sL2Bufferç·©å˜
1.2TByte/sHBM高帶寬內å˜
坿“´å±•的片上互è¯
片上超高帶寬Mesh網絡(LSU)
基于é”芬奇創新架構,è¯ç‚ºé¦–批推出7nm的昇騰910(Ascend-Max)以åŠ12nm的昇騰310(Ascend-Mini)。Ascend910芯片是目å‰å…¨çƒå·²ç™¼å¸ƒçš„單芯片計算密度最大的芯片。支æŒäº‘å´åˆ†å¸ƒå¼å¤§è¦æ¨¡è¨“ç·´å ´æ™¯ï¼Œè‹¥æ˜¯é›†é½Š1024個昇騰910,會出ç¾è¿„今為æ¢å…¨çƒæœ€å¤§çš„AI計算集群,性能é”到256個P,ä¸ç®¡å¤šä¹ˆå¾©é›œçš„æ¨¡åž‹éƒ½èƒ½è¼•æ¾è¨“練。
Ascend310芯片則是于邊緣計算推ç†å ´æ™¯é«˜æ•ˆç®—力和和低功耗AISoC。
基于é”芬奇架構,è¯ç‚ºå…¬å¸é‚„è¦åŠƒäº†é©ç”¨åœ¨è—ç‰™è€³æ©Ÿã€æ™ºèƒ½æ‰‹æ©Ÿã€å¯ç©¿æˆ´è¨å‚™çš„Ascend昇騰芯片系列(圖四:Nanoã€Tinyã€Lite),未來將以IPæ–¹å¼è·Ÿå…¶ä»–芯片çµåˆåœ¨ä¸€èµ·æœå‹™äºŽå„個智能產å“。目å‰å¸‚å ´é¢çš„AI芯片通常是云端訓練ã€é‚Šç·£æŽ¨ç†å…©æ¬¾èŠ¯ç‰‡ï¼Œè¯ç‚ºä¹‹æ‰€ä»¥è€ƒæ…®Liteç‰ï¼Œæ ¸å¿ƒåŽŸå› æ˜¯ä¸€äº›AIæ‡‰ç”¨å ´æ™¯éœ€è¦éžå¸¸ä½Žçš„功耗。
æ¤å¤–,é”芬奇AI芯片架構考慮了軟件定義AI芯片的能力。CANN(圖四所示)—也就是芯片高度自動化的算å開發工具,是為神經網絡定制的計算架構。CANNå¯ä»¥æå‡3å€çš„é–‹ç™¼æ•ˆçŽ‡ã€‚é™¤äº†æ•ˆçŽ‡ä¹‹å¤–ï¼Œä¹Ÿå…¼é¡§ç®—åæ€§èƒ½ï¼Œä»¥é©æ‡‰äººå·¥æ™ºèƒ½æ‡‰ç”¨çš„迅猛發展。
(圖四:è¯ç‚ºå…¨æ£§å…¨å ´æ™¯AI架構)
在è¨è¨ˆæ–¹é¢ï¼ŒAscend昇騰芯片系列çªç ´äº†åŠŸè€—ã€ç®—力ç‰ç´„æŸï¼Œå¯¦ç¾äº†èƒ½æ•ˆæ¯”的大幅æå‡ï¼ˆåƒè¦‹åœ–五)。以Ascend910芯片為例,åŠç²¾åº¦ï¼ˆFP16)é‹ç®—能力為256TFLOPS,比NVIDIAçš„TeslaV100è¦é«˜ä¸€å€ï¼Œæ•´æ•¸ç²¾åº¦ï¼ˆINT8)512TOPS,最大功耗僅350W;昇騰310芯片主打極致高效計算和低功耗,åŠç²¾åº¦ï¼ˆFP16)é‹ç®—能力8TFLOPS,整數精度(INT8)16TOPS,最大功耗僅為8W,310çš„TOPS/W(能效)是英å‰é”åŒé¡žèŠ¯ç‰‡NVP4çš„2å€ä¹‹å¤šã€‚
(圖五:è¯ç‚ºAscendæ˜‡é¨°ç³»åˆ—èŠ¯ç‰‡æ©«è·¨å…¨å ´æ™¯å¯¦ç¾æœ€å„ªTOPS/W)
需è¦èªªæ˜Žï¼Œè¯ç‚ºä¸ç›´æŽ¥å‘第三方æä¾›èŠ¯ç‰‡ï¼Œæ‰€ä»¥è¯ç‚ºèˆ‡èŠ¯ç‰‡å» å•†ï¼Œæ²’æœ‰ç›´æŽ¥ç«¶çˆã€‚è¯ç‚ºæä¾›ç¡¬ä»¶å’Œäº‘æœå‹™ï¼Œåœç¹žèŠ¯ç‰‡ç‚ºåŸºç¤Žï¼Œé–‹ç™¼AIåŠ é€Ÿæ¨¡çµ„ï¼ŒAIåŠ é€Ÿå¡ï¼ŒAIæœå‹™å™¨ï¼ŒAI一體機,以åŠé¢å‘自動駕駛和智能駕駛的MDC(Mobile-DC)進行銷售。
é”芬奇架構背åŽçš„æ€è€ƒ
與以往信æ¯åŒ–ä¸åŒï¼ŒAI帶來智能化的目的,是é™ä½Žä¼æ¥ç”Ÿç”¢æˆæœ¬ï¼Œæé«˜æ•ˆçŽ‡ï¼Œé€™æ„味著AI應用將超越信æ¯åŒ–ï¼Œæ·±å…¥åˆ°ä¼æ¥ç”Ÿç”¢ç³»çµ±ï¼Œä¸€æ—¦é€²å…¥ç”Ÿç”¢ç³»çµ±ï¼Œå°±å¿…é ˆè·Ÿç·šä¸‹ã€æœ¬åœ°å„ç¨®å ´æ™¯ç›¸çµåˆã€‚å› æ¤ï¼Œé€™ä¹Ÿæ˜¯ç‚ºä½•é”芬奇架構è¨è¨ˆçš„開始,就考慮了AIè¶…å‹•æ…‹ã€è¶…寬范åœéœ€æ±‚的目的。
但是,è¯ç‚ºé”èŠ¬å¥‡æž¶æ§‹ä¹Ÿåªæ˜¯ç«™åœ¨å·¨äººçš„肩膀上åšäº†ä¸€å®šçš„微創新,ä»é¢è‡¨å·¨å¤§çš„æŠ€è¡“難點和待攻克的難題:
é›–ç„¶èŠ¯ç‰‡åˆ¶é€ å·¥è—已處于ç´ç±³ç´šï¼Œä½†åœ¨é¡žè…¦ã€åŸºå› ã€æŠ—ç™Œæ–°è—¥ç ”åˆ¶ç‰æ›´å¾©é›œçš„äººå·¥æ™ºèƒ½é ˜åŸŸï¼Œé›†æˆå¯†åº¦çš„é€²ä¸€æ¥æé«˜ï¼Œå°‡å°Žè‡´åŽŸå層電離泄露å•題。比如,包括æ¥ç•Œå·¨é 紛紛發力é‡åå¸ï¼Œä¹Ÿæ£å› 為于æ¤ã€‚
é›–ç„¶ç·©è§£é¦®Â·è«¾ä¼Šæ›¼â€œç“¶é ¸â€å•題æˆç‚ºå…±è˜ï¼Œä½†èˆ‡è¨ˆç®—æ ¸å¿ƒç·Šè€¦åˆçš„片上å˜å„²å™¨çš„唯一方案SRAM,其容é‡åƒ…為兆級。å˜å„²å™¨ä»¶å·¥è—本身的創新ä»éœ€åŠªåŠ›ã€‚
å˜å„²å„ªå…ˆæ¨¡å¼ï¼Œéœ€è¦è€ƒæ…®å¤šå€‹ç‰‡ä¸Šå˜å„²çš„å°è£æŠ€è¡“,以åŠå¤šå€‹ç‰‡ä¸Šå˜å„²çš„管ç†ï¼Œå°è»Ÿä»¶çš„å¾©é›œæ€§è¦æ±‚é€²ä¸€æ¥æå‡ã€‚
æœªä¾†ï¼Œåœ¨é¡žè…¦æ™ºèƒ½é ˜åŸŸï¼ˆæ¥µé™æƒ…æ³ï¼ŒAlphaGo消耗的能é‡èˆ‡äººé¡žç›¸åŒï¼‰ï¼Œèƒ½è€—è¦æ±‚比最先進CMOS器件還è¦ä½Žå¹¾å€‹æ•¸é‡ç´šã€‚
å› æ¤ï¼Œæˆ‘們èªç‚ºï¼Œè¯ç‚ºåœ¨äººå·¥æ™ºèƒ½èŠ¯ç‰‡æŠ€è¡“çš„ç™¼å±•ä¸Šå–å¾—äº†åˆæ¥æˆæžœï¼Œä½†æ˜¯AI芯片和架構è¨è¨ˆï¼Œç‰¹åˆ¥æ˜¯ç¥žç¶“網絡芯片所é¢è‡¨çš„å·¥ç¨‹é ˜åŸŸçš„æŒ‘æˆ°é æœªåœæ¢ã€‚
標簽:
上一篇:æ¥é€²é›»æ©Ÿçš„主è¦é‹ç”¨å ´åˆ
下一篇:發動機掉速ã€ç©ç¢³ã€ç™¼ç†±ä¸ç”¨...
ä¸åœ‹å‚³å‹•網版權與å…è²¬è²æ˜Žï¼šå‡¡æœ¬ç¶²æ³¨æ˜Ž[來æºï¼šä¸åœ‹å‚³å‹•ç¶²]的所有文å—ã€åœ–片ã€éŸ³è¦–å’Œè¦–é »æ–‡ä»¶ï¼Œç‰ˆæ¬Šå‡ç‚ºä¸åœ‹å‚³å‹•ç¶²(www.hysjfh.com)ç¨å®¶æ‰€æœ‰ã€‚如需轉載請與0755-82949061è¯ç³»ã€‚任何媒體ã€ç¶²ç«™æˆ–å€‹äººè½‰è¼‰ä½¿ç”¨æ™‚é ˆæ³¨æ˜Žä¾†æºâ€œä¸åœ‹å‚³å‹•ç¶²â€ï¼Œé•å者本網將追究其法律責任。
本網轉載并注明其他來æºçš„稿件,å‡ä¾†è‡ªäº’è¯ç¶²æˆ–æ¥å…§æŠ•稿人士,版權屬于原版權人。轉載請ä¿ç•™ç¨¿ä»¶ä¾†æºåŠä½œè€…ï¼Œç¦æ¢æ“…自篡改,é•è€…è‡ªè² ç‰ˆæ¬Šæ³•å¾‹è²¬ä»»ã€‚
相關資訊