六月二十日,中國超算首次超過美國的消息不脛而走,給這個驕陽當頭的六月更添了一把火,舉國上下為之振奮。許多媒體也推波助瀾,從標題到內容充滿了民族自豪感,特別是“神威·太湖之光”超級計算機第一次使用的中國自主知識產權的處理器芯片,讓這次中國超算超美有了更深層次上的意義。中國超算整機排名世界第一,國產處理器芯片功不可沒。雖然國產處理器芯片與世界先進水平相比還有不小的差距,我們終于也可以揚眉吐氣一把了!
一、是美國禁運倒逼的結果?
很多人在看到這條消息時,都引用了毛主席當年說過的一段話:“封鎖吧!封鎖個十年、八年,中國的一切事情都解決了!”
這次中國超算首超美國,其中一個大背景就是美國政府對中國高科技產品和技術的“禁運”。在2008年的全球超級計算機500強榜單里,中國在前100名里沒有一席之地。隨著中國人的發力,世界超算的格局在迅速改變。2010年6月的排名,中國的星云超級機排名世界第二;一年后,中國又推出了天河1A超級機,超過了原處第一位的美國美洲虎。2013年,中國推出了“天河2”,并在此后的三年里保持“六連冠”,穩坐第一把交椅。
中國的超級機在“天河2”之前,一直是采用英特爾處理器。星云排名世界第二,使用了兩萬多個英特爾的六核至強(EXON)X5650芯片。“天河1A”也是使用了英特爾的至強服務器芯片和NVIDIA的顯示芯片。蟬聯六個第一的“天河2”采用的是英特爾的至強2692服務器芯片和PHI31S1P協處理器芯片。
就在“天河2”計劃將性能從33.86PF提升到110PF繼續保持世界領先時,美國商務部以可能涉及核武計算為由,禁止英特爾向中國提供可供升級的PHI協處理器芯片,同時也禁止NVIDIA與AMD向中國出口顯卡芯片(GPGPU)。可是結果卻事與愿違,一年后中國的超級機不僅保持了第一,而且總量還超過了美國。最令人震驚的是中國的超級機完全使用了中國自己生產研發的國產處理器芯片。
二、“買不到的”中國就可以造出來
有人說要感謝美國政府的禁運,禁運倒逼了中國研發自主CPU的進度,只要是買不到的中國就可以造出來。這個邏輯果真是這樣嗎?我們憑什么實力可以研發出自己的處理器芯片?
超算的核心技術除了處理器芯片(CPU),還有微體系結構、存儲系統、指令系統、應用軟件,以及功耗和可靠性等指標。CPU雖是其中一環,但卻是最具象征意義的一環。
“太湖之光”是第一臺全部采用國產CPU構建的世界第一的超級計算機。從披露的資料看,這臺超算機使用的處理器芯片是一款通用數字信號處理器(GPDSP),因為數字信號處理器有比較高的雙精浮點性能,完全可以替代英特爾的至強PHI芯片。美國的芯片禁運反而縮短了中國的研制周期,使我們搞出了完全自主的高性能處理器和完全自主可控的超級計算機,西方的芯片禁運對中國可謂利大于弊。
太湖機體系結構是自主設計的異構設計。這個源于CELL結構的設計,就是我們熟悉的GPU通用計算(GPGPU)結構。“太湖之光”采用了CPU和GPU的異構組成。GPU的優勢在于核心數非常多,一般可以過百上千,與民用CPU不超過8核16線程的數量相比非常懸殊,因此在一些計算場合下效率要比CPU高很多,而這些場合正是通用計算的優勢。簡單說就是CPU處理復雜任務,GPU處理簡單但量大的“暴力”計算。
太湖機采用的申威26010芯片在眾核處理器體系結構方面有重大原始創新,采用了片上融合的異構眾核架構,可支持多CPU工作。該芯片有260核。整個系統具有1000多萬個核。
三、國產處理器芯片研發的艱難之路
這次超算超美讓申威處理器芯片“一夜成名”。相比另一款知名度較高的“龍芯”,申威顯然低調了許多。龍芯的產業化是國家“核高基”重點支持項目,作為與載人航天、探月工程并列的16個重大科技專項之一,可見國家對國產處理器芯片的重視程度絕非一般。
申威的技術源于DECAlpha21164,這是一款在90年代盛極一時的高性能服務器/工作站處理器,采用精簡指令集(RISC)架構。申威處理器歷經了三代產品。第一代申威2006年問世,采用單核設計、130nm制程工藝及900MHz工作頻率。第二代申威2008年發表,采用雙核設計、130nm制程工藝及1.4GHz工作頻率。第三代申威1600,內建16個RISC64位核,65nm制程工藝及975-1200MHz工作頻率。
作為國內知名度最高的龍芯CPU,其命運多舛遠不及申威。龍芯第一代、第二代產品只能用在嵌入式方案和入門級筆記本計算機市場。第三代突破了多核心設計(支持4-8核),開始進軍服務器市場。龍芯的新一代產品采用40納米制程,主頻1GHz,是當今英特爾、AMD的1/3。如果采用28納米制程,可大幅提升工作頻率,龍芯還有很長的路要走。
龍芯自2010年起基本依賴市場化運作自負盈虧。而申威專注超算市場不存在龍芯在PC市場遇到的軟件生態貧乏、產業聯盟弱小導致產品缺乏競爭力的困境。龍芯的出路在軍方和航天市場,它的抗輻射版本已進入到北斗衛星領域。在商場上龍芯還不具備和英特爾、AMD競爭的能力,畢竟差距太大,新一代龍芯的絕對性能只是英特爾第四代CPU的20%~30%。
四、國產CPU與世界先進水平的差距在哪里?
中國并不缺乏高性能CPU研制計劃,中國在先進CPU研發已有20多年,特別是2011年中國啟動“核高基“項目以后,CPU研發取得飛快進步。反觀十多年前中國并沒有生產任何高性能CPU的能力。
目前能夠代表國產CPU發展水平的有“申威”、“龍芯”,以及在移動通信領域表現搶眼的的華為(海思)手機處理器。華為(海思)智能手機處理器(K3V2),構架采用ARM授權的Cortex-A9架構,40納米制程,是業界體積最小的4核CPU,內建有16核GPU。三種CPU共同點是均避開Intel和AMD的x86構架。其次是在發展自己的CPU技術時,有效化借用了先進的總線、主機芯片組技術。
國產CPU和英特爾的差距不僅僅是主頻上的差距,還有微結構上的差距。微結構的差距可以使CPU的性能相差占比在40%左右,CPU的安全性、性能、功耗主要取決于微結構。國產CPU陣營里宏芯、兆芯、展訊、海思都沒有自主微結構設計。只有龍芯、飛騰有自己的微結構設計,但與英特爾相比仍有不小的差距。
五、現階段國產處理器面臨的主要問題
(1)缺乏軟件支持:在處理器研發時,要有配套的應用軟件一起使用。如果缺少操作系統對處理器的支持,那么其開發難度將會加大,所以對軟件的支持對國產處理器的研制意義十分巨大。
(2)性能較弱:國產處理器無論是在生產上,還是在應用測試上都存在很大挑戰,其總體水平與國際水平還有一定的差距。例如主頻,國產CPU的水平是1.6~2GHz,而國際上的主流處理器已經超過了4GHz。性能較弱,國家對于軟件的重視程度不夠,這也是國產處理器未能快速發展的原因之一。
六、結語
國產CPU最新的研究成果是上海高性能集成電路設計中心設計的國產眾核芯片。該芯片采用28納米制程,峰值雙精度浮點運算技術超過每秒3萬億次(3TFlops)。這個指標完全追平了英特爾第二代至強PHI芯片。第二代至強PHI采用14納米制程,雙精度浮點運算性能超過3TFlops。希望這一國產CPU新秀能早日實現產業化。
我國的CPU研發正處在一個新的階段。“太湖之光”超算超美是一個標志性的事件,預示著國產處理器在研發和產業化方面發力正當時。但縱觀處理器的全球市場,國產CPU芯片還有很長的一段路要走。處理器的研發不是一個人或是短時間內就可以發展起來的,而是需要大量的人力以及財力,在國家層面推動對處理器研發的重視。處理器體現的是一個國家科技水平強弱,大到關系著整個國家的信息安全,發展自主研發的處理器不僅是體現國家科學進步的最佳方式,也是反映一個國家IT行業進步的指標性產業。因此國產處理器研發之路仍然任重而道遠。
更多資訊請關注電力電子頻道