傳動網 > 新聞頻道 > 技術前沿 > 資訊詳情

自稱是“人工智能優先”的巨頭——谷歌,揭秘其云平臺是如何運行的?

時間:2018-07-04

來源:網絡轉載

導語:在用搜索引擎和安卓系統重新定義了現代互聯網之后,谷歌又走在了下一代計算機研究和開發浪潮的最前沿:人工智能。

【自稱是“人工智能優先”的巨頭——谷歌,揭秘其云平臺是如何運行的?】在用搜索引擎和安卓系統重新定義了現代互聯網之后,谷歌又走在了下一代計算機研究和開發浪潮的最前沿:人工智能。許多人認為人工智能和神經網絡計算機是計算機的下一步,通過使用新的用例和更快的計算來解決目前無法解決的問題。這家搜索巨頭現在自稱是“人工智能優先”的公司,并且在很多方面都引領著這項技術的應用。

神經網絡算法和機器學習技術已經成為了谷歌很多服務的核心。谷歌在Gmail中過濾垃圾郵件、優化目標廣告、并且在用戶與GoogleAssistant交談的時候分析聲音。在智能手機的內部,就像谷歌眼鏡和三星Bixby這樣的想法都展示了人工智能的視覺處理能力,就連Spotify和Netflix這樣的公司都在使用谷歌的云服務來為用戶量身定制內容。

谷歌的云平臺正在不斷努力,利用這個日益流行的計算領域。但是,這個新領域需要新的硬件才能更高效的運行,而且谷歌自己在硬件開發上也投入了大量的資金,并且將其命名為CloudTPU。這種定制的硬件被塞進了谷歌的服務器,并且已經開始為當前和擴展后的人工智能生態系統提供了動力。

那么它是如何運作的呢?

TPUvsCPU:尋找更高的效率

今年早些時候,谷歌在I/O開發者大會上推出了第二代TPU,為更強的集群提供了更高的性能和更好的擴展能力。TPU是一種特定于應用程序的集成電路,它是專門為特定用例設計的自定義集成電路,而不是像CPU那樣一般的處理單元。該單元的設計目的是處理常見的機器學習和神經網絡計算,用于訓練和推理,特別是矩陣相乘、點積和量子化的變換,通常只有8位的精度。

雖然這些計算同樣可以在CPU上完成,有時甚至在GPU上效率更高,但是在夸操作類型的擴展時,這些架構在性能和能源效率方面非常有限。例如IEEE7548位證書相乘優化設計可以比16位浮點優化設計性能高出5.5倍,具有6倍的預期效率。它們在能量方面的效率縮小了27倍,IEEE754是用于所有現代CPU浮點計算的技術標準。

此外,許多神經網絡用例需要從用戶的角度來進行低延遲和幾乎瞬時的處理。這支持特定任務的專用硬件,而不是試圖將典型的高延遲圖形架構適用于新的用例。而訪問外部RAM內存延遲也非常昂貴。

在大型數據中心,用CPU或GPU執行神經網絡功能時,電力和區域的低效率可能導致出現巨大的成本支出。不僅僅是在硅和設備上,而且還會長時間浪費能源。谷歌知道,如果機器學習能以一種有意義的方式發揮作用,它需要的硬件不僅能提高性能,而且還能提供比CPU和GPU更好的能源效率。

為了解決這一問題,谷歌著手專門設計了TPU,以提供比現有GPU更好的10本成本性能改進。最終的設計是一個可以附加到通用PCIe總線上的協同處理器。它可以與普通的CPU一起工作,可以通過它的指令和處理流量,以及通過設計成為一種附加組件來加速時間部署。結果在進行5個月的研發之后,這項設計就被使用在了谷歌的數據中心。

TPU

今年早些時候,谷歌發布了一個全面的對比,將TPU性能與效率與Haswell架構CPU和NVIDIATeslaK80GPU進行對比,讓我們更加深入的了解了處理器的設計。

谷歌TPU的核心是一個矩陣相乘單元,該單元包含了65538八位倍增器硬件單元,專門用于計算兩個數字的乘積,并將其添加到一個累加器中。當使用浮點數進行操作的時候,這被稱作FMA。也許你還記得,這是ARM為優化其最新的CortexA75和A55CPU以及Mali-G72努力的結果。

與CPU或GPU不同,在將數據發送到算數邏輯單元時,每個操作都可以訪問多個寄存器,這個Mac實現了一種收縮設計,它可以讀取一次寄存器,并在長時間的計算中重新使用該價值。在TPU中,這是可能的結果,因為它的簡化設計可以讓我們看到在相鄰的連接中,ALU執行乘法和加法,而不需要任何內存訪問。折現值了設計在可能的功率上表現,但是極大的提高了它們的性能和效率。

在數字方面,谷歌的TPU可以除了65536個多數據,并且為每個周期添加8位證書。考慮到TPU運行在700MHz的情況下可以計算65536×7億次或者在矩陣單元中每秒92兆(萬億次操作)。谷歌表示,它的第二代TPU可以提供最多180兆浮點性能。與典型的標量RISC處理器相比,它的并行吞吐量要高得多,后者通常只在一二時鐘周期或更多的指令下傳遞一個操作。

矩陣相乘單元的16位產品在矩陣單元下的32位累積器收集。還有一個24MB的SRAM的統一緩沖區,它作為寄存器工作。控制處理器的指令通過PCIe總線從一個CPU發送到TPU。這些都是非常復雜的CISC類型指令,專門用來運行每個指令的復雜任務,例如大量的多添加計算。這些指令被傳遞到一個4階段的管道中。TPU總共只有12條指令,其中最重要的5條是簡單的讀寫結果。

總體來說,谷歌的TPU更現實浮點協處理器的原始想法,而并非GPU。它是一個讓人意外的精簡版硬件,只包含了一個主要的處理元素和一個簡單的簡化控制方案。沒有緩存、分支預測器、多處理連接,或者將一個普通CPU中找到的其他微架構特性,這也有助于在硅和電力消耗上節省大量的能源。

性能方面,谷歌表示自己的TPU設計通常比CPU能提供更好的性能與瓦特比,比在GPU上運行的性能高出29倍。這種芯片設計不僅能提高能源效率,而且還能提供更好的性能。在六種常見的參考神經網絡工作負載中,TPU在所有測試中都提供了顯著的性能優勢,通常比GPU快20倍或更多,比CPU處理快了71倍。當然,這些結果會根據CPU和GPU的類型而有所不同,但都經過了谷歌的測試。谷歌還專門對高端的英特爾Haswelle5-2699v3和NVIDIAK80進行了測試,更深入的了解硬件特性。

與英特爾合作的邊緣計算

谷歌在硬件上的努力讓它在云計算領域有了一個良好的開始,但并不是所有的人工智能技術都能很好地將數據傳輸到如此遙遠的距離。一些應用實例,比如自動駕駛汽車,需要幾乎即時計算,因此不能依賴于互聯網上的高延遲數據傳輸,即使云計算的計算能力非常快。相反這些類型的應用程序需要在設備上本地完成,同樣的道理適用于許多智能手機應用程序,比如攝像頭對圖像的處理。

在Pixel2智能手機上,谷歌悄悄的進行了第一次嘗試,將神經網絡功能引入專門的硬件,以適應低功耗的移動版本:PixelVisualCore。有趣的是,谷歌與英特爾合作開發了這枚芯片,這表明它并不完全是一種谷歌內部完成的設計。我們不知道這種伙伴關系雙方都付出了什么,但可能只是制造與更多的連接性有關。

最近一段年時間,英特爾收購了多家人工智能公司,比如2016年的NervanaSystems、去年9月的Movidius、今年3月的Mobile。我們也知道英特爾有自己的神經網絡處理器,位于它的神經網絡之下。這一產品是英特爾收購Nervana公司的結果。我們對這種處理器不太了解,但它是為服務器設計的,使用一種稱為Flexpoint的低精度數字格式,,并且以每秒8兆的速度進行內存訪問。并且將與谷歌的TPU競爭。

第一眼看上去,Pixel的硬件與谷歌的硬件設計完全不同,考慮到不同的預算,這也并不讓人感到意外。盡管我們對谷CoudTPUVisualCore架構并不了解,但我們可以發現一些類似的功能。設計中的每個圖像處理單元都提供512個算術邏輯單元,總共有4096個。

同樣,這意味著一個高度并行的設計,能夠同時處理大量的數據,即使是經過縮減的設計,也可以每秒執行3萬億次操作。很明顯,這個芯片的數字單元比谷歌的TPU要少得多,但毫無疑問它的不同之處在于主要是為了增強圖像的功能而設計,不是谷歌在云計算中運行的各種神經網絡。然而它是一種類似的、高度并行的設計,能夠執行特定的操作。

谷歌未來是否堅持這一設計,并繼續與英特爾合作,以獲得邊緣計算能力,還是依賴于其他公司開發的硬件,還有待觀察。

總結

也許谷歌最出名的產品是它的軟件,但是當需要為新一代的人工智能計算提供動力的時候,谷歌同樣在硬件開發和部署方面頗有心得。

谷歌定制的TPU提供了大型云平臺計算能力,能夠部署機器學習技術,提供必要的能源效率。相對于通用的CPU和GPU硬件,它還為特定的硬件帶來了顯著的性能提升。我們在移動領域也看到了類似的趨勢,集成芯片廠商正越來越多的開始選擇專用的DSP硬件,用來高效的執行密集型算法。谷歌也將成為這個市場的主要硬件廠商。

我們還在等待谷歌的第一代人工智能智能手機硬件出現,包括PxielVisualCore在內。這枚芯片很快就會被用于更快的HDR處理器,并且毫無疑問將在未來人工智能測試和產品中扮演重要的角色,比如現在的Pixel2智能手機。目前,谷歌正引領者云平臺的硬件軟件支持。值得注意的是,英特爾、微軟、Facebook、亞馬遜和其它競爭對手都已經開始在這一領域發展。

隨著機器學習和神經網絡技術在云計算和智能手機等設備上的應用越來越多,谷歌早期在硬件方面的努力已經使自己成為了下一代計算機領域的領導者。

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0