傳動網 > 新聞頻道 > 產品新聞 > 資訊詳情

NVIDIA推出GPU加速平臺RAPIDS,提升機器學習效率

時間:2018-11-01

來源:網絡轉載

導語:NVIDIA于今年10月10日的GPU技術大會上發布了一款針對數據科學和機器學習的GPU加速平臺---RAPIDS。

【中國傳動網 新品新聞】 NVIDIA于今年10月10日的GPU技術大會上發布了一款針對數據科學和機器學習的GPU加速平臺---RAPIDS。

作為科技行業的熱點,人工智能(AI)與機器學習正持續受到業界的關注。調研機構Gartner表示人工智能和先進的機器學習技術是被廣泛關注的新興技術,將在企業甚至整個行業中掀起革命浪潮。它們能夠大幅度降低勞動力成本,產生意想不到的新見解,從原始數據中發現新模式,并建立預測模型。據分析師估計,面向數據科學和機器學習的服務器市場每年價值約為200億美元,加上科學分析和深度學習市場,高性能計算市場總價值大約為360億美元。

“數據分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現加速。”NVIDIA創始人兼首席執行官黃仁勛在GPU技術大會主旨演講中表示,“全球最大的行業均在海量服務器上運行機器學習算法,目的在于了解所在市場和環境中的復雜模式,同時迅速、精準地做出將直接影響其基礎的預測。”

在這種趨勢下,NVIDIA于今年10月10日的GPU技術大會上發布了一款針對數據科學和機器學習的GPU加速平臺---RAPIDS。日前,NVIDIA在京召開了媒體溝通會,系統講解了RAPIDS的應用場景、平臺性能和生態策略。在NVIDIA亞太區解決方案架構高級總監趙立威看來,RAPIDS能夠幫助超大規模公司以前所未有的速度分析海量數據并進行精準的業務預測,顯著提升端到端預測數據分析能力。

圖NVIDIA亞太區解決方案架構高級總監趙立威

后摩爾時代下的GPU加速需求

眾所周知,機器學習包含了數據、特征以及算法。趙立威介紹對于數據科學家而言,一個標準的系統流程是數據準備、數據訓練與可視化呈現三個步驟,其中數據準備主要進行數據特征的提取、數據的合并以及降維等;數據訓練則是一個不斷循環的過程,通過參數調整、優化使精度更高;最后進行上線展示,從而進一步運營。

圖數據科學通用流程

隨著大數據技術的快速發展,不管是在數據處理還是訓練的過程,都需要大量的計算力,而在后摩爾時代,數據的增長量遠遠超過了計算力,基于Hadoop、SPARK的分布式節點加速會越來越困難。趙立威表示雖然市場出現了GPUDatabase技術,但并沒有把數據的準備、操作、ETL過程和機器學習訓練整合成一個pipeline。對于GPU加速深度學習而言,它本質是加速了計算的應用,而數據分析和機器學習目前是最大的HPC應用分支,伴隨著未來高速增長,它對計算力有著巨大的需求。對此,NVIDIA推出GPU加速平臺RAPIDS,該平臺已與全球最流行的數據科學庫及工作流無縫整合,可加速機器學習,如包括Anaconda、BlazingDB、Graphistry、NERSC、PyData、INRIA和UrsaLabs在內的主要開源貢獻者,都在RAPIDS推出后立即給予了其廣泛的生態系統支持。

這里,趙立威展示了一個形象的例子,在過去數據工程師每天的大部分時間都在喝咖啡中度過,因為數據處理的過程中涉及到大量等待時間。應用RAPIDS后,相較于下圖左邊的等待時間,右圖的效率得到了大大的提高,數據科學家可與更加專注與建模、測試與進行數據分析工作。RAPIDS為數據科學家提供了他們需要用來在GPU上運行整個數據科學管線的工具。最初的RAPIDS基準分析利用了XGBoost機器學習算法在NVIDIADGX-2?系統上進行訓練,結果表明,與僅有CPU的系統相比,其速度能加快50倍。這可以幫助數據科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘,具體取決于其數據集的規模。

圖數據科學家應用RAPIDS的日常對比

開源生態提升數據分析能力

趙立威介紹RAPIDS構建于ApacheArrow、pandas和scikit-learn等流行的開源項目之上,為最流行的Python數據科學工具鏈帶來了GPU提速。為了將更多的機器學習庫和功能引入RAPIDS,NVIDIA廣泛地與開源生態系統貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、UrsaLabs負責人兼ApacheArrow締造者WesMcKinney以及迅速增長的Python數據科學庫pandas等等。

從硬件的角度,除了NVIDIA的DGX-2、DGX-1、DGXstation外,RAPIDS還包括一系列合作伙伴基于HGX-1、HGX-2兩種架構提供的硬件產品。此外,NVIDIA也在跟下游的ODM、OEM廠商合作,進一步拓展RAPIDS的運行和使用。

目前,趙立威介紹包括HPE、IBM、Oracle、開源社區、創業公司等都在積極采用RAPIDS,顯著提升端到端預測數據分析能力。例如沃爾瑪已經采用RAPIDS實現了復雜模式大規模地運行,同時進行更加精準的預測。最后,他總結RAPIDS包含以下特點:

無憂一體化:只需要使用最少的代碼加速Python數據科學工具鏈,不需要重新編碼或者使用新工具;

在任何GPU上擴展:從GPU工作站到多GPU服務器的無縫擴展多節點集群;

頂級模型精度:通過更快地迭代模型來提高機器學習模型的準確性,并更迅捷地實現部署;

減少培訓時間:通過交互數據科學大幅提高工作效率;

開源可定制,可擴展,可互操作:這里趙立威特別強調開源一方面是指NVIDIA支持并基于ApacheArrow構建,與PYTHON、SPARK、DASK等所有開源社區保持緊密合作;另一方面,因為RAPIDS本身的開源特性,未來也希望有跟多的開發者能夠貢獻代碼,不斷的完善平臺、豐富它的基礎特性、服務于更多的應用場景。

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.hysjfh.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統
  • 工業電源
  • 電力電子
  • 工業互聯
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯接
  • 工業機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0