編者按:人工智能技術的發展催生了大規模數據中心建設需求,提高日趨復雜的數據中心建設部署效率,正在成為算力行業的競爭焦點。日前,是德科技推出了全新的KAI系列仿真驗證解決方案,通過仿真真實世界的AI工作負載來驗證數據中心集群組件,從而在數據中心實際部署前洞察系統設計性能,提高數據中心部署效率。
作為人工智能技術落地的重要基礎設施,大規模AI數據中心是一個復雜的系統,計算、存儲和網絡通信功能實現包含了芯片、電纜、互連、交換機、服務器和圖形處理單元(GPU)等硬件以及操作系統、驅動程序等軟件,而讓信息流和任務流在所有硬件之間、軟件之間以及軟硬件協同地高效流動,考驗著數據中心建設工程師智慧與能力。
為了避免被動調整建設方案并提高部署效率,在工程設計階段面向組件級和系統級分別開展仿真驗證,通過使用全棧工作負載仿真補充物理層測試,識別單獨測試組件時未發現的漏洞,客戶可以更快地提取峰值AI性能,更快地增加容量,最大化在AI集群上的投資回報。
日前,全球知名的測試測量企業,是德科技整合了在網絡流量仿真、網絡組件、網絡合規驗證以及最新行業標準方面的深厚經驗,通過模擬、驗證數據中心在AI計算、網絡、互連和能源效率等方面的性能,面向當下火熱的AI數據中心建設需求,推出了全新KAI系列解決方案,旨在幫助數據中心迎接大帶寬、高速率的數據傳輸挑戰。
是德科技大中華區高速數字市場部經理李堅表示,是德科技對AI產業發展持非常樂觀的態度,AI該產業正處于成長期,AI數據中心網絡還存在很多的需要解決的問題,業界需要全面地從物理層到網絡層,憑借模擬真實環境的仿真系統來探尋解決問題的方法。
全新的KAI系列解決方案,可以幫助AI提供商、半導體制造商和網絡設備制造商均獲得創新能力。
據李堅介紹,“KAI”是是德科技面向AI產業而推出的創新解決方案,旨在加速AI數據中心復雜系統的設計和部署,提高建設效率和降低成本。
首先是加速設計進程,通過調試先進的高速數字設計,滿足或超過最新的PCIe、DDR和CXL等標準。
其次是加速系統開發,驗證組件級合規性,包括高速互連、電纜和芯片組,并在系統級層面驗證工作負載性能。
第三可以加速部署和運營,通過對整個數據中心驗證和優化系統級性能,使用端到端仿真在大規模部署前找出系統性能問題,降低工作負載失敗的風險。
是德科技此次推出的三款新產品可助力客戶應對AI數據中心部署的行業挑戰。
KAI數據中心構建器
AI服務提供商使用各種并行處理策略來加速AI模型訓練,將模型并行與AI集群拓撲和配置協同可以提高訓練性能。
AI網絡通信有兩個非常重要的特點,一是節點之間要進行大量的數據交換,每個神經元之間,每個GPU之間在這個超級節點里都要進行大量的數據交換;二是“突發”即在短時間里進行大規模數據交換。如何通過軟件仿真真實的數據中心流量和通信特征,發現提高GPU和網絡利用效率系統部署方案,正是數據中心建構工程師希望得到的“錦囊”。
李堅表示,KAI數據中心構建器的工作負載仿真解決方案可以再現真實AI訓練任務的網絡通信模式,加速模型訓練優化所需的學習曲線,并更深入洞察性能下降的原因,這些是現實AI訓練任務過程中難以獲得的。
KAI數據中心構建器的工作負載模擬功能將大型語言模型(LLM)和其他人工智能(AI)模型訓練所需要的工作負載集成到AI基礎設施組件的設計和驗證中——包括網絡、主機和加速器,實現了硬件設計、協議、架構和AI訓練算法之間的更緊密協同,提升系統性能。
互連與網絡性能測試儀
一直以來,驗證網絡互連性能需要手動操作,耗費大量時間,自動化程度有限或根本無法實現,該過程還缺乏一個集中系統來整理和存儲互連數據及報告,因此很難跟蹤和復制測試和配置。隨著AI和數據中心互連的多樣性和規模不斷增加,這些傳統測試方法無法準確預測和衡量當今復雜AI網絡的可靠性。
李堅表示,新的互連和網絡性能測試系統通過INPT-1600GE搭配ITS軟件,可以作為一個整體系統,智能地組織、存儲和使用數據,實現高速以太網網絡和AI數據中心中的互連自動化驗證。
DCA-M采樣示波器
為了應對高速數據傳播需求,業界普遍采用1.6T光互連解決方案,而該方案在AI數據中心網絡的快速部署帶來了顯著的測量挑戰。在制造過程中,自動化測試必須高效、可擴展且精確,以驗證大量關鍵參數,確保高吞吐量和產量,同時滿足數據中心要求并符合行業標準。
數據速率極高且信號完整性要求嚴格,工程師需要在廣泛的操作條件下對收發器的性能進行表征和驗證,這需要具有卓越帶寬、低噪聲和高靈敏度的精確測試設備。
據李堅介紹,DCA-M采樣示波器提供高達224 Gbps/通道的高速光信號分析,專為滿足1.6T收發器光學測試的嚴格要求而設計,具有高光學測量靈敏度和集成時鐘恢復功能,支持高達120 GBaud的數據速率,完全滿足數據中心AI集群的下一代光互連的研發和制造需求。