123,123,123

你的位置：首頁 > 傳感技術 > 正文

瞄準五大方向持續(xù)攻關，構建AI網絡底座

發(fā)布時間：2024-09-03 來源：是德科技責任編輯：lina

【導讀】如果企業(yè)擁有數據中心，需要關注的是人工智能（AI）技術可能很快就會部署到數據中心。無論AI系統(tǒng)是一個聊天機器人，還是橫跨多個系統(tǒng)的自動化流程，亦或是對大型數據集的有效分析，這項新技術都有望加速和改善許多企業(yè)的業(yè)務模式。然而，AI的概念也可能會令人產生困惑和誤解。是德科技的這篇文章旨在探討有關AI網絡如何工作以及該技術面臨的獨特挑戰(zhàn)等五個方面的基本問題。

如果企業(yè)擁有數據中心，需要關注的是人工智能（AI）技術可能很快就會部署到數據中心。無論AI系統(tǒng)是一個聊天機器人，還是橫跨多個系統(tǒng)的自動化流程，亦或是對大型數據集的有效分析，這項新技術都有望加速和改善許多企業(yè)的業(yè)務模式。然而，AI的概念也可能會令人產生困惑和誤解。是德科技的這篇文章旨在探討有關AI網絡如何工作以及該技術面臨的獨特挑戰(zhàn)等五個方面的基本問題。

GPU相當于AI計算機的“大腦”

簡單來說，AI計算機的大腦就是圖形處理器（GPU）。過去，人們可能聽說過中央處理器（CPU）是計算機的大腦。GPU 的優(yōu)勢在于，它是一個擅長進行數學計算的 CPU。當創(chuàng)建AI計算機或深度學習模型時，需要對其進行 “訓練”，這就要求對可能包含數十億個參數的數學矩陣方程進行求解。進行此種數學運算的最快方法是讓多組 GPU 在相同的工作負載上運行，即便如此，訓練AI模型也可能需要數周甚至數月的時間。AI模型創(chuàng)建后，會被遷移到前端計算機系統(tǒng)，用戶可以向模型提問，這就是所謂的推理。

AI計算機集眾多GPU于一身

用于處理AI工作負載的最佳架構是在一個機架中集成一組GPU, 并將其連接到機架頂部的交換機中。還可以有更多的 GPU 集成機架，按照網絡層次結構連接所有 GPU。隨著所要解決的問題的復雜性增加，對 GPU 的需求也就越大，有些將要部署的解決方案可能會包含數千個 GPU 集群。這不難讓人聯(lián)想到數據中心里一排又一排密密麻麻的服務器機架，這種場景非常常見。

AI集群是一個小型網絡

在構建AI集群時，有必要將更多GPU連接起來，這樣它們才能協(xié)同工作。而GPU之間的連接可以通過創(chuàng)建微型計算機網絡的方式來實現，讓GPU與GPU之間能夠互相發(fā)送和接收數據。

瞄準五大方向持續(xù)攻關，構建AI網絡底座

圖1：AI集群

圖1展示了一個AI集群，其中最下方的圓圈代表了GPU在執(zhí)行任務時的工作流程。將許多GPU連接到了機架頂部（ToR）的交換機。ToR 交換機還連接到了上圖頂部的骨干網絡中使用的交換機，這張圖充分描繪了需要集成眾多GPU時所采用的清晰網絡層次結構。

AI部署的瓶頸在于網絡

去年秋天，在OCP（開放計算項目）全球峰會上，與會者重點討論了新一代AI基礎設施。其中，來自邁威爾科技的Loi Nguyen充分闡述了由此出現的一個關鍵問題：網絡已經成為新的瓶頸。

GPU在解決數學問題或者處理工作負載方面非常有效。這些系統(tǒng)完成任務的最快方法是讓所有 GPU并行計算、協(xié)同工作來處理相同的工作負載。要做到這一點，GPU需要獲取它們即將處理的信息，并且它們彼此之間可以互相進行通信。如果其中一個GPU沒有得到它所需的信息，或者需要更長的時間來輸出結果，那么所有其他GPU都必須等待，直到能夠一致協(xié)作來完成任務。

從技術角度來講，擁堵的網絡造成的數據包延遲或者數據包丟失可能會導致系統(tǒng)需要反復重新傳輸數據包，并顯著延長完成任務所需的時間。這意味著，可能會有價值數百萬或數千萬美元的 GPU閑置，從而影響最終的結果，當然也可能會影響希望通過利用AI技術獲得商機的企業(yè)的上市時間。

測試是成功運行AI網絡的關鍵

為了高效運行AI集群，用戶需要確保GPU得到充分利用，這樣才能較早地完成學習模型的訓練，并將其投入使用，實現投資回報最大化。這就需要對AI集群（圖2）的性能進行測試和基準測試。然而，這并不是一件輕而易舉的事兒，因為GPU和網絡架構之間有著千絲萬縷的聯(lián)系和諸多設置，它們需要在架構上實現互補，以滿足處理工作負載的需要。

瞄準五大方向持續(xù)攻關，構建AI網絡底座

圖2：AI數據中心測試平臺及如何測試AI數據中心集群

這給AI網絡帶來了諸多挑戰(zhàn)：

-考慮到成本、設備的可用性、熟練的網絡 AI 工程師的時間、空間、功率和熱量等因素的限制，很難在實驗室中復刻完整的工作網絡。

-在工作系統(tǒng)上執(zhí)行測試會降低工作系統(tǒng)可用的處理能力。

-由于工作負載的類型以及數據集的規(guī)模大小和范圍可能大不相同，因此所要研究的問題也會難以重現。

-深入洞察GPU之間的集體通信也頗具挑戰(zhàn)性。

應對上述挑戰(zhàn)的方法之一是，首先在實驗室環(huán)境中對所提出的設置的一個子集執(zhí)行測試，以便對JCT、整個AI集群所能達到的帶寬等關鍵參數進行基準測試，同時將這些參數與Fabric容量利用率以及內存緩沖區(qū)消耗情況進行比較。這種基準測試有助于找到GPU/工作負載的分布與網絡設計/設置之間的平衡點。當計算架構和網絡工程師對結果比較滿意時，他們就能夠將這些設置應用到執(zhí)行任務的工作系統(tǒng)中并且衡量新的結果是否理想。

小結

為了充分釋放AI的潛能，需要優(yōu)化AI網絡的設備和基礎架構。企業(yè)的研究實驗室和學術機構致力于對構建和運行高效AI網絡所涉及的各個層面進行分析，以解決在大型網絡上執(zhí)行任務所面臨的挑戰(zhàn)。尤其是在當前行業(yè)最佳實踐正不斷發(fā)生變化的情況下，形勢更是如此。只有采用這種可以反復驗證、高度協(xié)作的方法，業(yè)界才能實現可重復的測試，并靈活地嘗試各種“假設 ”場景，這是優(yōu)化AI網絡的基礎。

關于是德科技

是德科技（NYSE：KEYS）啟迪并賦能創(chuàng)新者，助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數公司，我們提供先進的設計、仿真和測試解決方案，旨在幫助工程師在整個產品生命周期中更快地完成開發(fā)和部署，同時控制好風險。我們的客戶遍及全球通信、工業(yè)自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手，加速創(chuàng)新，創(chuàng)造一個安全互聯(lián)的世界。

瞄準五大方向持續(xù)攻關，構建AI網絡底座

作者：是德科技產品營銷經理 Linas Dauksa

免責聲明：本文為轉載文章，轉載此文目的在于傳遞更多信息，版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題，請聯(lián)系小編進行處理。

瞄準五大方向持續(xù)攻關，構建AI網絡底座

友情鏈接(QQ：317243736)

瞄準五大方向持續(xù)攻關，構建AI網絡底座