• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > Nvidia 的 Blackwell AI GPU 過熱問題似乎被夸大了

    Nvidia 的 Blackwell AI GPU 過熱問題似乎被夸大了

    —— 半導體分析師透露冷卻問題已基本得到解決
    作者: 時間:2024-11-21 來源:Toms hardware 收藏

    據(jù)稱,有關 的 GB200 NVL72 服務器機架過熱的報道被夸大了。Business Insider 報道稱, 的冷卻設計錯誤已經(jīng)得到解決。據(jù)稱,Semianalysis 的首席分析師 Dylan Patel 告訴 Business Insider,已經(jīng)存在了幾個月的 的設計問題已基本得到解決,并表示在很大程度上被夸大了。
    Semianalysis 的五位監(jiān)控半導體行業(yè)的分析師報告說,觸發(fā)幾家供應商“返工”的冷卻系統(tǒng)問題是一個“微小”的變化。 的冷卻故障在 的大型 72 芯片服務器機架上尤其存在問題,該機架的功耗高達 120kW。由于機架內(nèi)部的 GPU 過熱,機架設計中的設計缺陷迫使 多次重新評估其設計。這阻礙了 Nvidia 的 GB200 硬件的出貨量,由于所需的設計更改而導致額外的延遲。
    Nvidia 的 B200 GPU 是適用于 AI 工作負載的最強大處理芯片。例如,GB200 超級芯片具有數(shù)千瓦的可配置 TDP,峰值額定功率高達 2,700 瓦。這些荒謬的高功率數(shù)字使得空氣冷卻幾乎不可能在標準機架安裝外形尺寸的限制下使用。
    這個物理問題迫使 Nvidia 要求在其最新的 Blackwell GPU 上進行液體冷卻。它還要求數(shù)據(jù)中心改造其服務器場,以適應支持液冷服務器所需的基礎設施。
    Nvidia 可以通過創(chuàng)建速度較慢的風冷 GPU 來解決這個問題——GPU 制造商仍然以 H200 NVL 等 GPU 的形式這樣做。然而,為了保持在 軍備競賽的最前沿,Nvidia 不惜一切代價優(yōu)先考慮性能,這就是為什么該公司選擇以犧牲風冷為代價制造需要數(shù)千瓦功率的 GPU。
    好消息是,Nvidia 的 72 芯片 Blackwell 冷卻問題顯然很小,并且已經(jīng)基本得到解決。此外,只有 Nvidia 的旗艦 72 芯片服務器機架存在問題。


    評論


    相關推薦

    技術專區(qū)

    關閉
    主站蜘蛛池模板: 赤水市| 石首市| 南丰县| 环江| 锡林浩特市| 绥棱县| 杭锦旗| 毕节市| 五常市| 邵东县| 留坝县| 乐安县| 万盛区| 监利县| 宁德市| 天柱县| 无锡市| 金湖县| 镇远县| 开鲁县| 惠来县| 集贤县| 永顺县| 开远市| 长丰县| 庄河市| 汤原县| 双鸭山市| 修武县| 安达市| 米脂县| 乳山市| 时尚| 扶绥县| 东阳市| 雷山县| 罗城| 梨树县| 同江市| 奉化市| 龙井市|