• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 博客專欄

    EEPW首頁 > 博客 > 在LLama 3訓(xùn)練期間,英偉達H100和HBM3內(nèi)存故障占據(jù)了一半

    在LLama 3訓(xùn)練期間,英偉達H100和HBM3內(nèi)存故障占據(jù)了一半

    發(fā)布人:芯智訊 時間:2024-09-02 來源:工程師 發(fā)布文章

    7月28日消息,Meta近期發(fā)布了目前全球最強的開源大模型LLAMA 3.1 405B,引發(fā)了業(yè)界的關(guān)注。近日,Meta發(fā)布了關(guān)于LLAMA 3.1 405B的研究文章,詳細介紹了其在 16,384 個 英偉達(NVIDIA)H100 80GB GPU 的集群上訓(xùn)練Llama 3.1 405B 模型所遇到的問題。

    據(jù)介紹,LLAMA 3.1 405B在16,384 個 H100 80GB GPU 的集群上持續(xù)訓(xùn)練了54天,在此期間遇到了 419 個意外的組件故障,平均每三個小時就發(fā)生一次故障。其中一半的故障,都是由于GPU 或其板載 HBM3 內(nèi)存問題。

    超級計算機是極其復(fù)雜的設(shè)備,使用數(shù)以萬計的處理器、數(shù)十萬個其他芯片和數(shù)百英里的電纜連接在一起。在一臺復(fù)雜的超級計算機中,每隔幾個小時就會發(fā)生故障,這是正常的,開發(fā)人員的主要技巧是盡量確保系統(tǒng)保持正常運行,無論這種局部故障如何。

    比如高達16,384個H100 GPU 訓(xùn)練的規(guī)模和同步性質(zhì)使其容易失敗。如果故障未得到正確緩解,單個 GPU 故障可能會中斷整個訓(xùn)練作業(yè),從而需要重啟。然而,LLAMA 3 團隊保持了超過90%的有效訓(xùn)練時間。

    總結(jié)來說,在為期 54 天的訓(xùn)練中,有 466 次工作中斷,其中 47 次是計劃性的,419 次是意外的。計劃內(nèi)中斷是由于自動化維護造成的,而意外的中斷主要源于硬件問題。其中,GPU 問題是最大的一類,占意外中斷的 58.7%。只有三起中斷事件需要大量的人工干預(yù),其余的則由自動化管理。

    image.png

    在 419 次意外中斷中,148 次 (30.1%) 是由各種 GPU 故障(包括 NVLink 故障)引起的,而 72 次 (17.2%) 是由 HBM3 內(nèi)存故障引起的,這并不奇怪,因為 Nvidia 的 H100 GPU 消耗約 700W 并承受大量熱應(yīng)力。有趣的是,在 54 天內(nèi)只有兩個 CPU 出現(xiàn)故障。

    雖然 GPU 是最重要的組件,但恰好也很脆弱,但 41.3% 的意外中斷是由多種因素引起的,包括軟件錯誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

    為了提高效率,Meta 的團隊減少了作業(yè)啟動和檢查點時間,并開發(fā)了專有的診斷工具。PyTorch 的 NCCL 飛行記錄器被廣泛用于快速診斷和解決掛起和性能問題,尤其是與 NCCLX 相關(guān)的問題。該工具可捕獲集體元數(shù)據(jù)和堆棧跟蹤,有助于快速解決問題。

    編輯:芯智訊-浪客劍


    *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



    關(guān)鍵詞: 芯片

    相關(guān)推薦

    技術(shù)專區(qū)

    關(guān)閉
    主站蜘蛛池模板: 军事| 田东县| 平塘县| 峨边| 贡嘎县| 房山区| 会东县| 东乌珠穆沁旗| 云浮市| 灵石县| 嘉禾县| 永和县| 广河县| 肥乡县| 瓮安县| 平遥县| 阿尔山市| 区。| 栾川县| 沂源县| 德惠市| 鲜城| 田阳县| 石城县| 揭西县| 马公市| 辉南县| 隆德县| 黄龙县| 错那县| 墨竹工卡县| 连江县| 大同市| 绥化市| 海伦市| 土默特左旗| 南召县| 芮城县| 神农架林区| 顺平县| 广丰县|