浸入式冷卻(第1部分):重新定義可靠性標準
由于 AI 和高性能計算 (HPC) 的興起,數據中心工作負載繼續激增,反過來,傳統的風冷方法正在達到其實際極限。隨著熱負荷的增加和密度要求的擴大,數據中心運營商正在尋找新的熱量管理方法。浸入式冷卻已成為一條前景廣闊的發展道路。
本文引用地址:http://www.czjhyjcfj.com/article/202505/470555.htm然而,這種轉變暴露了該行業在定義和測試組件可靠性方面的巨大差距。為風冷環境制定的標準從來都不是為了預測材料在完全浸沒在介電流體中時的行為。鑒于架構設計和性能的新要求,老化模型、故障模式,甚至有關組件耐用性的基本假設等關鍵因素都需要重新思考。
這種演變正在重塑數據中心運營商評估組件可靠性的方式。為支持風冷系統而制定的標準達到了其目的。但它們必須不斷發展,以應對沉浸式環境帶來的新挑戰。
雖然空氣冷卻標準長期以來一直指導系統規劃,但浸入式冷卻引入了一組不同的老化機制和材料挑戰。為了跟上步伐,工程師和開放計算項目 (OCP) 等行業團體正在合作,根據真實世界的浸入條件構建測試框架。這種轉變在風冷和浸入式冷卻系統之間帶來了不同的設計和可靠性挑戰(見圖)。
該圖表列出了風冷和浸入式冷卻系統之間的設計和可靠性差異。
浸入式冷卻如何解決系統設計挑戰
浸入式冷卻消除了氣流限制,但需要從根本上重新考慮基礎設施、材料選擇和系統設計。傳統的風冷系統依賴于風扇和散熱器,在管理組件熱設計功耗 (TDP) 方面面臨著越來越大的挑戰,這些功耗現在通常超過 300 W,甚至在許多下一代 GPU 和 AI 加速器中超過了關鍵的 400 W 閾值。超過這一點,氣流通常不足以維持安全的工作溫度。
為了彌合這一差距,許多數據中心運營商最初轉向冷板冷卻,它通過將液體直接循環到最熱的組件來改善熱傳遞。然而,雖然這種方法比空氣冷卻更好地解決了更高的芯片密度問題,但冷板解決方案引入了廣泛的歧管、復雜的機架級熱交換器集成,并增加了機械故障點,包括管道和連接泄漏的風險。
隨著計算負載的不斷攀升,完全浸沒(無論是單相還是雙相)正在成為克服空氣和冷板系統的結構和熱限制的下一步。通過將服務器完全浸沒在介電流體中,浸入式冷卻完全避免了氣流限制。
與傳統的風冷部署相比,潛在的節能通常高達 30%,這取決于幾個因素。這些因素可能包括使用的特定浸入式技術、基線風冷系統的電源使用效率 (PUE)、氣候條件以及 IT 負載的性質,從而在最佳條件下提供可能有意義的能源效率提升。盡管如此,實現這些收益需要的不僅僅是改造現有硬件。
浸入式冷卻改造的挑戰
棕地改造通常面臨嚴重的障礙。許多傳統數據中心使用高架地板,這些地板的設計無法支撐浸入式槽的重量和密度。升級這些站點通常需要昂貴的結構加固以及添加浸泡所需的系統,例如熱交換器、流體管路和維護通道。
鑒于這些結構和基礎設施挑戰,大多數新的沉浸式擴建都部署在專門構建的“AI 工廠”環境中,其中地板支撐、冷卻基礎設施和空間布局專為沉浸式架構而設計。
在新建項目中,浸入式冷卻可以提高機架密度和更好的熱控制,但前提是基礎設施是專為浸沒式系統構建的。
空氣標準品的局限性
浸入式冷卻具有明顯的熱優勢,但也暴露了傳統可靠性框架的局限性。大多數現有標準都是為了模擬材料在空氣中的老化而構建的,在這些條件下,氧化(而不是化學相互作用)是主要的故障驅動因素。
在介電流體內部,氧化速度會顯著減慢。
取而代之的是熱化學降解(包括潛在的水解、材料膨脹和逐漸浸出到流體中的添加劑)成為主要風險。隨著時間的推移,這些化學變化會削弱機械性能并損害長期可靠性。混流氣體老化等測試方法最初設計用于模擬通過暴露于二氧化硫和二氧化氮等反應性氣體而產生的空氣腐蝕,但不再與流體環境中起作用的真實失效機制保持一致。
評論