中國電信:運營商視角思考RISC-V 在AI領域的應用
7月18日,第五屆RISC-V中國峰會在上海進入分論壇環節。作為未來電子產業最龐大的應用范疇之一,人工智能是不可回避的話題。人工智能的飛速發展,正以年均超過100%的算力需求增長驅動底層架構的革新,“開放、靈活、可定制”的RISC-V已成為構建自主AI算力基石的戰略支點。人工智能分論壇邀請各方企業探討RISC-V架構如何利用其開源、開放、可擴展的特性,實現AI計算架構的革新,以及RISC-V架構在AI軟硬件的最新進展和應用落地情況。
中國電信研究院技術專家楊玉模在介紹基于RISC-V架構的高性能AI大模型工作站的同時,還分享了在運營商視角如何思考RISC-V 在AI領域的應用。 楊玉模從三個方面介紹中國電信研究院在RISC-V AI領域的一些工作進展。
針對云計算領域發展趨勢與RISC-V現狀,他先是分析了數據中心計算架構的發展趨勢。IaaS云計算依然是數據中心的主要形態,主要體現在兩個方面:(1)在大型企業和政府機構中,IaaS的服務依然是提供主要的基礎支撐。(2)在未來很長一段時間里,容器和虛擬機仍然是主要的計算形態。 AI驅動智算爆發式增加,主要數據中心從“通算”向以AI為中心的智算轉變,AI算力每3-4個月翻1倍,單次訓練成本可能會高達千萬美元。因此新型的計算架構芯片、超節點和集群會成為提升算力規模的一個關鍵突破點。領域專用架構DSA成為新趨勢,DSA是針對特定領域進行的計算架構優化,相比傳統通用計算在性能和功耗都會有顯著的優勢,并且雖然AI領域對算力需求的快速增長,DSA成為數據中心發展的一個新趨勢。
RISC-V在數據中心中嶄露頭角。左邊的圖是RISC-V硬件產品矩陣,它從互聯網、然后到邊緣計算、到數據中心,它都有RISC-V硬件廠商的參與,但是在數據中心的標桿應用的性能上仍然有差距。右邊的圖主要是RISC-V的軟件生態,這個軟件生態主要是、大家可以看到適配的很多操作系統,還有操作系統上面的一些基礎軟件,這個也是比較全面。但是應用軟件由于依賴庫的多樣性、以及版本的多樣,所以它的適配遷移能力還依然比較困難。
去年中國電信研究院在RISC-V中國峰會發布了“北海云計算開放實驗平臺”,主要針對RISC-V云計算軟硬件生態不成率、缺乏規模化的應用驗證,以中國電信的豐富應用場景為牽引,來推動RISC-V架構在云計算行業的成熟與規模應用。
左邊的這個圖就是北海RISC-V云計算實驗架構,包含“技術設施實驗平臺”、以及“云化實驗”和“云計算應用的實例驗證”。中間的圖是依托中國電信RISC-V大科學裝置,已經構建了運營商首個超千核RISC-V云計算集群,右邊是在去年的RISC-V中國峰會發布的成果。
今年中國電信繼續擴展研究推出北海2.0智算云試驗平臺,主要在之前的基礎上增加了“云原生虛擬化、AI大模型、AI智能體”等的管理。我們推出了RISC-V高性能AI大模型工作站,為虛擬化和AI智能體應用提供基礎設施和適配驗證的一些方案。
上圖是大模型工作站基礎設施結構圖。左邊是大模型工作站的開發環境,中間是大模型工作站等桌面機,硬件上基于國產RISC-V的CPU和AI卡,我們采用超睿8核高性能RISC-V CPU芯片,單核在SPEint2006性能達到10.4/GHz。PCIe擴展可以從X16擴展到2個x8或者4個x8,可以支持1-4張AI推理卡的穩定運行。我們搭載的希姆單卡16GB顯存,可以完成標量、向量和矩陣云,支持FP16和INT8運算。軟件方面適配RISC-V云計算和AI軟件生態,我們基于GCC和LLVM的私有編譯器,優化AI大模型的性能,并且豐富RISC-V的軟件生態,主要是包括適配Ubntu、OpenEule、K8s等,并且適配1.5B-32B的DeepSeek和千問大模型。
在這個過程中,中國電信有兩個突破:1.填補了RISC-V云原生虛擬化適配驗證平臺。推動RISC-V虛擬化的商業規模應用,基于高性能RISC-V硬件虛擬化的平臺、往上面適配了OpenEuler。再往上是KubeVirt的適配,首先是編譯、包括編譯環境和具體的編譯步驟。編譯環境有原生編譯和交叉編譯,我們采用的是交叉編譯技術。編譯步驟這個中間,比如涉及到一些修改解碼、構建KubeVit組件的鏡像等等。KubeVit部署完了以后、并且運行成功以后,我們就要進行驗證、虛擬機的啟動。虛擬機啟動首先就要創建虛擬機,創建虛擬機包括創建服務器版及桌面版的虛擬機。然后,我們要去創建KubeVit虛擬機對象VMI,然求啟動虛擬機、再登陸虛擬機。這個過程中也會遇見錯誤,因為可能跟虛機啟動時候的業務邏輯相關,那么同樣我們也要返回回去重新編譯、直至部署、虛擬機啟動驗證成功。 2.填補了RISC-V AI智能體管理平臺的空白。因為我們是針對AI智能體在執行LLM動態產生代碼時的隔離性、環境一致性等,構建安全隔離沙盒環境,覆蓋智能體從開發到部署的全流程,推動智能體驗證適配。
最后,楊玉模分享了在運營商視角如何思考RISC-V AI應用前景。他認為,首先是要找好定位。做AI基礎設施平臺和集成商。因為底下硬件及最上面的應用不是運營商的專長,中國電信以IaaS為基礎做AI算力平臺、以PaaS為基礎做AI應用平臺。其次是大模型如何為客戶創造價值。他認為是立足現有業務、拓展新型業務,比如:將大模型重新定義傳統業務或者是AI去重新定義傳統業務,比如說圖象處理、通過AI的技術可以提高處理的性能和速度。還有就是大模型談塞新型業務場景,例如:交互式的問答這種類型。最后,思考如何將理論研究轉化為商業應用。要與上下游廠商攜手推進商業的落地,首先要健全RISC-V AI領域的開源生態,然后要開源向產品化進行轉變。
評論