• <li id="00i08"><input id="00i08"></input></li>
  • <sup id="00i08"><tbody id="00i08"></tbody></sup>
    <abbr id="00i08"></abbr>
  • 新聞中心

    EEPW首頁 > 專題 > 本土AI模組及芯片發展動向

    本土AI模組及芯片發展動向

    作者:王瑩 王金旺 時間:2018-03-29 來源:電子產品世界 收藏
    編者按:AI已成為國家戰略,激勵本土AI研發企業不斷探索。實際上,本土有一小批新銳公司,正面向特定領域推出模組或芯片。為此,本媒體特別采訪了國內幾家有代表性企業,介紹了其AI硬件及相關算法的最新進展。

    作者 / 王瑩 王金旺 《電子產品世界》編輯(北京 100036)

    本文引用地址:http://www.czjhyjcfj.com/article/201803/377626.htm

    摘要已成為國家戰略,激勵本土研發企業不斷探索。實際上,本土有一小批新銳公司,正面向特定領域推出。為此,本媒體特別采訪了國內幾家有代表性企業,介紹了其硬件及相關算法的最新進展。

    AI企業需加強軟硬件協同能力

      目前市場上AI主要的商業應用場景有安防監控、家居/消費電子和自動駕駛汽車。安防監控以及消費電子市場已經較為成熟,且國內企業從產品能力到產業鏈整合能力均占據優勢地位,是目前國內人工智能企業展開競爭的主戰場。本土的汽車主機廠和零部件廠商較為弱勢,目前在無人駕駛領域的布局以互聯網等非傳統汽車產業鏈內企業為主。針對不同的應用場景,國內的主流AI企業已經開始從算法與架構的實現向提供特定應用場景系統解決方案發展并不斷向上游的ASIC設計延伸。如地平線、深鑒科技等企業均已開始推出自己的芯片產品。

      在對服務的安全性、實時性要求不高的應用領域,云端布局的人工智能服務將依然會是市場的主流。而在對服務的安全性、實時性、隱私性等要求較高的應用領域,前端部署已成為市場共識,未來市場空間非常巨大。

      異構算法要求更高的軟硬協同能力

      一直以來,GPU、FPGA、ASIC三者就因其鮮明的特點分工在人工智能領域發揮著巨大的作用。GPU適合大規模并行運算,在訓練深度神經網絡方面具有優勢。FPGA具備可編程、高性能、低功耗、架構靈活等特點,方便研究者進行模型優化,一般被用作芯片原型設計和驗證,或是用在通信密集型和計算密集型場景中,諸如通信、軍工、汽車電子、消費及醫療等行業。ASIC將性能和功耗完美結合,具有體積小、功耗低、可靠性高、保密性強、成本低等幾方面的優勢。

      國內人工智能企業在從單獨的架構、算法構建到行業應用系統解決方案提供的轉變過程中,通過異構的方式解決優化系統各部分的適配性已經成為行業內的共識。這一架構和算法上的趨勢,將進一步提升軟件在人工智能系統中的地位,對公司的軟硬協同能力提出了更高的要求。

      AI芯片設計要考慮終端需求

      由于人工智能領域是新興事物,整個產業鏈還不完整,產業分工尚未形成,AI芯片企業必須提供從芯片/硬件、軟件SDK到應用的解決方案已基本成為業內共識。

      這一現狀要求每家AI芯片公司都成為一家軟件加系統公司,這樣才能在市場競爭中取得優勢。比如,公司在芯片設計時候就需要考慮未來面對的終端用戶的需求,并通過將芯片集成到系統中,使其運行更加簡單。此外,應盡可能減少第三方協作以及為用戶提供更多的參考設計也是更好地服務下游用戶的方式之一。

    AI芯片能力亟需提高,數據仍是AI核心

      目前AI技術仍處于起步階段,監督學習仍是主要的手段。AI的主流分支——深度學習技術也將隨著計算力的不斷提升,創造出更加智能的落地應用。

      在兆芯看來,短期內,AI的發展趨勢有如下特點:

      1)網絡的復雜度和訓練集的規模將會進一步提高,計算復雜度將達到一個新的高度;

      2)帶label的數據將成為AI發展階段最有價值的資源;

      3)傳統的AI是在設計好的網絡結構下訓練未知參數,而最新的方法利用GAN類似的機制,可以將網絡訓練成一個更高精度的全新網絡框架,而不需要設計者參與。這對于做框架算法的人也帶來了巨大的挑戰——他們該如何在這個重數據的AI時代突破重圍,將AI帶到更高的臺階;

      4)CNN等網絡的安全性問題,例如pixel攻擊(通過干擾讓目標識別錯誤,或者認定為指定目標),這也對現有的應用安全落地帶來了極大的挑戰。因為在某些應用中安全性是致命的決定因素,如自動駕駛;

      5)另外新興的網絡如capsule是否有機會替代現有CNN網絡,這些對于不能軟件編程的AI芯片來說也許是致命的。

      AI芯片設計面臨速度、安全及兼容的挑戰

      處理器技術決定互聯、智慧與傳統制造業的融合度,從而帶動產業鏈上下游企業競相入局。AI對處理器設計提出了更高的要求。如邊緣計算,AI設備需要高度集成、低功耗的專用解決方案,因此可以選擇將專用AI模塊集成到SoC內部,并對SoC訪存系統進行優化,滿足AI模塊的高帶寬需求,同時可以通過內置硬件編解碼器,提升視頻的處理性能。在云端計算層面,可以選擇支持多PCIe 3.0接口,連接GPU或AI加速卡,構建AI運算平臺。傳統行業設計人員可以復用部分原始軟件代碼,將智能功能調用AI完成,從而降低軟件的開發成本,并大幅縮短新產品設計周期。

      而在AI芯片設計方面,具體有如下挑戰:

      1)網絡復雜度提高,意味著需要更高的計算能力。

      2)由深度學習產生的非規則的網絡結構,雖然效果好,但是復雜的連接關系會令傳統ASIC AI芯片更加難以優化加速。

      3)安全性問題是AI最為敏感話題,也是新的網絡結構的需求,或者說下一代的AI網絡結構需要解決的問題。

      4)新興網絡,如capsule,雖然解決了CNN網絡諸多問題,也引出了與現有硬件不太適應的問題。如何提好訓練效率,如何設計硬件讓其在可編程性和高效之間達到一個平衡點,來滿足不斷演進的算法需求,是芯片設計商的設計原則。

      x86+外接AI PCIe加速卡及AI計算芯片

      面對AI需求的迅速崛起,兆芯正在思考如何對這些產品形態進行智能升級,通過x86+外接AI PCIe加速卡的方式構建運算平臺加速應用落地。

      與此同時,兆芯已經利用自己GPU技術的獨特優勢,設計了全新的AI計算芯片:

      1)基于兆芯GPU的AI硬件加速框架很好的解決了多計算單元的并行性管理和可擴展性問題,以及軟件生態的兼容性問題,支持OpenCL、CUDA等GPGPU API;

      2)獨有專用加速器在能效比和可編程性之間做了很好的折中;

      3)新型壓縮技術大幅降低了芯片的帶寬需求,從而有效地提高了計算單元和加速器利用率。

      總之,對于AI來講,目前仍處于一個開始的階段,數據仍是整個AI的核心,硬件和軟件架構都在不斷地相互變化中,每一次硬件變革都會帶來軟件變化,軟件變化、工藝變化又會促進硬件的進一步改良。對于兆芯來講,我們一方面會不斷演進加速器設計,讓其更好地加速主流算法,同時會保留足夠通用編程靈活性,給新的算法創造好的并行計算環境,也為國內AI高端芯片自主可控發展貢獻力量。

    華夏芯全新架構的人工智能專用處理器內核

      安防領域一直被認為是人工智能最先落地的行業,智能駕駛正在成為另一個高速發展以及炙手可熱的人工智能的典型應用場景。以智能駕駛和智能安防為例,“云邊結合”正逐步取代“中心分析”成為AI應用發展的趨勢。針對不同人工智能應用場景的AI終端芯片有望在今后數年內成為芯片廠商的主戰場。云端的計算需求主要是支持海量數據下的計算開銷。因此,由超級性能的CPU、GPU、FPGA、專用加速器組成的超高計算性能的芯片組成為主要的芯片平臺。在云端芯片市場,Intel 約占71%、英偉達約占16%的市場。而終端側的計算需求更多的是要考慮有限功耗下的系統開銷。因此,高性能、低功耗的CPU、GPU、DSP、專用芯片組成的高集成度的SoC芯片成為首選。在這一市場,Intel、英偉達并無優勢,相反,Arm、Ceva、華夏芯這樣的公司有優勢。面對這一趨勢,華夏芯公司立足于為其客戶的芯片定制提供包括CPU、DSP和人工智能在內的系列內核和完整解決方案。

      華夏芯公司新年伊始正式向業界公開了其全新架構的嵌入式人工智能專用處理器的內核方案。作為少數具備全系列處理器內核設計能力的高科技企業,華夏芯公司之前已經陸續發布了其自主設計的64位體系的CPU(Central Processing Unit)和DSP(Digital Signal Processor )內核方案,首次在嵌入式處理器領域引入了可變長矢量處理(Variable Length Vector,VLV)技術。因此,本次針對人工智能專用處理器內核方案的公開發布,進一步展露了華夏芯在人工智能領域的龐大戰略,即華夏芯公司立足于為其客戶的芯片定制提供完整的包括CPU、DSP和人工智能在內的系列內核,并希望在芯片整體性能、功耗、成本、編程、生態和開發周期方面占據領先的位置。

      此次,華夏芯公司推出的人工智能專用處理器內核方案,預計2018年下半年第一款全部采用華夏芯CPU/DSP/人工智能處理器內核的量產芯片開始下線,進入市場。

    完全卷積神經網絡IP——DPU “聽濤”系列 SoC

      算法、數據和算力并稱為新AI時代三大驅動力。如何在追求更好性能的同時實現低功耗、低延遲和低成本,逐漸成為擺在所有AI從業者面前的艱巨挑戰之一。

      很多硬件平臺都展示了自身所具備的強大算力,然而當用戶在真正運行一個應用時,卻發現在讀取數據時會產生比較明顯的卡頓現象。這表明,即便用戶在掌握大量數據的前提下,依然不能將AI運算單元填滿,從而導致計算硬件的計算效力低下。以谷歌第一代TPU為例,其平均硬件乘法陣列使用率只有28%,這意味著72%的硬件在大部分時間內是沒有任何事情可以做的。

      另外,如果將完成16位整數加法能量消耗定義為1,那么將32比特的數據從DDR內存傳輸到芯片中,就將花費1萬倍的能量消耗。因此,過大的訪問帶寬增加了數據的復用性,導致AI芯片功耗高居不下。

      而要提升計算效率、降低功耗,總結起來有三條路徑:首先,優化計算引擎,增加計算并行度;其次,優化訪存系統;第三,利用神經網絡稀疏性,實現軟硬件協同設計。這樣的產品規劃路線能走得通的一個關鍵因素,就在于用戶在未來的ASIC芯片和之前的FPGA上使用的是同樣的編程和軟件開發環境,能實現在應用上的無縫切換。

      DPU “聽濤”系列 SoC

      深鑒科技正式發布基于自主研發的人工智能處理器核心DPU 的“聽濤”系列 SoC。該DPU屬于完全卷積神經網絡IP,支持傳統的1X1和3X3卷積層,能夠實現高效的目標識別和加速。在該架構基礎之上,深鑒科技做出了第一代5X5 FPGA產品,并在攝像頭市場實現了批量出貨。

      DPU計算核心采用全流水設計結構設計,內部集成了大量的卷積運算器、加法器、非線性Pulling/ReLu之類的運算算子,在確保每一個運算單元都能夠被充分的調動起來的前提下,可同時支持不同動態精度的量化方法。像VGG16比較重的應用中,深鑒科技DPU的運算器利用率可以達到85%,對主流算法可以達到50%以上,功耗方面則低出競爭對手一個數量級。

      相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力,將于年中交付的“聽濤”SoC產品的預期功耗約為3 W,峰值算力4 TOPS,考慮到網絡壓縮部分,這個數字應該再擴大5~10倍。

      參考文獻:

      [1]胡郁.人工智能與語音識別技術[J].電子產品世界,2016(4):23-25.

      [2]王瑩.“CPU+”異構計算時代,華夏芯通過HSA搶占高地[J].電子產品世界,2016(9):15-17.

      [3]陳俊穎,周順風,閔華清.基于CAPI FPGA的醫學超聲成像算法異構加速[J].電子產品世界,2016(10):41-44.

      [4]王瑩,王金旺.異構計算帶來AI視覺新突破[J].電子產品世界,2017(7):28-29.

      本文來源于《電子產品世界》2018年第4期第22頁,歡迎您寫論文時引用,并注明出處。



    關鍵詞: AI 模組 芯片 201804

    評論


    相關推薦

    技術專區

    關閉
    主站蜘蛛池模板: 遵化市| 昂仁县| 大余县| 孟州市| 离岛区| 永兴县| 双牌县| 休宁县| 荔波县| 武山县| 磴口县| 革吉县| 格尔木市| 肇东市| 大安市| 精河县| 北海市| 济阳县| 东阳市| 鄂温| 长治县| 新晃| 建昌县| 吕梁市| 怀宁县| 阿巴嘎旗| 岳池县| 金昌市| 体育| 平武县| 年辖:市辖区| 会东县| 红安县| 南平市| 呼图壁县| 洪泽县| 边坝县| 丁青县| 神农架林区| 金华市| 九江市|