應用

技術

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

AI算力生出IPU芯片,GPU霸主地位不保?

2020-10-09 13:55 腦極體
關鍵詞:AI芯片GPU

導讀:在 AI 算力爆炸式增長的過程中,英偉達的 GPU 功不可沒。

在CPU 芯片領域,延續(xù)至今的“摩爾定律”正在隨著制程工藝逼近物理極限而有了延緩的趨勢,甚至失效的可能。就在摩爾定律的增長放緩腳步的同時,半導體芯片的計算也正在從通用走向?qū)S茫渲蠥I 計算正是其中增長最快的一種專用計算。

現(xiàn)在,AI 計算正在接棒摩爾定律,延續(xù)并超越其倍增神話。2019 年,OpenAI 發(fā)布了 AI 算力的增長情況,結果顯示 AI 算力以 3.4 個月的倍增時間實現(xiàn)了指數(shù)增長,從 2012 年起,該指標已經(jīng)增長了 30 萬倍。

在 AI 算力爆炸式增長的過程中,英偉達的 GPU 功不可沒。廣為人知的一個故事就是 2012 年,來自多倫多大學的 Alex 和他的團隊設計了 AlexNet 的深度學習算法,并用了 2 個英偉達的 GTX580 GPU 進行訓練后,打敗了其他所有計算機視覺團隊開發(fā)的算法,成為那一屆 ImageNet 的冠軍。

此后,在計算機視覺和自然語言處理領域,GPU 的高并行計算能力得到了充分的發(fā)揮,英偉達的 GPU 也隨著 AI 第三次浪潮的崛起而迎來井噴發(fā)展。與此同時,更多為機器學習而專門定制的專用芯片開始出現(xiàn),比如專用集成電路(ASIC)的張量處理單元 TPU、神經(jīng)網(wǎng)絡單元 NPU 以及半定制芯片 FPGA 等等。

2018 年底,英國一家名為 Graphcore 的創(chuàng)業(yè)公司推出了一種專門用于 AI 計算的處理器芯片IPU(Intelligence Processing Unit)。一經(jīng)問世,IPU就受到 AI 界越來越多的關注。

ARM 創(chuàng)始人,被稱為英國半導體之父的赫曼·豪瑟曾為 Graphcore 的IPU給出很高評價,將其譽為“計算機史上三次革命中,繼 CPU 和 GPU 之后的第三次革命”。赫曼在芯片產(chǎn)業(yè)的地位自然不容置疑,但由于 Graphcore 是英國芯片產(chǎn)業(yè)中為數(shù)不多的新生力量,難免赫曼有“護犢子”的打廣告之嫌。

IPU 出道 2 年時間,現(xiàn)已推出了量產(chǎn)第二代型號為 GC2 的 IPU。那么,IPU 的表現(xiàn)如何,與 GPU 相比有哪些優(yōu)勢之處,這是本文要重點探討的問題。

GPU 所開啟的深度學習

一個廣為人們熟知的例子就是,在計算機視覺發(fā)展初期的 2011 年,谷歌大腦想要在 YouTube 的視頻中識別人類和貓,當時這樣一個簡單的任務,谷歌要動用一家大型數(shù)據(jù)中心內(nèi)的 2,000 顆服務器 CPU,這些 CPU 的運行會產(chǎn)生大量的熱量和能耗,關鍵是代價不菲,很少能有研究人員可以用得起這種規(guī)模的服務器。

不過在當時,研究人員注意到了英偉達的 GPU,斯坦福大學的吳恩達團隊開始和英偉達合作,將 GPU 應用于深度學習。后來證明,只需要 12 顆英偉達 GPU 就可以達到相當于 2000 顆 CPU 提供的深度學習性能。此后越來越多的 AI 研究人員開始在 GPU 上加速其深度神經(jīng)網(wǎng)絡 (DNN)的訓練。

現(xiàn)在我們都知道,GPU 能夠在深度學習的訓練中大顯身手,正是源于 GPU 的計算架構正好適用于深度學習的計算模式。深度學習是一種全新的計算模式,其采用的 DNN 算法包含數(shù)十億個網(wǎng)絡神經(jīng)元和數(shù)萬億個連接來進行并行訓練,并從實例中自己學習規(guī)律。

深度學習算法主要依賴的基本運算方法有矩陣相稱和卷積浮點運算,而 GPU 多核架構在原本圖像渲染中可以大規(guī)模處理矩陣乘法運算和浮點運算,很好地可以處理并行計算任務,使得 DNN 訓練速度大幅提升。

此后,GPU 成為輔助完成深度學習算法的主流計算工具,大放異彩。但 GPU 本身并非是專門為 AI 計算而設計的芯片,其中有大量的邏輯計算對于 AI 算法來說毫無用處,所以行業(yè)自然也需要專門針對 AI 算法的專用 AI 芯片。

近幾年,全球已經(jīng)有上百家公司投入到新型 AI 芯片的研發(fā)和設計當中,當然最終能夠成功流片并推出商用的仍然是幾家巨頭公司和少數(shù)實力雄厚的獨角獸公司。

這其中,2017 年初創(chuàng)成立的 Graphcore 所研發(fā)的 AI 芯片 IPU,則成為這些 AI 芯片當中的另類代表,因其不同于 GPU 架構的創(chuàng)新得到了業(yè)內(nèi)的關注。而這正是我們要著重介紹的部分。

更適合 AI 計算的 IPU 芯片

近兩年,AI 芯片出現(xiàn)了各種品類的井噴,其中甚至出現(xiàn)一些堪稱瘋狂的另類產(chǎn)品。

比如一家同樣創(chuàng)立四年的 AI 芯片創(chuàng)業(yè)公司 Cerebras Systems 就發(fā)布了史上最大的半導體芯片 Wafer Scale Engine(WSE),號稱“晶圓級發(fā)動機”,擁有 1.2 萬億個晶體管,比英偉達最大的 GPU 要大出 56.7 倍。這塊芯片主要瞄準的是超級計算和和大型云計算中心市場,其創(chuàng)新之處在于一體化的芯片設計大幅提高了內(nèi)部的數(shù)據(jù)通信數(shù)據(jù),但其架構仍然類似于 GPU 的計算架構。

而 Graphcore 的 IPU 與 GPU 的架構差異非常大,代表的是一種新的技術架構,可以說是專門為解決 CPU 和 GPU 在 AI 計算中難以解決的問題而設計的。

IPU 為 AI 計算提供了全新的技術架構,同時將訓練和推理合二為一,兼具處理二者工作的能力。

我們以目前已經(jīng)量產(chǎn)的 IPU 的 GC2 處理器來看,IPU GC2 采用臺積電的 16nm 工藝,擁有 236 億個晶體管,在 120 瓦的功耗下有 125TFlops 的混合精度,另外有 45TB/s 內(nèi)存的帶寬、8TB/s 片上多對多交換總線,2.5 TB/s 的片間 IPU-Links。

其中,片內(nèi)有 1216 個 IPU-Tiles 獨立處理器核心,每個 Tile 中有獨立的 IPU 核,作為計算以及 In-Processor-Memory(處理器內(nèi)的內(nèi)存)。對整個 GC2 來說共有 7296 個線程(每個核心最多可以跑 6 個線程),能夠支持 7296 個程序并行運行,處理器內(nèi)的內(nèi)存總共可以達到 300MB,其設計思路就是要把所有模型放在片內(nèi)處理。

首先,IPU 作為一個標準的神經(jīng)網(wǎng)絡處理芯片,可以支持多種神經(jīng)網(wǎng)絡模型,因其具備數(shù)以千計到數(shù)百萬計的頂點數(shù)量,遠遠超過 GPU 的頂點規(guī)模,可以進行更高潛力的并行計算工作。此外,IPU 的頂點的稀疏特性,令其也可以高效處理 GPU 不擅長的稀疏的卷積計算。其次,IPU 也支持了模型參數(shù)的復用,這些復用特性可以獲取數(shù)據(jù)中的空間或時間不變性,對于訓練與推理的性能會有明顯幫助。

其次,為解決芯片內(nèi)存的寬帶限制,IPU 采用了大規(guī)模并行 MIMD(多指令流多數(shù)據(jù)流)眾核架構,同時,IPU 架構做了大規(guī)模分布式的片上 SRAM。片內(nèi) 300MB 的 SRAM,相對于 GPU 的 GDDR、HBM 來說,可以做到數(shù)十倍的性能提升,而且與訪問外存相比,SRAM 的片內(nèi)時延基本可以忽略不計。

第三,IPU 采用了高效的多核通信技術 BSP(Bulk Synchronous Parallel)。IPU 是目前世界上第一款采用 BSP 通信的處理器,支持內(nèi)部 1216 個核心之間的通信以及跨不同的 IPU 之間的通信。通過硬件支持 BSP 協(xié)議,并通過 BSP 協(xié)議把整個計算邏輯分成了計算、同步、交換,能極大方便工程師們的開發(fā)工作。

基于以上 IPU 的差異化特點,IPU 在某些批量訓練和推理中能夠獲得更好的性能、更低延時和更快網(wǎng)絡收斂。片內(nèi)的 SRAM 相對于片外存儲,也有高帶寬和低延時的優(yōu)勢。

今年 7 月,Graphcore 發(fā)布了二代的 Colossus MK2 IPU (MK2),以及包含四顆 MK2 芯片系統(tǒng)方案的 IPU-Machine:M2000 (IPU-M2000),其核心數(shù)增加了 20%,達到 1472 個,8832 個可并行執(zhí)行的線程。片內(nèi) SRAM 則多出 3 倍,增加到 900MB,互聯(lián)擴展性能是上一代的 16 倍。顯然在計算、數(shù)據(jù)和通信擴展層面,MK2 都算是延續(xù)了第一代 IPU 堆料狂魔的作風。

由 4 個 IPU 芯片構成的 IPU-M2000 系統(tǒng),可以提供大約 1 PetaFLOPs 的算力?;?IPU 的多層級存儲結構,與 IPU Exchange Memory 等技術優(yōu)化,整體與 GPU 的 HBM2 存儲比較,可以提供超過 100 倍的帶寬以及大約 10 倍的容量,可以適用于更復雜的 AI 模型和程序。

計算加上數(shù)據(jù)的突破可以讓 IPU 在原生稀疏計算中展現(xiàn)出領先 GPU 10-50 倍的性能優(yōu)勢,在通信上,Graphcore 專為為 AI 橫向擴展設計了 IPU-Fabric,解決數(shù)據(jù)中心大規(guī)模計算橫向擴展的關鍵問題。Graphcore 將計算、數(shù)據(jù)、通信三者的突破技術結合,構建了大規(guī)??蓴U展的 IPU-POD 系統(tǒng),最終可以提供一個 AI 計算和邏輯進行解耦、系統(tǒng)易于部署、超低網(wǎng)絡延時、高可靠的 AI 超算集群。

可以預計,未來 IPU 在各類 AI 應用中將具有更大的優(yōu)勢,而這也必然會引起英偉達的注意。那么,相較于英偉達 GPU 所占據(jù)的 AI 行業(yè)生態(tài)位的霸主地位,IPU 會有哪些前景,也會遭遇哪些困境呢?

走向通用 AI 計算的“另辟蹊徑”

如果回顧下 AI 芯片的發(fā)展經(jīng)歷,我們看到在經(jīng)過這幾年專用 AI 芯片的井噴之后,也開始面臨一個尷尬困境,那就是 ASIC 芯片的靈活性或者說可編程性很差,對應的專用 AI 芯片只能應對一種算法應用,而算法本身則在 3-6 個月的時間就有可能變化一次,或許出現(xiàn)很多 AI 芯片還未上市,算法就已經(jīng)發(fā)生進化的問題,一些 AI 芯片注定無法生產(chǎn)。當然,專用 AI 芯片的優(yōu)勢也很明顯,在性能、功耗和效率上遠勝更加通用的 GPU,對于一些非常具體的 AI 應用場景,這些專用芯片就具有了巨大的收益。

從專注圖像渲染崛起的英偉達的 GPU,走的也是相當于 ASIC 的技術路線,但隨著游戲、視頻渲染以及 AI 加速需要的出現(xiàn),英偉達的 GPU 也在向著 GPGPU(General Purpose GPU)的方向演進。為保持其在 GPU 領域的寡頭地位,使得英偉達必須一直保持先進的制程工藝,保持其通用性,但是要犧牲一定的效能優(yōu)勢。

這給后來者一定的啟發(fā),那就是 AI 芯片既要具備一定的靈活的可編程性(通用性),又要具備專用的高效性能優(yōu)勢。這為 IPU 找到了一個新的細分市場,也就是介入 GPU 不能很好發(fā)揮效能的神經(jīng)網(wǎng)絡模型,比如強化學習等類型,同時又避免的專用 AI 芯片的不可擴展性,能夠部署在更大規(guī)模的云計算中心或超算中心,對新算法模型保持足夠的彈性計算空間。

目前來看,IPU 正在成為僅次于 GPU 和谷歌 TPU 的第三大部署平臺,基于 IPU 的應用已經(jīng)覆蓋包括自然語言處理、圖像 / 視頻處理、時序分析、推薦 / 排名及概率模型等機器學習的各個應用場景。

典型的如通過 IPU 可以訓練胸片,幫助醫(yī)學人員快速進行新冠肺炎的診斷;如在金融領域,對涉及算法交易、投資管理、風險管理及詐騙識別的場景進行更快的分析和判斷;此外在生命科學領域、通信網(wǎng)絡等方面,都可以同 IPU 實現(xiàn)高于 GPU 性能的 AI 加速。

(NLP 模型參數(shù)的指數(shù)增長)

當然,IPU 想要在 AI 計算中擁有挑戰(zhàn) GPU 地位的資格,除了在性能和價格上面證明自己的優(yōu)勢之外,還需要在為機器學習框架提供的軟件棧上提供更多選擇,獲得主流 AI 算法廠商的支持,在標準生態(tài)、操作系統(tǒng)上也需要有廣泛的支持,對于開發(fā)者有更方便的開發(fā)工具和社區(qū)內(nèi)容的支持,才能從實際應用中壯大 IPU 的開發(fā)生態(tài)。

今年, AI 芯片產(chǎn)業(yè)正在遭遇洗牌期,一些 AI 芯片企業(yè)黯然退場,但這并不意味著 AI 計算遭遇寒冬,反而 AI 算力正在得到大幅提升,以今年數(shù)量級提升 GPT-3 的出場就可以看出這樣的趨勢。

一個 AI 芯片從產(chǎn)出到大規(guī)模應用必須要經(jīng)過一系列的中間環(huán)節(jié),包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態(tài)等等,打通這樣一條鏈條都會面臨一個巨大挑戰(zhàn)。

現(xiàn)在,GPU 已經(jīng)形成一個非常完整的 AI 算力生態(tài)鏈路,而 IPU 則仍然在路上,是否能真正崛起,還需要整個 AI 產(chǎn)業(yè)和開發(fā)者用實際行動來投票。