應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

英偉達(dá)連甩 20 枚 AI 核彈:800 億晶體管 GPU、144 核 CPU 來(lái)了

2022-03-24 10:34 芯東西
關(guān)鍵詞:英偉達(dá)AI人工智能

導(dǎo)讀:延續(xù)以往風(fēng)格,黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣,公布多個(gè)“全球首款”。這次他帶來(lái)一系列堪稱“地表最強(qiáng)”的 AI 重磅新品,隨便一個(gè)精度的 AI 性能,都比上一代 A100 高出 3~6 倍。

  近日,NVIDIA(英偉達(dá))攜基于最新 Hopper 架構(gòu)的 H100 GPU 系列新品高調(diào)回歸!

  英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛依然穿著皮衣,不過(guò)這次他沒有出現(xiàn)在幾乎已成 GTC 大會(huì)“標(biāo)配”的廚房場(chǎng)景中,而是在一個(gè)更具科幻感的虛擬空間。

  延續(xù)以往風(fēng)格,黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣,公布多個(gè)“全球首款”。這次他帶來(lái)一系列堪稱“地表最強(qiáng)”的 AI 重磅新品,隨便一個(gè)精度的 AI 性能,都比上一代 A100 高出 3~6 倍。

  雖然英偉達(dá)并購(gòu) Arm 的計(jì)劃剛剛告吹,但它的數(shù)據(jù)中心“三芯”總路線(GPU+DPU+CPU)依然不動(dòng)搖 —— 繼去年推出其首款數(shù)據(jù)中心 CPU 后,今天,英偉達(dá)又亮出一款基于 Arm 架構(gòu)的 Grace CPU 超級(jí)芯片。

  此外,黃仁勛再次派出自己的虛擬數(shù)字人化身“玩偶老黃”Toy Jensen,并跟這個(gè)表情生動(dòng)的玩偶進(jìn)行了一番流暢的實(shí)時(shí)問(wèn)答對(duì)話。

  憑借押中圖形處理和人工智能(AI)兩大賽道,英偉達(dá)已經(jīng)成為全球半導(dǎo)體市值 TOP1。截至文章發(fā)布時(shí)間,英偉達(dá)的市值超過(guò) 6600 億美元,比第二名臺(tái)積電足足多了近 1100 億美元。

  下面就讓我們來(lái)看看本場(chǎng) GTC 大會(huì)的完整干貨:

  1、H100 GPU:采用臺(tái)積電 4N 工藝,擁有 800 億個(gè)晶體管,實(shí)現(xiàn)了首個(gè) GPU 機(jī)密計(jì)算,相比 A100,F(xiàn)P8 性能提升 6 倍,F(xiàn)P16、TF32、FP64 性能各提升 3 倍。

  2、全新 NVLink Switch 系統(tǒng):高度可擴(kuò)展,支持 256 塊 H100 GPU 互連。

  3、融合加速器 H100 CNX:耦合 H100 GPU 與 ConnectX-7 和以太網(wǎng)智能網(wǎng)卡,可為 I / O 密集型應(yīng)用提供更強(qiáng)勁的性能。

  4、DGX H100:配備 8 塊 H100 GPU,總計(jì)有 6400 億個(gè)晶體管,在全新的 FP8 精度下 AI 性能比上一代高 6 倍,可提供 900GB / s 的帶寬。

  5、DGX SuperPOD:最多由 32 個(gè) DGX H100 組成,AI 算力可達(dá) 1EFLOPS。

  6、Eos 超級(jí)計(jì)算機(jī):全球運(yùn)行速度最快的 AI 超級(jí)計(jì)算機(jī),配備 576 臺(tái) DGX H100 系統(tǒng),F(xiàn)P8 算力達(dá)到 18EFLOPS,F(xiàn)P64 算力達(dá)到 275PFLOPS。

  7、Grace CPU 超級(jí)芯片:由兩個(gè) CPU 芯片組成,采用最新 Armv9 架構(gòu),擁有 144 個(gè) CPU 核心和 1TB / s 的內(nèi)存帶寬,將于 2023 年上半年供貨。

  8、為定制芯片集成開放 NVLink:采用先進(jìn)封裝技術(shù),與英偉達(dá)芯片上的 PCIe Gen 5 相比,能源效率高 25 倍,面積效率高 90 倍。英偉達(dá)還將支持通用小芯片互連傳輸通道 UCIe 標(biāo)準(zhǔn)。

  9、CUDA-X:60 多個(gè)針對(duì) CUDA-X 的一系列庫(kù)、工具和技術(shù)的更新。

  10、Riva 2.0:對(duì)話式 AI 服務(wù) Riva 全面發(fā)行,2.0 版本支持識(shí)別 7 種語(yǔ)言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語(yǔ)音。

  11、Merlin 1.0:可幫助企業(yè)快速構(gòu)建、部署和擴(kuò)展先進(jìn)的 AI 推薦系統(tǒng)。

  12、Sionna:一款用于 6G 通信研究的 AI 框架。

  13、OVX 與 OVX SuperPod:面向工業(yè)數(shù)字孿生的數(shù)據(jù)中心級(jí)服務(wù)器和超級(jí)集群。

  14、Spectrum-4:全球首個(gè) 400Gbps 端到端網(wǎng)絡(luò)平臺(tái),交換吞吐量比前幾代產(chǎn)品高出 4 倍,達(dá)到 51.2Tbps。

  15、Omniverse Cloud:支持協(xié)作者們隨時(shí)隨地實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)協(xié)同工作。

  16、DRIVE Hyperion 9:汽車參考設(shè)計(jì),擁有 14 個(gè)攝像頭、9 個(gè)雷達(dá)、3 個(gè)激光雷達(dá)和 20 個(gè)超聲傳感器,總體傳感器數(shù)量是上一代的兩倍。

  17、DRIVE Map:多模態(tài)地圖引擎,包含攝像頭、激光雷達(dá)和雷達(dá)的數(shù)據(jù),同時(shí)兼顧安全性。

  18、Clara HoloscanMGX:可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實(shí)時(shí) AI 應(yīng)用的計(jì)算平臺(tái),AI 算力可達(dá)每秒 254~610 萬(wàn)億次運(yùn)算。

  19、Isaac for AMR:提供自主移動(dòng)機(jī)器人系統(tǒng)參考設(shè)計(jì)。

  20、Jetson AGX Orin 開發(fā)者套件:在邊緣實(shí)現(xiàn)服務(wù)器級(jí)的 AI 性能。

  黃仁勛還介紹了英偉達(dá)創(chuàng)建的 NVIDIA AI 加速計(jì)劃,通過(guò)與 AI 生態(tài)系統(tǒng)中的開發(fā)者合作,開發(fā)工程化解決方案,以確??蛻舴判牟渴?。

  01. H100 GPU:800 億晶體管、六大創(chuàng)新

  每次英偉達(dá)的 GPU 新架構(gòu)都會(huì)以一位科學(xué)家的名字來(lái)命名,這次同樣如此。

  新 Hopper 架構(gòu)的命名取自美國(guó)計(jì)算機(jī)科學(xué)家格蕾絲?赫柏(Grace Hopper),她是耶魯大學(xué)第一位數(shù)學(xué)女博士、世界上第三位程序員、全球首個(gè)編譯器的發(fā)明者,也是第一個(gè)發(fā)現(xiàn)“bug”的人。

  ▲ 格蕾絲?赫柏正在教學(xué) COBOL 編程語(yǔ)言

  1945 年 9 月 9 日,格蕾絲使用的 Mark Ⅱ 機(jī)出現(xiàn)故障,經(jīng)過(guò)近一天的排查,她找到了故障的原因:繼電器中有一只死掉的蛾子。后來(lái),“bug”(小蟲)和“debug”(除蟲)這兩個(gè)詞匯就作為計(jì)算機(jī)領(lǐng)域的專用詞匯流傳至今。

  基于 Hopper 架構(gòu)的一系列 AI 計(jì)算新品,被冠上各種“全球首款”。按行業(yè)慣例,但凡比較 AI 算力,必會(huì)拿英偉達(dá)最新旗艦 GPU 作為衡量標(biāo)準(zhǔn)。

  英偉達(dá)也不例外,先“碾壓”一下自己兩年前發(fā)布的上一代 A100 GPU。

  作為全球首款基于 Hopper 架構(gòu)的 GPU,英偉達(dá) H100 接過(guò)為加速 AI 和高性能計(jì)算(HPC)扛旗的重任,F(xiàn)P64、TF32、FP16 精度下 AI 性能都達(dá)到 A100 的 3 倍。

  可以看到,NVIDIA 越來(lái)越熱衷于走稀疏化路線。過(guò)去六年,英偉達(dá)相繼研發(fā)了使用 FP32、FP16 進(jìn)行訓(xùn)練的技術(shù)。此次 H100 的性能介紹又出現(xiàn)了新的 Tensor 處理格式 FP8,而 FP8 精度下的 AI 性能可達(dá)到 4PFLOPS,約為 A100 FP16 的 6 倍。

  從技術(shù)進(jìn)展來(lái)看,H100 有 6 項(xiàng)突破性創(chuàng)新:

  1)先進(jìn)芯片:H100 采用臺(tái)積電 4N 工藝、臺(tái)積電 CoWoS 2.5D 封裝,有 800 億個(gè)晶體管(A100 有 540 億個(gè)晶體管),搭載了 HBM3 顯存,可實(shí)現(xiàn)近 5TB / s 的外部互聯(lián)帶寬。

  H100 是首款支持 PCIe 5.0 的 GPU,也是首款采用 HBM3 標(biāo)準(zhǔn)的 GPU,單個(gè) H100 可支持 40Tb / s 的 IO 帶寬,實(shí)現(xiàn) 3TB / s 的顯存帶寬。黃仁勛說(shuō),20 塊 H100 GPU 便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。

  2)新 Transformer 引擎:該引擎將新的 Tensor Core 與能使用 FP8 和 FP16 數(shù)字格式的軟件結(jié)合,動(dòng)態(tài)處理 Transformer 網(wǎng)絡(luò)的各個(gè)層,在不影響準(zhǔn)確性的情況下,可將 Transformer 模型的訓(xùn)練時(shí)間從數(shù)周縮短至幾天。

  3)第二代安全多實(shí)例 GPU:MIG 技術(shù)支持將單個(gè) GPU 分為 7 個(gè)更小且完全獨(dú)立的實(shí)例,以處理不同類型的作業(yè),為每個(gè) GPU 實(shí)例提供安全的多租戶配置。H100 能托管 7 個(gè)云租戶,而 A100 僅能托管 1 個(gè),也就是將 MIG 的部分能力擴(kuò)展了 7 倍。每個(gè) H100 實(shí)例的性能相當(dāng)于兩個(gè)完整的英偉達(dá)云推理 T4 GPU。

  4)機(jī)密計(jì)算:H100 是全球首款具有機(jī)密計(jì)算功能的 GPU 加速器,能保護(hù) AI 模型和正在處理的客戶數(shù)據(jù),可以應(yīng)用在醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí),以及共享云基礎(chǔ)設(shè)施。

  5)第 4 代英偉達(dá) NVLink:為了加速大型 AI 模型,NVLink 結(jié)合全新外接 NVLink Switch,可將 NVLink 擴(kuò)展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò),最多連接多達(dá) 256 個(gè) H100 GPU,相較于上一代采用英偉達(dá) HDR Quantum InfiniBand 網(wǎng)絡(luò),帶寬高出 9 倍。

  6)DPX 指令:Hopper 引入了一組名為 DPX 的新指令集,DPX 可加速動(dòng)態(tài)編程算法,解決路徑優(yōu)化、基因組學(xué)等算法優(yōu)化問(wèn)題,與 CPU 和上一代 GPU 相比,其速度提升分別可達(dá) 40 倍和 7 倍。

  總體來(lái)說(shuō),H100 的這些技術(shù)優(yōu)化,將對(duì)跑深度推薦系統(tǒng)、大型 AI 語(yǔ)言模型、基因組學(xué)、復(fù)雜數(shù)字孿生、氣候科學(xué)等任務(wù)的效率提升非常明顯。

  比如,用 H100 支持聊天機(jī)器人使用的 monolithic Transformer 語(yǔ)言模型 Megatron 530B,吞吐量比上一代產(chǎn)品高出 30 倍,同時(shí)能滿足實(shí)時(shí)對(duì)話式 AI 所需的次秒級(jí)延遲。

  再比如用 H100 訓(xùn)練包含 3950 億個(gè)參數(shù)的混合專家模型,訓(xùn)練速度可加速高達(dá) 9 倍,訓(xùn)練時(shí)間從幾周縮短到幾天。

  H100 將提供 SXM 和 PCIe 兩種規(guī)格,可滿足各種服務(wù)器設(shè)計(jì)需求。

  其中 H100SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服務(wù)器主板;H100 PCIe 通過(guò) NVLink 連接兩塊 GPU,相較 PCIe 5.0 可提供 7 倍以上的帶寬。PCIe 規(guī)格便于集成到現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設(shè)施中。

  這兩種規(guī)格的電力需求都大幅增長(zhǎng)。H100 SXM 版的散熱設(shè)計(jì)功耗(TDP)達(dá)到 700W,比 A100 的 400W 高出 75%。據(jù)黃仁勛介紹,H100 采用風(fēng)冷和液冷設(shè)計(jì)。

  這款產(chǎn)品預(yù)計(jì)于今年晚些時(shí)候全面發(fā)售。阿里云、AWS、百度智能云、谷歌云、微軟 Azure、Oracle Cloud、騰訊云和火山引擎等云服務(wù)商均計(jì)劃推出基于 H100 的實(shí)例。

  為了將 Hopper 的強(qiáng)大算力引入主流服務(wù)器,英偉達(dá)推出了全新的融合加速器 H100 CNX。它將網(wǎng)絡(luò)與 GPU 直接相連,耦合 H100 GPU 與英偉達(dá) ConnectX-7 400Gb / s InfiniBand 和以太網(wǎng)智能網(wǎng)卡,使網(wǎng)絡(luò)數(shù)據(jù)通過(guò) DMA 以 50GB / s 的速度直接傳輸?shù)?H100,能夠避免帶寬瓶頸,為 I / O 密集型應(yīng)用提供更強(qiáng)勁的性能。

  02. 更強(qiáng)企業(yè)級(jí) AI 系統(tǒng),全球最快 AI 超算

  基于 H100,英偉達(dá)最先進(jìn)的企業(yè)級(jí) AI 基礎(chǔ)設(shè)施 DGX H100 系統(tǒng)、DGX POD、DGX SuperPOD 以及一一登場(chǎng)。它們將從今年第三季度開始供應(yīng)。

  黃仁勛稱,在財(cái)富 10 強(qiáng)企業(yè)和 100 強(qiáng)企業(yè)中,分別有 8 家和 44 家企業(yè)使用 DGX 作為 AI 基礎(chǔ)架構(gòu)。

  英偉達(dá) DGX 系統(tǒng)現(xiàn)在包含英偉達(dá) AI Enterprise 軟件套件,該套件新增了對(duì)裸金屬基礎(chǔ)設(shè)施的支持。DGX 客戶可使用軟件套件中的預(yù)訓(xùn)練 AI 平臺(tái)模型、工具包和框架來(lái)加快工作速度。

  1、DGX H100:最先進(jìn)的企業(yè)級(jí) AI 基礎(chǔ)設(shè)施

  第四代英偉達(dá) DGX 系統(tǒng) DGX H100 是一款基于英偉達(dá) H100 Tensor Core GPU 的 AI 平臺(tái)。

  每個(gè) DGX H100 系統(tǒng)配備 8 塊 H100 GPU,總計(jì)有 6400 億個(gè)晶體管,由 NVLink 連接,在全新的 FP8 精度下 AI 性能可達(dá) 32Petaflops,比上一代系統(tǒng)性能高 6 倍。

  DGX H100 系統(tǒng)中每塊 GPU 都通過(guò)第四代 NVLink 連接,可提供 900GB / s 的帶寬,是上一代系統(tǒng)的 1.5 倍。DGX H100 的顯存帶寬可達(dá) 24TB / s。

  該系統(tǒng)支持雙 x86 CPU,每個(gè)系統(tǒng)還包含 2 個(gè)英偉達(dá) BlueField-3 DPU,用于卸載、加速和隔離高級(jí)網(wǎng)絡(luò)、存儲(chǔ)及安全服務(wù)。

  8 個(gè)英偉達(dá) ConnectX-7 Quantum-2 InfiniBand 網(wǎng)卡能夠提供 400GB / s 的吞吐量,可用于連接計(jì)算和存儲(chǔ),這一速度比上一代系統(tǒng)提升了 1 倍。

  2、DGX SuperPOD:FP8 AI 性能達(dá) 1Exaflops

  DGX H100 系統(tǒng)是新一代英偉達(dá) DGX POD 和 DGX SuperPOD 超級(jí)計(jì)算機(jī)的構(gòu)建模塊。

  借助 NVLink Switch 系統(tǒng),擁有 32 個(gè)節(jié)點(diǎn)、256 個(gè) GPU 的 DGX Pod,其 HBM3 顯存達(dá) 20.5TB,顯存帶寬高達(dá) 768TB / s。

  “相比之下,整個(gè)互聯(lián)網(wǎng)不過(guò)只有 100TB / s。”黃仁勛感慨道。每個(gè) DGX 都可借助 4 端口光學(xué)收發(fā)器連接到 NVLink Switch,每個(gè)端口都有 8 個(gè) 100G-PAM4 通道,每秒能夠傳輸 100GB,32 個(gè) NVLink 收發(fā)器連接到 1 個(gè)機(jī)架單元的 NVLink Switch 系統(tǒng)。

  新一代 DGX SuperPOD 可提供 1Exaflops 的 FP8 AI 性能,比上一代產(chǎn)品性能高 6 倍,能夠運(yùn)行具有數(shù)萬(wàn)億參數(shù)的大型語(yǔ)言模型工作負(fù)載;還有 20TB 的 HBM3 顯存、192TFLOPS 的 SHARP 網(wǎng)絡(luò)計(jì)算性能。

  通過(guò)采用 Quantum-2 InfiniBand 連接及 NVLink Switch 系統(tǒng),新 DGX SuperPOD 架構(gòu)在 GPU 之間移動(dòng)數(shù)據(jù)的帶寬高達(dá) 70TB / s,比上一代高 11 倍。

  Quantum-2 InfiniBand 交換機(jī)芯片擁有 570 億個(gè)晶體管,能提供 64 個(gè) 400Gbps 端口。多個(gè) DGX SuperPOD 單元可組合使用。

  此外,英偉達(dá)推出新的 DGX-Ready 托管服務(wù)計(jì)劃,以助力簡(jiǎn)化 AI 部署。其 DGX Foundry 托管的開發(fā)解決方案正在全球擴(kuò)展,北美、歐洲和亞洲的新增地點(diǎn)支持遠(yuǎn)程訪問(wèn) DGX SuperPOD。

  DGX Foundry 中包含英偉達(dá) Base Command 軟件,該軟件能夠使客戶基于 DGX SuperPOD 基礎(chǔ)設(shè)施,輕松管理端到端 AI 開發(fā)生命周期。

  3、Eos:全球運(yùn)行速度最快的 AI 超算

  黃仁勛還透露說(shuō),英偉達(dá)正在打造 Eos 超級(jí)計(jì)算機(jī),并稱這是“首個(gè) Hopper AI 工廠”,將于數(shù)月后推出。

  該超算包含 18 個(gè) DGX POD、576 臺(tái) DGX H100 系統(tǒng),共計(jì) 4608 塊 DGX H100 GPU,預(yù)計(jì)將提供 18.4Exaflops 的 AI 算力,這比目前運(yùn)行速度最快的日本富岳(Fugaku)超級(jí)計(jì)算機(jī)快 4 倍。在傳統(tǒng)科學(xué)計(jì)算方面,Eos 預(yù)計(jì)可提供 275Petaflops 的性能。

  03. 由兩個(gè) CPU 組成的超級(jí)芯片

  除了 GPU 外,英偉達(dá)數(shù)據(jù)中心“三芯”戰(zhàn)略中另一大支柱 CPU 也有新進(jìn)展。

  今日,英偉達(dá)推出首款面向 HPC 和 AI 基礎(chǔ)設(shè)施的基于 Arm Neoverse 的數(shù)據(jù)中心專屬 CPU——Grace CPU 超級(jí)芯片。

  這被黃仁勛稱作“AI 工廠的理想 CPU”。

  據(jù)介紹,Grace Hopper 超級(jí)芯片模組能在 CPU 與 GPU 之間進(jìn)行芯片間的直接連接,其關(guān)鍵驅(qū)動(dòng)技術(shù)是內(nèi)存一致性芯片之間的 NVLink 互連,每個(gè)鏈路的速度達(dá)到 900GB / s。

  Grace CPU 超級(jí)芯片也可以是由兩個(gè) CPU 芯片組成。它們之間通過(guò)高速、低延遲的芯片到芯片互連技術(shù) NVLink-C2C 連在一起。

  它基于最新的 Armv9 架構(gòu),單個(gè) socket 擁有 144 個(gè) CPU 核心,具備最高的單線程核心性能,支持 Arm 新一代矢量擴(kuò)展。

  在 SPECrate?2017_int_base 基準(zhǔn)測(cè)試中,Grace CPU 超級(jí)芯片的模擬性能得分為 740,據(jù)英偉達(dá)實(shí)驗(yàn)室使用同類編譯器估算,這一結(jié)果相比當(dāng)前 DGX A100 搭載的雙 CPU 高 1.5 倍以上。

  此外,Grace CPU 超級(jí)芯片可實(shí)現(xiàn)當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的 2 倍。

  其依托帶有糾錯(cuò)碼的 LPDDR5x 內(nèi)存組成的創(chuàng)新的內(nèi)存子系統(tǒng),能實(shí)現(xiàn)速度和功耗的最佳平衡。LPDDR5x 內(nèi)存子系統(tǒng)提供兩倍于傳統(tǒng) DDR5 設(shè)計(jì)的帶寬,可達(dá)到 1TB / s,同時(shí)功耗也大幅降低,CPU 加內(nèi)存整體功耗僅 500 瓦。

  Grace CPU 超級(jí)芯片可運(yùn)行所有的英偉達(dá)計(jì)算軟件棧,結(jié)合英偉達(dá) ConnectX-7 網(wǎng)卡,能夠靈活地配置到服務(wù)器中,或作為獨(dú)立的純 CPU 系統(tǒng),或作為 GPU 加速服務(wù)器,可以搭配 1 塊、2 塊、4 塊或 8 塊基于 Hopper 的 GPU。

  也就是說(shuō),用戶只維護(hù)一套軟件棧,就能針對(duì)自身特定的工作負(fù)載做好性能優(yōu)化。

  黃仁勛說(shuō),Grace 超級(jí)芯片有望明年開始供貨。

  04. 為定制芯片集成開放 NVLink 將支持 UCIe 小芯片標(biāo)準(zhǔn)

  我們單獨(dú)來(lái)說(shuō)一下 NVLink-C2C 技術(shù)。

  前面說(shuō)的 Grace CPU 超級(jí)芯片系列、去年發(fā)布的 Grace Hopper 超級(jí)芯片都采用了這一技術(shù)來(lái)連接處理器芯片。

  NVIDIA 超大規(guī)模計(jì)算副總裁 Ian Buck 認(rèn)為:“為應(yīng)對(duì)摩爾定律發(fā)展趨緩的局面,必須開發(fā)小芯片和異構(gòu)計(jì)算?!?/p>

  因此,英偉達(dá)利用其在高速互連方面的專業(yè)知識(shí)開發(fā)出統(tǒng)一、開放的 NVLink-C2C 互連技術(shù)。

  該技術(shù)將支持定制裸片與英偉達(dá) GPU、CPU、DPU、NIC 和 SoC 之間實(shí)現(xiàn)一致的互連,從而通過(guò)小芯片構(gòu)建出新型的集成產(chǎn)品,助力數(shù)據(jù)中心打造新一代的系統(tǒng)級(jí)集成。

  NVLink-C2C 現(xiàn)已為半定制芯片開放,支持其與 NVIDIA 技術(shù)的集成。

  通過(guò)采用先進(jìn)的封裝技術(shù),英偉達(dá) NVLink-C2C 互連鏈路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍,面積效率高出 90 倍,可實(shí)現(xiàn)每秒 900GB 乃至更高的一致互聯(lián)帶寬。

  NVLink-C2C 支持 Arm AMBA 一致性集線器接口(AMBA CHI)協(xié)議,或 CXL 工業(yè)標(biāo)準(zhǔn)協(xié)議,可實(shí)現(xiàn)設(shè)備間的互操作性。當(dāng)前英偉達(dá)和 Arm 正在密切合作,以強(qiáng)化 AMBA CHI 來(lái)支持與其他互連處理器完全一致且安全的加速器。

  NVIDIA NVLink-C2C 依托于英偉達(dá)的 SERDES 和 LINK 設(shè)計(jì)技術(shù),可從 PCB 級(jí)集成和多芯片模組擴(kuò)展到硅插入器和晶圓級(jí)連接。這可提供極高的帶寬,同時(shí)優(yōu)化能效和裸片面積效率。

  除 NVLink-C2C 之外,NVIDIA 還將支持本月早些時(shí)候發(fā)布的通用小芯片互連傳輸通道 UCIe 標(biāo)準(zhǔn)。

  ▲ UCIe 標(biāo)準(zhǔn)

  與 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 標(biāo)準(zhǔn),也可以使用 NVLink-C2C,而后者經(jīng)過(guò)優(yōu)化,延遲更低、帶寬更高、能效更高。

  05. AI 軟件:對(duì)話式 AI 服務(wù)全面發(fā)行 推出推薦系統(tǒng) AI 框架 1.0 版本

  如今英偉達(dá)已經(jīng)能提供全棧 AI,除了 AI 計(jì)算硬件外,其 AI 軟件也有不少進(jìn)展。

  黃仁勛說(shuō),AI 已經(jīng)從根本上改變了軟件的能力以及開發(fā)軟件的方式,過(guò)去十年,英偉達(dá)加速計(jì)算在 AI 領(lǐng)域?qū)崿F(xiàn)了百萬(wàn)倍的加速。

  今日,英偉達(dá)發(fā)布了 60 多個(gè)針對(duì) CUDA-X 的一系列庫(kù)、工具和技術(shù)的更新,以加速量子計(jì)算和 6G 研究、網(wǎng)絡(luò)安全、基因組學(xué)、藥物研發(fā)等領(lǐng)域的研究進(jìn)展。

  英偉達(dá)將使用其首臺(tái) AI 數(shù)字孿生超級(jí)計(jì)算機(jī) Earth-2 來(lái)應(yīng)對(duì)氣候變化挑戰(zhàn),并創(chuàng)建了 Physics-ML 模型來(lái)模擬全球天氣模式的動(dòng)態(tài)變化。

  英偉達(dá)還與來(lái)自加州理工學(xué)院、伯克利實(shí)驗(yàn)室等高校及科研機(jī)構(gòu)的研究人員們開發(fā)了一個(gè)天氣預(yù)報(bào) AI 模型 FourCastNet,該模型基于 10TB 的地球系統(tǒng)數(shù)據(jù)進(jìn)行訓(xùn)練,首次在降水預(yù)測(cè)上達(dá)到比先進(jìn)的數(shù)值模型更高的準(zhǔn)確率,并使預(yù)測(cè)速度提高了 4~5 個(gè)數(shù)量級(jí)。以前,傳統(tǒng)的數(shù)值模擬需要一年時(shí)間,而現(xiàn)在只需幾分鐘。

  NVIDIA Triton 是一款開源的、超大規(guī)模的模型推理服務(wù)器,是 AI 部署的“中央車站”,它支持 CNN、RNN、GNN、Transformer 等各種模型、各類 AI 框架及各類機(jī)器學(xué)習(xí)平臺(tái),支持在云、本地、邊緣或嵌入式設(shè)備運(yùn)行。

  同時(shí),黃仁勛宣布英偉達(dá)對(duì)話式 AI 服務(wù) Riva 全面發(fā)行,Riva 2.0 版本支持識(shí)別 7 種語(yǔ)言,可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語(yǔ)音,用戶可通過(guò)其 TAO 遷移學(xué)習(xí)工具包進(jìn)行自定義調(diào)優(yōu)。

  Maxine 是一個(gè) AI 模型工具包,現(xiàn)已擁有 30 個(gè)先進(jìn)模型,可優(yōu)化實(shí)時(shí)視頻通信的視聽效果。比如開遠(yuǎn)程視頻會(huì)議時(shí),Maxine 可實(shí)現(xiàn)說(shuō)話者與所有參會(huì)者保持眼神交流,并能將說(shuō)的語(yǔ)言實(shí)時(shí)切換成另一種語(yǔ)言,而且音色聽起來(lái)不變。

  本次 GTC 發(fā)布的版本增加了用于回聲消除和音頻超分辨率的新模型。

  此外,黃仁勛也宣布推出英偉達(dá)面向推薦系統(tǒng)的 AI 框架 Merlin 的 1.0 版本。

  Merlin 可幫助企業(yè)快速構(gòu)建、部署和擴(kuò)展先進(jìn)的 AI 推薦系統(tǒng)。比如,微信用 Merlin 將短視頻推薦延遲縮短為原來(lái)的 1/4,并將吞吐量提升了 10 倍。從 CPU 遷移至 GPU,騰訊在該業(yè)務(wù)上的成本減少了 1/2。

  在醫(yī)療健康領(lǐng)域,黃仁勛談道,過(guò)去幾年,AI 藥研初創(chuàng)公司獲得了超 400 億美元的投資,數(shù)字生物學(xué)革命的條件已經(jīng)成熟,他稱這將是“NVIDIA AI 迄今為止最偉大的使命”。

  6G 標(biāo)準(zhǔn)于 2026 年左右問(wèn)世,一些相關(guān)基礎(chǔ)技術(shù)逐漸成形。對(duì)此,黃仁勛宣布推出了一款用于 6G 通信研究的 AI 框架 Sionna。

  06. Omniverse:首推數(shù)字孿生 專用服務(wù)器和超級(jí)集群

  黃仁勛認(rèn)為,第一波 AI 學(xué)習(xí)是感知和推理,下一波 AI 的發(fā)展方向是機(jī)器人,也就是使用 AI 規(guī)劃行動(dòng)。英偉達(dá) Omniverse 平臺(tái)也正成為制造機(jī)器人軟件時(shí)必不可少的工具。

  作為虛擬世界的仿真引擎,Omniverse 平臺(tái)能遵循物理學(xué)定律,構(gòu)建一個(gè)趨真的數(shù)字世界,可以應(yīng)用于使用不同工具的設(shè)計(jì)師之間的遠(yuǎn)程協(xié)作,以及工業(yè)數(shù)字孿生。

  黃仁勛認(rèn)為,工業(yè)數(shù)字孿生需要一種專門構(gòu)建的新型計(jì)算機(jī),因此英偉達(dá)打造了面向工業(yè)數(shù)字孿生的 OVX 服務(wù)器和 OVX SuperPOD 超級(jí)集群。

  OVX 是首款 Omniverse 計(jì)算系統(tǒng),由 8 個(gè)英偉達(dá) A40 RTX GPU、3 個(gè) ConnectX-6 200Gbps 網(wǎng)卡(NIC)和 2 個(gè)英特爾至強(qiáng) Ice Lake CPU 組成。

  32 臺(tái) OVX 服務(wù)器可構(gòu)成 OVX SuperPOD 超級(jí)集群,實(shí)現(xiàn)這一連接的關(guān)鍵設(shè)施是英偉達(dá)今日新推出的 Spectrum-4 以太網(wǎng)平臺(tái)。

  據(jù)悉,這是全球首個(gè) 400Gbps 端到端網(wǎng)絡(luò)平臺(tái),其交換吞吐量比前幾代產(chǎn)品高出 4 倍,聚合 ASIC 帶寬達(dá)到 51.2Tbps,支持 128 個(gè) 400GbE 端口。

  Spectrum-4 實(shí)現(xiàn)了納秒級(jí)計(jì)時(shí)精度,相比典型數(shù)據(jù)中心毫秒級(jí)抖動(dòng)提升了 5~6 個(gè)數(shù)量級(jí)。這款交換機(jī)還能加速、簡(jiǎn)化和保護(hù)網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比,其每個(gè)端口的帶寬提高了 2 倍,交換機(jī)數(shù)量減少到 1/4,功耗降低了 40%。

  該平臺(tái)由英偉達(dá) Spectrum-4 交換機(jī)系列、ConnectX-7 智能網(wǎng)卡、BlueField-3 DPU 和 DOCA 數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成,可提高 AI 應(yīng)用、數(shù)字孿生和云基礎(chǔ)架構(gòu)的性能和可擴(kuò)展性,大幅加速大規(guī)模云原生應(yīng)用。

  Spectrum-4 ASIC 和 SN5000 交換機(jī)系列基于 4nm 工藝,有 1000 億個(gè)晶體管,并經(jīng)過(guò)簡(jiǎn)化的收發(fā)器設(shè)計(jì),實(shí)現(xiàn)領(lǐng)先的能效和總擁有成本。

  Spectrum-4 可在所有端口之間公平分配帶寬,支持自適應(yīng)路由選擇和增強(qiáng)擁塞控制機(jī)制,能顯著提升數(shù)據(jù)中心的應(yīng)用速度。

  Spectrum-4 ASIC 具有 12.8Tbp 加密帶寬和領(lǐng)先的安全功能,例如支持 MACsec 和 VXLANsec,并通過(guò)硬件信任根將安全啟動(dòng)作為默認(rèn)設(shè)置,幫助確保數(shù)據(jù)流和網(wǎng)絡(luò)管理的安全性和完整性。

  現(xiàn)在各大計(jì)算機(jī)制造商紛紛推出 OVX 服務(wù)器,對(duì)于想在 OVX 試用 Omniverse 的客戶,英偉達(dá)在全球多地提供 LaunchPad 計(jì)劃,第一代 OVX 正由英偉達(dá)和早期客戶運(yùn)行,第二代 OVX 正被構(gòu)建中。Spectrum-4 的樣機(jī)將在今年第四季度末發(fā)布。

  隨后,曾在往屆 GTC 大會(huì)展示過(guò)的黃仁勛虛擬化身“玩偶老黃”Toy Jensen 再度現(xiàn)身。

  它不是錄像,而能做到完全實(shí)時(shí)地進(jìn)行眼神交流與對(duì)話。黃仁勛現(xiàn)場(chǎng)問(wèn)它“什么是合成生物學(xué)”、“你是如何制作出來(lái)的”等問(wèn)題,它都對(duì)答如流。

  使用英偉達(dá) Omniverse Avatar 框架,企業(yè)就能快速構(gòu)建和部署像 Toy Jensen 這樣的虛擬形象,從模仿聲音到細(xì)微的頭部及身體運(yùn)動(dòng),乃至高保真度的形象塑造,都讓虛擬人更加靈動(dòng)。

  最后,得益于 Riva 中的最新對(duì)話式 AI 技術(shù)和超大語(yǔ)言模型 Megatron 530B NLP,虛擬人可以聽懂你問(wèn)的問(wèn)題,也能跟你實(shí)時(shí)聊天互動(dòng)。

  在此基礎(chǔ)上,英偉達(dá)宣布將推出 Omniverse Cloud。通過(guò) Omniverse Cloud 連接,協(xié)作者們使用英偉達(dá) RTX PC、筆記本電腦和工作站,均可實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)協(xié)同工作。

  用戶如果沒有 RTX 計(jì)算機(jī),只需點(diǎn)擊一下,即可從 GeForce Now 上啟動(dòng) Omniverse。

  07. 汽車:預(yù)告 DRIVE Hyperion9 推出多模態(tài)地圖引擎

  Omniverse 平臺(tái)是整個(gè)工作流程的核心,DRIVE 平臺(tái)則相當(dāng)于 AI 司機(jī)。

  黃仁勛宣布下一代 DRIVE Hyperion 9 將從 2026 年起搭載到汽車中,它將擁有 14 個(gè)攝像頭、9 個(gè)雷達(dá)、3 個(gè)激光雷達(dá)和 20 個(gè)超聲傳感器,總體傳感器數(shù)量將是 Hyperion 8 的兩倍。

  此外,英偉達(dá)推出了一種多模態(tài)地圖引擎 NVIDIA DRIVE Map,包含攝像頭、激光雷達(dá)和雷達(dá)的數(shù)據(jù),同時(shí)兼顧安全性。

  DRIVE Map 有兩個(gè)地圖引擎,真值測(cè)繪地圖引擎和眾包車隊(duì)地圖引擎。黃仁勛談道,到 2024 年,他們預(yù)計(jì)繪制并創(chuàng)建北美、西歐和亞洲所有主要公路的數(shù)字孿生,總長(zhǎng)度約為 50 萬(wàn)公里。

  “我們正在構(gòu)建地球級(jí)別的自動(dòng)駕駛車隊(duì)數(shù)字孿生?!秉S仁勛說(shuō)。

  合作方面,全球第二大電動(dòng)汽車制造商比亞迪將在 2023 年上半年開始投產(chǎn)的汽車中搭載 DRIVE Orin 計(jì)算平臺(tái)。自動(dòng)駕駛獨(dú)角獸企業(yè)元戎啟行、中國(guó)自動(dòng)駕駛創(chuàng)企云驥智行也宣布將在其 L4 級(jí)自動(dòng)駕駛車規(guī)級(jí)量產(chǎn)方案中搭載 NVIDIA DRIVE Orin SoC 芯片。

  美國(guó)電動(dòng)汽車公司 Lucid Motors、中國(guó) L4 級(jí)自動(dòng)駕駛科技公司文遠(yuǎn)知行、中國(guó)新型電動(dòng)車公司悠跑科技均宣布將應(yīng)用英偉達(dá) DRIVE Hyperion 自動(dòng)駕駛汽車平臺(tái)。

  08. 機(jī)器人平臺(tái):從醫(yī)療設(shè)備到自主移動(dòng)機(jī)器人

  黃仁勛認(rèn)為下一波 AI 浪潮是機(jī)器人,英偉達(dá)正在構(gòu)建多個(gè)機(jī)器人平臺(tái),包括用于自動(dòng)駕駛汽車的 DRIVE、用于操縱和控制系統(tǒng)的 Isaac、用于自主式基礎(chǔ)架構(gòu)的 Metropolis、用于醫(yī)療設(shè)備的 Holoscan 等。

  他將機(jī)器人系統(tǒng)的工作流程簡(jiǎn)化為真值數(shù)據(jù)生成、AI 模型訓(xùn)練、Omniverse 數(shù)字孿生、機(jī)器人技術(shù)棧四大支柱。

  Clara Holoscan MGX 是一個(gè)開放可擴(kuò)展的機(jī)器人平臺(tái),其設(shè)計(jì)符合 IEC-62304 醫(yī)療級(jí)規(guī)格,核心計(jì)算機(jī)為 Jetson AGX Orin 和 ConnectX-7 智能網(wǎng)卡,并可選配 NVIDIA RTX A6000 GPU。

  該平臺(tái) AI 算力可達(dá)每秒 254~610 萬(wàn)億次運(yùn)算,目前向早期體驗(yàn)客戶開放,正式上市時(shí)間是 5 月,并將于 2023 年第一季度完成醫(yī)療級(jí)準(zhǔn)備。

  Metropolis 平臺(tái)的下載量已經(jīng)達(dá)到 30 萬(wàn)次,擁有 1000 多個(gè)生態(tài)系統(tǒng)合作伙伴,并在超過(guò) 100 萬(wàn)個(gè)設(shè)施中運(yùn)營(yíng)。

  機(jī)器人發(fā)展最快的領(lǐng)域之一是自主移動(dòng)機(jī)器人(AMR),它本質(zhì)上是室內(nèi)無(wú)人駕駛,速度偏低但環(huán)境高度非結(jié)構(gòu)化。

  今天,英偉達(dá)推出 Isaac for AMR,它有四大核心:用于真值生成的 NVIDIA DeepMap、用于訓(xùn)練模型的 NVIDIA AI、搭載 Orin 的 AMR 機(jī)器人參考設(shè)計(jì)、Isaac 機(jī)器人技術(shù)堆棧中的新 Gem 及基于 Omniverse 的新版 Isaac Sim,每個(gè)都單獨(dú)可用且完全開放。

  與 DRIVE Hyperion 類似,Isaac Nova 是一個(gè) AMR 機(jī)器人系統(tǒng)參考設(shè)計(jì),整個(gè) Isaac 堆棧都基于此構(gòu)建。Nova 有 2 個(gè)攝像頭、2 個(gè)激光雷達(dá)、8 個(gè)超聲波雷達(dá)和 4 個(gè)魚眼攝像頭。

  英偉達(dá)還宣布推出 Jetson Orin 開發(fā)者套件,以在邊緣實(shí)現(xiàn)服務(wù)器級(jí)的 AI 性能。

  Nova AMR 將于第二季度上市,它將配備英偉達(dá)新的 DeepMap 雷達(dá)制圖系統(tǒng),可以掃描和重建環(huán)境,以進(jìn)行路線規(guī)劃和數(shù)字孿生仿真。

  09. 結(jié)語(yǔ):AI 開發(fā)者的前沿技術(shù)盛宴

  這些年來(lái),英偉達(dá) GTC 大會(huì)已經(jīng)成為一場(chǎng)面向 AI、HPC、科學(xué)計(jì)算、數(shù)字孿生及自動(dòng)駕駛等諸多前沿領(lǐng)域的技術(shù)盛宴。

  在這場(chǎng)盛宴中,我們不僅看到技術(shù)突破如果改變各行各業(yè)的生產(chǎn)效率和工作方式,也看到英偉達(dá)圍繞計(jì)算世界的最新布局。

  隨著新一代大規(guī)模云技術(shù)的出現(xiàn),數(shù)據(jù)中心架構(gòu)有待轉(zhuǎn)型。在穩(wěn)擁 GPU 基本盤的基礎(chǔ)之上,英偉達(dá)的角色正從圖形顯示和加速計(jì)算“偏科學(xué)霸”,轉(zhuǎn)向圍繞數(shù)據(jù)中心三大芯片支柱全面發(fā)展。

  黃仁勛認(rèn)為,數(shù)據(jù)中心正在轉(zhuǎn)變成“AI 工廠”,它通過(guò)處理海量的數(shù)據(jù)來(lái)實(shí)現(xiàn)智能,而今日推出的 H100 便是實(shí)現(xiàn)企業(yè) AI 業(yè)務(wù)加速的引擎。

  H100 的多項(xiàng)技術(shù)創(chuàng)新,數(shù)據(jù)中心專屬 Grace CPU 超級(jí)芯片的特殊設(shè)計(jì),以及 AI 和 Omniverse 平臺(tái)的持續(xù)升級(jí),進(jìn)一步擴(kuò)大了英偉達(dá)在加速 AI 訓(xùn)練及推理領(lǐng)域的領(lǐng)導(dǎo)地位。

  在為期 4 天的英偉達(dá) GTC 大會(huì)上,我們還將看到更多不同細(xì)分領(lǐng)域的專家,分享他們?nèi)绾卫?AI 和加速計(jì)算領(lǐng)域的技術(shù)創(chuàng)新,來(lái)開展各類開創(chuàng)性的研究或解決正面臨的挑戰(zhàn)。