一级毛片男女做受,办公室疯狂高潮呻吟摸揉,亚洲国产精品成人午夜在线观看

英偉達(dá)連甩 20 枚 AI 核彈：800 億晶體管 GPU、144 核 CPU 來(lái)了

2022-03-24 10:34 芯東西

導(dǎo)讀：延續(xù)以往風(fēng)格，黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣，公布多個(gè)“全球首款”。這次他帶來(lái)一系列堪稱“地表最強(qiáng)”的 AI 重磅新品，隨便一個(gè)精度的 AI 性能，都比上一代 A100 高出 3~6 倍。

　　近日，NVIDIA（英偉達(dá)）攜基于最新 Hopper 架構(gòu)的 H100 GPU 系列新品高調(diào)回歸！

　　英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛依然穿著皮衣，不過(guò)這次他沒有出現(xiàn)在幾乎已成 GTC 大會(huì)“標(biāo)配”的廚房場(chǎng)景中，而是在一個(gè)更具科幻感的虛擬空間。

　　延續(xù)以往風(fēng)格，黃仁勛在主題演講中繼續(xù)秒天秒地秒空氣，公布多個(gè)“全球首款”。這次他帶來(lái)一系列堪稱“地表最強(qiáng)”的 AI 重磅新品，隨便一個(gè)精度的 AI 性能，都比上一代 A100 高出 3~6 倍。

　　雖然英偉達(dá)并購(gòu) Arm 的計(jì)劃剛剛告吹，但它的數(shù)據(jù)中心“三芯”總路線（GPU+DPU+CPU）依然不動(dòng)搖 —— 繼去年推出其首款數(shù)據(jù)中心 CPU 后，今天，英偉達(dá)又亮出一款基于 Arm 架構(gòu)的 Grace CPU 超級(jí)芯片。

　　此外，黃仁勛再次派出自己的虛擬數(shù)字人化身“玩偶老黃”Toy Jensen，并跟這個(gè)表情生動(dòng)的玩偶進(jìn)行了一番流暢的實(shí)時(shí)問(wèn)答對(duì)話。

　　憑借押中圖形處理和人工智能（AI）兩大賽道，英偉達(dá)已經(jīng)成為全球半導(dǎo)體市值 TOP1。截至文章發(fā)布時(shí)間，英偉達(dá)的市值超過(guò) 6600 億美元，比第二名臺(tái)積電足足多了近 1100 億美元。

　　下面就讓我們來(lái)看看本場(chǎng) GTC 大會(huì)的完整干貨：

　　1、H100 GPU：采用臺(tái)積電 4N 工藝，擁有 800 億個(gè)晶體管，實(shí)現(xiàn)了首個(gè) GPU 機(jī)密計(jì)算，相比 A100，F(xiàn)P8 性能提升 6 倍，F(xiàn)P16、TF32、FP64 性能各提升 3 倍。

　　2、全新 NVLink Switch 系統(tǒng)：高度可擴(kuò)展，支持 256 塊 H100 GPU 互連。

　　3、融合加速器 H100 CNX：耦合 H100 GPU 與 ConnectX-7 和以太網(wǎng)智能網(wǎng)卡，可為 I / O 密集型應(yīng)用提供更強(qiáng)勁的性能。

　　4、DGX H100：配備 8 塊 H100 GPU，總計(jì)有 6400 億個(gè)晶體管，在全新的 FP8 精度下 AI 性能比上一代高 6 倍，可提供 900GB / s 的帶寬。

　　5、DGX SuperPOD：最多由 32 個(gè) DGX H100 組成，AI 算力可達(dá) 1EFLOPS。

　　6、Eos 超級(jí)計(jì)算機(jī)：全球運(yùn)行速度最快的 AI 超級(jí)計(jì)算機(jī)，配備 576 臺(tái) DGX H100 系統(tǒng)，F(xiàn)P8 算力達(dá)到 18EFLOPS，F(xiàn)P64 算力達(dá)到 275PFLOPS。

　　7、Grace CPU 超級(jí)芯片：由兩個(gè) CPU 芯片組成，采用最新 Armv9 架構(gòu)，擁有 144 個(gè) CPU 核心和 1TB / s 的內(nèi)存帶寬，將于 2023 年上半年供貨。

　　8、為定制芯片集成開放 NVLink：采用先進(jìn)封裝技術(shù)，與英偉達(dá)芯片上的 PCIe Gen 5 相比，能源效率高 25 倍，面積效率高 90 倍。英偉達(dá)還將支持通用小芯片互連傳輸通道 UCIe 標(biāo)準(zhǔn)。

　　9、CUDA-X：60 多個(gè)針對(duì) CUDA-X 的一系列庫(kù)、工具和技術(shù)的更新。

　　10、Riva 2.0：對(duì)話式 AI 服務(wù) Riva 全面發(fā)行，2.0 版本支持識(shí)別 7 種語(yǔ)言，可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語(yǔ)音。

　　11、Merlin 1.0：可幫助企業(yè)快速構(gòu)建、部署和擴(kuò)展先進(jìn)的 AI 推薦系統(tǒng)。

　　12、Sionna：一款用于 6G 通信研究的 AI 框架。

　　13、OVX 與 OVX SuperPod：面向工業(yè)數(shù)字孿生的數(shù)據(jù)中心級(jí)服務(wù)器和超級(jí)集群。

　　14、Spectrum-4：全球首個(gè) 400Gbps 端到端網(wǎng)絡(luò)平臺(tái)，交換吞吐量比前幾代產(chǎn)品高出 4 倍，達(dá)到 51.2Tbps。

　　15、Omniverse Cloud：支持協(xié)作者們隨時(shí)隨地實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)協(xié)同工作。

　　16、DRIVE Hyperion 9：汽車參考設(shè)計(jì)，擁有 14 個(gè)攝像頭、9 個(gè)雷達(dá)、3 個(gè)激光雷達(dá)和 20 個(gè)超聲傳感器，總體傳感器數(shù)量是上一代的兩倍。

　　17、DRIVE Map：多模態(tài)地圖引擎，包含攝像頭、激光雷達(dá)和雷達(dá)的數(shù)據(jù)，同時(shí)兼顧安全性。

　　18、Clara HoloscanMGX：可供醫(yī)療設(shè)備行業(yè)在邊緣開發(fā)和部署實(shí)時(shí) AI 應(yīng)用的計(jì)算平臺(tái)，AI 算力可達(dá)每秒 254~610 萬(wàn)億次運(yùn)算。

　　19、Isaac for AMR：提供自主移動(dòng)機(jī)器人系統(tǒng)參考設(shè)計(jì)。

　　20、Jetson AGX Orin 開發(fā)者套件：在邊緣實(shí)現(xiàn)服務(wù)器級(jí)的 AI 性能。

　　黃仁勛還介紹了英偉達(dá)創(chuàng)建的 NVIDIA AI 加速計(jì)劃，通過(guò)與 AI 生態(tài)系統(tǒng)中的開發(fā)者合作，開發(fā)工程化解決方案，以確?？蛻舴判牟渴?。

　　01. H100 GPU：800 億晶體管、六大創(chuàng)新

　　每次英偉達(dá)的 GPU 新架構(gòu)都會(huì)以一位科學(xué)家的名字來(lái)命名，這次同樣如此。

　　新 Hopper 架構(gòu)的命名取自美國(guó)計(jì)算機(jī)科學(xué)家格蕾絲?赫柏（Grace Hopper），她是耶魯大學(xué)第一位數(shù)學(xué)女博士、世界上第三位程序員、全球首個(gè)編譯器的發(fā)明者，也是第一個(gè)發(fā)現(xiàn)“bug”的人。

　　▲ 格蕾絲?赫柏正在教學(xué) COBOL 編程語(yǔ)言

　　1945 年 9 月 9 日，格蕾絲使用的 Mark Ⅱ 機(jī)出現(xiàn)故障，經(jīng)過(guò)近一天的排查，她找到了故障的原因：繼電器中有一只死掉的蛾子。后來(lái)，“bug”（小蟲）和“debug”（除蟲）這兩個(gè)詞匯就作為計(jì)算機(jī)領(lǐng)域的專用詞匯流傳至今。

　　基于 Hopper 架構(gòu)的一系列 AI 計(jì)算新品，被冠上各種“全球首款”。按行業(yè)慣例，但凡比較 AI 算力，必會(huì)拿英偉達(dá)最新旗艦 GPU 作為衡量標(biāo)準(zhǔn)。

　　英偉達(dá)也不例外，先“碾壓”一下自己兩年前發(fā)布的上一代 A100 GPU。

　　作為全球首款基于 Hopper 架構(gòu)的 GPU，英偉達(dá) H100 接過(guò)為加速 AI 和高性能計(jì)算（HPC）扛旗的重任，F(xiàn)P64、TF32、FP16 精度下 AI 性能都達(dá)到 A100 的 3 倍。

　　可以看到，NVIDIA 越來(lái)越熱衷于走稀疏化路線。過(guò)去六年，英偉達(dá)相繼研發(fā)了使用 FP32、FP16 進(jìn)行訓(xùn)練的技術(shù)。此次 H100 的性能介紹又出現(xiàn)了新的 Tensor 處理格式 FP8，而 FP8 精度下的 AI 性能可達(dá)到 4PFLOPS，約為 A100 FP16 的 6 倍。

　　從技術(shù)進(jìn)展來(lái)看，H100 有 6 項(xiàng)突破性創(chuàng)新：

　　1）先進(jìn)芯片：H100 采用臺(tái)積電 4N 工藝、臺(tái)積電 CoWoS 2.5D 封裝，有 800 億個(gè)晶體管（A100 有 540 億個(gè)晶體管），搭載了 HBM3 顯存，可實(shí)現(xiàn)近 5TB / s 的外部互聯(lián)帶寬。

　　H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 標(biāo)準(zhǔn)的 GPU，單個(gè) H100 可支持 40Tb / s 的 IO 帶寬，實(shí)現(xiàn) 3TB / s 的顯存帶寬。黃仁勛說(shuō)，20 塊 H100 GPU 便可承托相當(dāng)于全球互聯(lián)網(wǎng)的流量。

　　2）新 Transformer 引擎：該引擎將新的 Tensor Core 與能使用 FP8 和 FP16 數(shù)字格式的軟件結(jié)合，動(dòng)態(tài)處理 Transformer 網(wǎng)絡(luò)的各個(gè)層，在不影響準(zhǔn)確性的情況下，可將 Transformer 模型的訓(xùn)練時(shí)間從數(shù)周縮短至幾天。

　　3）第二代安全多實(shí)例 GPU：MIG 技術(shù)支持將單個(gè) GPU 分為 7 個(gè)更小且完全獨(dú)立的實(shí)例，以處理不同類型的作業(yè)，為每個(gè) GPU 實(shí)例提供安全的多租戶配置。H100 能托管 7 個(gè)云租戶，而 A100 僅能托管 1 個(gè)，也就是將 MIG 的部分能力擴(kuò)展了 7 倍。每個(gè) H100 實(shí)例的性能相當(dāng)于兩個(gè)完整的英偉達(dá)云推理 T4 GPU。

　　4）機(jī)密計(jì)算：H100 是全球首款具有機(jī)密計(jì)算功能的 GPU 加速器，能保護(hù) AI 模型和正在處理的客戶數(shù)據(jù)，可以應(yīng)用在醫(yī)療健康和金融服務(wù)等隱私敏感型行業(yè)的聯(lián)邦學(xué)習(xí)，以及共享云基礎(chǔ)設(shè)施。

　　5）第 4 代英偉達(dá) NVLink：為了加速大型 AI 模型，NVLink 結(jié)合全新外接 NVLink Switch，可將 NVLink 擴(kuò)展為服務(wù)器間的互聯(lián)網(wǎng)絡(luò)，最多連接多達(dá) 256 個(gè) H100 GPU，相較于上一代采用英偉達(dá) HDR Quantum InfiniBand 網(wǎng)絡(luò)，帶寬高出 9 倍。

　　6）DPX 指令：Hopper 引入了一組名為 DPX 的新指令集，DPX 可加速動(dòng)態(tài)編程算法，解決路徑優(yōu)化、基因組學(xué)等算法優(yōu)化問(wèn)題，與 CPU 和上一代 GPU 相比，其速度提升分別可達(dá) 40 倍和 7 倍。

　　總體來(lái)說(shuō)，H100 的這些技術(shù)優(yōu)化，將對(duì)跑深度推薦系統(tǒng)、大型 AI 語(yǔ)言模型、基因組學(xué)、復(fù)雜數(shù)字孿生、氣候科學(xué)等任務(wù)的效率提升非常明顯。

　　比如，用 H100 支持聊天機(jī)器人使用的 monolithic Transformer 語(yǔ)言模型 Megatron 530B，吞吐量比上一代產(chǎn)品高出 30 倍，同時(shí)能滿足實(shí)時(shí)對(duì)話式 AI 所需的次秒級(jí)延遲。

　　再比如用 H100 訓(xùn)練包含 3950 億個(gè)參數(shù)的混合專家模型，訓(xùn)練速度可加速高達(dá) 9 倍，訓(xùn)練時(shí)間從幾周縮短到幾天。

　　H100 將提供 SXM 和 PCIe 兩種規(guī)格，可滿足各種服務(wù)器設(shè)計(jì)需求。

　　其中 H100SXM 提供 4 GPU 和 8 GPU 配置的 HGX H100 服務(wù)器主板；H100 PCIe 通過(guò) NVLink 連接兩塊 GPU，相較 PCIe 5.0 可提供 7 倍以上的帶寬。PCIe 規(guī)格便于集成到現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設(shè)施中。

　　這兩種規(guī)格的電力需求都大幅增長(zhǎng)。H100 SXM 版的散熱設(shè)計(jì)功耗（TDP）達(dá)到 700W，比 A100 的 400W 高出 75%。據(jù)黃仁勛介紹，H100 采用風(fēng)冷和液冷設(shè)計(jì)。

　　這款產(chǎn)品預(yù)計(jì)于今年晚些時(shí)候全面發(fā)售。阿里云、AWS、百度智能云、谷歌云、微軟 Azure、Oracle Cloud、騰訊云和火山引擎等云服務(wù)商均計(jì)劃推出基于 H100 的實(shí)例。

　　為了將 Hopper 的強(qiáng)大算力引入主流服務(wù)器，英偉達(dá)推出了全新的融合加速器 H100 CNX。它將網(wǎng)絡(luò)與 GPU 直接相連，耦合 H100 GPU 與英偉達(dá) ConnectX-7 400Gb / s InfiniBand 和以太網(wǎng)智能網(wǎng)卡，使網(wǎng)絡(luò)數(shù)據(jù)通過(guò) DMA 以 50GB / s 的速度直接傳輸?shù)?H100，能夠避免帶寬瓶頸，為 I / O 密集型應(yīng)用提供更強(qiáng)勁的性能。

　　02. 更強(qiáng)企業(yè)級(jí) AI 系統(tǒng)，全球最快 AI 超算

　　基于 H100，英偉達(dá)最先進(jìn)的企業(yè)級(jí) AI 基礎(chǔ)設(shè)施 DGX H100 系統(tǒng)、DGX POD、DGX SuperPOD 以及一一登場(chǎng)。它們將從今年第三季度開始供應(yīng)。

　　黃仁勛稱，在財(cái)富 10 強(qiáng)企業(yè)和 100 強(qiáng)企業(yè)中，分別有 8 家和 44 家企業(yè)使用 DGX 作為 AI 基礎(chǔ)架構(gòu)。

　　英偉達(dá) DGX 系統(tǒng)現(xiàn)在包含英偉達(dá) AI Enterprise 軟件套件，該套件新增了對(duì)裸金屬基礎(chǔ)設(shè)施的支持。DGX 客戶可使用軟件套件中的預(yù)訓(xùn)練 AI 平臺(tái)模型、工具包和框架來(lái)加快工作速度。

　　1、DGX H100：最先進(jìn)的企業(yè)級(jí) AI 基礎(chǔ)設(shè)施

　　第四代英偉達(dá) DGX 系統(tǒng) DGX H100 是一款基于英偉達(dá) H100 Tensor Core GPU 的 AI 平臺(tái)。

　　每個(gè) DGX H100 系統(tǒng)配備 8 塊 H100 GPU，總計(jì)有 6400 億個(gè)晶體管，由 NVLink 連接，在全新的 FP8 精度下 AI 性能可達(dá) 32Petaflops，比上一代系統(tǒng)性能高 6 倍。

　　DGX H100 系統(tǒng)中每塊 GPU 都通過(guò)第四代 NVLink 連接，可提供 900GB / s 的帶寬，是上一代系統(tǒng)的 1.5 倍。DGX H100 的顯存帶寬可達(dá) 24TB / s。

　　該系統(tǒng)支持雙 x86 CPU，每個(gè)系統(tǒng)還包含 2 個(gè)英偉達(dá) BlueField-3 DPU，用于卸載、加速和隔離高級(jí)網(wǎng)絡(luò)、存儲(chǔ)及安全服務(wù)。

　　8 個(gè)英偉達(dá) ConnectX-7 Quantum-2 InfiniBand 網(wǎng)卡能夠提供 400GB / s 的吞吐量，可用于連接計(jì)算和存儲(chǔ)，這一速度比上一代系統(tǒng)提升了 1 倍。

　　2、DGX SuperPOD：FP8 AI 性能達(dá) 1Exaflops

　　DGX H100 系統(tǒng)是新一代英偉達(dá) DGX POD 和 DGX SuperPOD 超級(jí)計(jì)算機(jī)的構(gòu)建模塊。

　　借助 NVLink Switch 系統(tǒng)，擁有 32 個(gè)節(jié)點(diǎn)、256 個(gè) GPU 的 DGX Pod，其 HBM3 顯存達(dá) 20.5TB，顯存帶寬高達(dá) 768TB / s。

　　“相比之下，整個(gè)互聯(lián)網(wǎng)不過(guò)只有 100TB / s。”黃仁勛感慨道。每個(gè) DGX 都可借助 4 端口光學(xué)收發(fā)器連接到 NVLink Switch，每個(gè)端口都有 8 個(gè) 100G-PAM4 通道，每秒能夠傳輸 100GB，32 個(gè) NVLink 收發(fā)器連接到 1 個(gè)機(jī)架單元的 NVLink Switch 系統(tǒng)。

　　新一代 DGX SuperPOD 可提供 1Exaflops 的 FP8 AI 性能，比上一代產(chǎn)品性能高 6 倍，能夠運(yùn)行具有數(shù)萬(wàn)億參數(shù)的大型語(yǔ)言模型工作負(fù)載；還有 20TB 的 HBM3 顯存、192TFLOPS 的 SHARP 網(wǎng)絡(luò)計(jì)算性能。

　　通過(guò)采用 Quantum-2 InfiniBand 連接及 NVLink Switch 系統(tǒng)，新 DGX SuperPOD 架構(gòu)在 GPU 之間移動(dòng)數(shù)據(jù)的帶寬高達(dá) 70TB / s，比上一代高 11 倍。

　　Quantum-2 InfiniBand 交換機(jī)芯片擁有 570 億個(gè)晶體管，能提供 64 個(gè) 400Gbps 端口。多個(gè) DGX SuperPOD 單元可組合使用。

　　此外，英偉達(dá)推出新的 DGX-Ready 托管服務(wù)計(jì)劃，以助力簡(jiǎn)化 AI 部署。其 DGX Foundry 托管的開發(fā)解決方案正在全球擴(kuò)展，北美、歐洲和亞洲的新增地點(diǎn)支持遠(yuǎn)程訪問(wèn) DGX SuperPOD。

　　DGX Foundry 中包含英偉達(dá) Base Command 軟件，該軟件能夠使客戶基于 DGX SuperPOD 基礎(chǔ)設(shè)施，輕松管理端到端 AI 開發(fā)生命周期。

　　3、Eos：全球運(yùn)行速度最快的 AI 超算

　　黃仁勛還透露說(shuō)，英偉達(dá)正在打造 Eos 超級(jí)計(jì)算機(jī)，并稱這是“首個(gè) Hopper AI 工廠”，將于數(shù)月后推出。

　　該超算包含 18 個(gè) DGX POD、576 臺(tái) DGX H100 系統(tǒng)，共計(jì) 4608 塊 DGX H100 GPU，預(yù)計(jì)將提供 18.4Exaflops 的 AI 算力，這比目前運(yùn)行速度最快的日本富岳（Fugaku）超級(jí)計(jì)算機(jī)快 4 倍。在傳統(tǒng)科學(xué)計(jì)算方面，Eos 預(yù)計(jì)可提供 275Petaflops 的性能。

　　03. 由兩個(gè) CPU 組成的超級(jí)芯片

　　除了 GPU 外，英偉達(dá)數(shù)據(jù)中心“三芯”戰(zhàn)略中另一大支柱 CPU 也有新進(jìn)展。

　　今日，英偉達(dá)推出首款面向 HPC 和 AI 基礎(chǔ)設(shè)施的基于 Arm Neoverse 的數(shù)據(jù)中心專屬 CPU——Grace CPU 超級(jí)芯片。

　　這被黃仁勛稱作“AI 工廠的理想 CPU”。

　　據(jù)介紹，Grace Hopper 超級(jí)芯片模組能在 CPU 與 GPU 之間進(jìn)行芯片間的直接連接，其關(guān)鍵驅(qū)動(dòng)技術(shù)是內(nèi)存一致性芯片之間的 NVLink 互連，每個(gè)鏈路的速度達(dá)到 900GB / s。

　　Grace CPU 超級(jí)芯片也可以是由兩個(gè) CPU 芯片組成。它們之間通過(guò)高速、低延遲的芯片到芯片互連技術(shù) NVLink-C2C 連在一起。

　　它基于最新的 Armv9 架構(gòu)，單個(gè) socket 擁有 144 個(gè) CPU 核心，具備最高的單線程核心性能，支持 Arm 新一代矢量擴(kuò)展。

　　在 SPECrate?2017_int_base 基準(zhǔn)測(cè)試中，Grace CPU 超級(jí)芯片的模擬性能得分為 740，據(jù)英偉達(dá)實(shí)驗(yàn)室使用同類編譯器估算，這一結(jié)果相比當(dāng)前 DGX A100 搭載的雙 CPU 高 1.5 倍以上。

　　此外，Grace CPU 超級(jí)芯片可實(shí)現(xiàn)當(dāng)今領(lǐng)先服務(wù)器芯片內(nèi)存帶寬和能效的 2 倍。

　　其依托帶有糾錯(cuò)碼的 LPDDR5x 內(nèi)存組成的創(chuàng)新的內(nèi)存子系統(tǒng)，能實(shí)現(xiàn)速度和功耗的最佳平衡。LPDDR5x 內(nèi)存子系統(tǒng)提供兩倍于傳統(tǒng) DDR5 設(shè)計(jì)的帶寬，可達(dá)到 1TB / s，同時(shí)功耗也大幅降低，CPU 加內(nèi)存整體功耗僅 500 瓦。

　　Grace CPU 超級(jí)芯片可運(yùn)行所有的英偉達(dá)計(jì)算軟件棧，結(jié)合英偉達(dá) ConnectX-7 網(wǎng)卡，能夠靈活地配置到服務(wù)器中，或作為獨(dú)立的純 CPU 系統(tǒng)，或作為 GPU 加速服務(wù)器，可以搭配 1 塊、2 塊、4 塊或 8 塊基于 Hopper 的 GPU。

　　也就是說(shuō)，用戶只維護(hù)一套軟件棧，就能針對(duì)自身特定的工作負(fù)載做好性能優(yōu)化。

　　黃仁勛說(shuō)，Grace 超級(jí)芯片有望明年開始供貨。

　　04. 為定制芯片集成開放 NVLink 將支持 UCIe 小芯片標(biāo)準(zhǔn)

　　我們單獨(dú)來(lái)說(shuō)一下 NVLink-C2C 技術(shù)。

　　前面說(shuō)的 Grace CPU 超級(jí)芯片系列、去年發(fā)布的 Grace Hopper 超級(jí)芯片都采用了這一技術(shù)來(lái)連接處理器芯片。

　　NVIDIA 超大規(guī)模計(jì)算副總裁 Ian Buck 認(rèn)為：“為應(yīng)對(duì)摩爾定律發(fā)展趨緩的局面，必須開發(fā)小芯片和異構(gòu)計(jì)算?！?/p>

　　因此，英偉達(dá)利用其在高速互連方面的專業(yè)知識(shí)開發(fā)出統(tǒng)一、開放的 NVLink-C2C 互連技術(shù)。

　　該技術(shù)將支持定制裸片與英偉達(dá) GPU、CPU、DPU、NIC 和 SoC 之間實(shí)現(xiàn)一致的互連，從而通過(guò)小芯片構(gòu)建出新型的集成產(chǎn)品，助力數(shù)據(jù)中心打造新一代的系統(tǒng)級(jí)集成。

　　NVLink-C2C 現(xiàn)已為半定制芯片開放，支持其與 NVIDIA 技術(shù)的集成。

　　通過(guò)采用先進(jìn)的封裝技術(shù)，英偉達(dá) NVLink-C2C 互連鏈路的能效最多可比 NVIDIA 芯片上的 PCIe Gen 5 高出 25 倍，面積效率高出 90 倍，可實(shí)現(xiàn)每秒 900GB 乃至更高的一致互聯(lián)帶寬。

　　NVLink-C2C 支持 Arm AMBA 一致性集線器接口（AMBA CHI）協(xié)議，或 CXL 工業(yè)標(biāo)準(zhǔn)協(xié)議，可實(shí)現(xiàn)設(shè)備間的互操作性。當(dāng)前英偉達(dá)和 Arm 正在密切合作，以強(qiáng)化 AMBA CHI 來(lái)支持與其他互連處理器完全一致且安全的加速器。

　　NVIDIA NVLink-C2C 依托于英偉達(dá)的 SERDES 和 LINK 設(shè)計(jì)技術(shù)，可從 PCB 級(jí)集成和多芯片模組擴(kuò)展到硅插入器和晶圓級(jí)連接。這可提供極高的帶寬，同時(shí)優(yōu)化能效和裸片面積效率。

　　除 NVLink-C2C 之外，NVIDIA 還將支持本月早些時(shí)候發(fā)布的通用小芯片互連傳輸通道 UCIe 標(biāo)準(zhǔn)。

　　▲ UCIe 標(biāo)準(zhǔn)

　　與 NVIDIA 芯片的定制芯片集成既可以使用 UCIe 標(biāo)準(zhǔn)，也可以使用 NVLink-C2C，而后者經(jīng)過(guò)優(yōu)化，延遲更低、帶寬更高、能效更高。

　　05. AI 軟件：對(duì)話式 AI 服務(wù)全面發(fā)行推出推薦系統(tǒng) AI 框架 1.0 版本

　　如今英偉達(dá)已經(jīng)能提供全棧 AI，除了 AI 計(jì)算硬件外，其 AI 軟件也有不少進(jìn)展。

　　黃仁勛說(shuō)，AI 已經(jīng)從根本上改變了軟件的能力以及開發(fā)軟件的方式，過(guò)去十年，英偉達(dá)加速計(jì)算在 AI 領(lǐng)域?qū)崿F(xiàn)了百萬(wàn)倍的加速。

　　今日，英偉達(dá)發(fā)布了 60 多個(gè)針對(duì) CUDA-X 的一系列庫(kù)、工具和技術(shù)的更新，以加速量子計(jì)算和 6G 研究、網(wǎng)絡(luò)安全、基因組學(xué)、藥物研發(fā)等領(lǐng)域的研究進(jìn)展。

　　英偉達(dá)將使用其首臺(tái) AI 數(shù)字孿生超級(jí)計(jì)算機(jī) Earth-2 來(lái)應(yīng)對(duì)氣候變化挑戰(zhàn)，并創(chuàng)建了 Physics-ML 模型來(lái)模擬全球天氣模式的動(dòng)態(tài)變化。

　　英偉達(dá)還與來(lái)自加州理工學(xué)院、伯克利實(shí)驗(yàn)室等高校及科研機(jī)構(gòu)的研究人員們開發(fā)了一個(gè)天氣預(yù)報(bào) AI 模型 FourCastNet，該模型基于 10TB 的地球系統(tǒng)數(shù)據(jù)進(jìn)行訓(xùn)練，首次在降水預(yù)測(cè)上達(dá)到比先進(jìn)的數(shù)值模型更高的準(zhǔn)確率，并使預(yù)測(cè)速度提高了 4~5 個(gè)數(shù)量級(jí)。以前，傳統(tǒng)的數(shù)值模擬需要一年時(shí)間，而現(xiàn)在只需幾分鐘。

　　NVIDIA Triton 是一款開源的、超大規(guī)模的模型推理服務(wù)器，是 AI 部署的“中央車站”，它支持 CNN、RNN、GNN、Transformer 等各種模型、各類 AI 框架及各類機(jī)器學(xué)習(xí)平臺(tái)，支持在云、本地、邊緣或嵌入式設(shè)備運(yùn)行。

　　同時(shí)，黃仁勛宣布英偉達(dá)對(duì)話式 AI 服務(wù) Riva 全面發(fā)行，Riva 2.0 版本支持識(shí)別 7 種語(yǔ)言，可將神經(jīng)文本轉(zhuǎn)換為不同性別發(fā)聲的語(yǔ)音，用戶可通過(guò)其 TAO 遷移學(xué)習(xí)工具包進(jìn)行自定義調(diào)優(yōu)。

　　Maxine 是一個(gè) AI 模型工具包，現(xiàn)已擁有 30 個(gè)先進(jìn)模型，可優(yōu)化實(shí)時(shí)視頻通信的視聽效果。比如開遠(yuǎn)程視頻會(huì)議時(shí)，Maxine 可實(shí)現(xiàn)說(shuō)話者與所有參會(huì)者保持眼神交流，并能將說(shuō)的語(yǔ)言實(shí)時(shí)切換成另一種語(yǔ)言，而且音色聽起來(lái)不變。

　　本次 GTC 發(fā)布的版本增加了用于回聲消除和音頻超分辨率的新模型。

　　此外，黃仁勛也宣布推出英偉達(dá)面向推薦系統(tǒng)的 AI 框架 Merlin 的 1.0 版本。

　　Merlin 可幫助企業(yè)快速構(gòu)建、部署和擴(kuò)展先進(jìn)的 AI 推薦系統(tǒng)。比如，微信用 Merlin 將短視頻推薦延遲縮短為原來(lái)的 1/4，并將吞吐量提升了 10 倍。從 CPU 遷移至 GPU，騰訊在該業(yè)務(wù)上的成本減少了 1/2。

　　在醫(yī)療健康領(lǐng)域，黃仁勛談道，過(guò)去幾年，AI 藥研初創(chuàng)公司獲得了超 400 億美元的投資，數(shù)字生物學(xué)革命的條件已經(jīng)成熟，他稱這將是“NVIDIA AI 迄今為止最偉大的使命”。

　　6G 標(biāo)準(zhǔn)于 2026 年左右問(wèn)世，一些相關(guān)基礎(chǔ)技術(shù)逐漸成形。對(duì)此，黃仁勛宣布推出了一款用于 6G 通信研究的 AI 框架 Sionna。

　　06. Omniverse：首推數(shù)字孿生專用服務(wù)器和超級(jí)集群

　　黃仁勛認(rèn)為，第一波 AI 學(xué)習(xí)是感知和推理，下一波 AI 的發(fā)展方向是機(jī)器人，也就是使用 AI 規(guī)劃行動(dòng)。英偉達(dá) Omniverse 平臺(tái)也正成為制造機(jī)器人軟件時(shí)必不可少的工具。

　　作為虛擬世界的仿真引擎，Omniverse 平臺(tái)能遵循物理學(xué)定律，構(gòu)建一個(gè)趨真的數(shù)字世界，可以應(yīng)用于使用不同工具的設(shè)計(jì)師之間的遠(yuǎn)程協(xié)作，以及工業(yè)數(shù)字孿生。

　　黃仁勛認(rèn)為，工業(yè)數(shù)字孿生需要一種專門構(gòu)建的新型計(jì)算機(jī)，因此英偉達(dá)打造了面向工業(yè)數(shù)字孿生的 OVX 服務(wù)器和 OVX SuperPOD 超級(jí)集群。

　　OVX 是首款 Omniverse 計(jì)算系統(tǒng)，由 8 個(gè)英偉達(dá) A40 RTX GPU、3 個(gè) ConnectX-6 200Gbps 網(wǎng)卡（NIC）和 2 個(gè)英特爾至強(qiáng) Ice Lake CPU 組成。

　　32 臺(tái) OVX 服務(wù)器可構(gòu)成 OVX SuperPOD 超級(jí)集群，實(shí)現(xiàn)這一連接的關(guān)鍵設(shè)施是英偉達(dá)今日新推出的 Spectrum-4 以太網(wǎng)平臺(tái)。

　　據(jù)悉，這是全球首個(gè) 400Gbps 端到端網(wǎng)絡(luò)平臺(tái)，其交換吞吐量比前幾代產(chǎn)品高出 4 倍，聚合 ASIC 帶寬達(dá)到 51.2Tbps，支持 128 個(gè) 400GbE 端口。

　　Spectrum-4 實(shí)現(xiàn)了納秒級(jí)計(jì)時(shí)精度，相比典型數(shù)據(jù)中心毫秒級(jí)抖動(dòng)提升了 5~6 個(gè)數(shù)量級(jí)。這款交換機(jī)還能加速、簡(jiǎn)化和保護(hù)網(wǎng)絡(luò)架構(gòu)。與上一代產(chǎn)品相比，其每個(gè)端口的帶寬提高了 2 倍，交換機(jī)數(shù)量減少到 1/4，功耗降低了 40%。

　　該平臺(tái)由英偉達(dá) Spectrum-4 交換機(jī)系列、ConnectX-7 智能網(wǎng)卡、BlueField-3 DPU 和 DOCA 數(shù)據(jù)中心基礎(chǔ)設(shè)施軟件組成，可提高 AI 應(yīng)用、數(shù)字孿生和云基礎(chǔ)架構(gòu)的性能和可擴(kuò)展性，大幅加速大規(guī)模云原生應(yīng)用。

　　Spectrum-4 ASIC 和 SN5000 交換機(jī)系列基于 4nm 工藝，有 1000 億個(gè)晶體管，并經(jīng)過(guò)簡(jiǎn)化的收發(fā)器設(shè)計(jì)，實(shí)現(xiàn)領(lǐng)先的能效和總擁有成本。

　　Spectrum-4 可在所有端口之間公平分配帶寬，支持自適應(yīng)路由選擇和增強(qiáng)擁塞控制機(jī)制，能顯著提升數(shù)據(jù)中心的應(yīng)用速度。

　　Spectrum-4 ASIC 具有 12.8Tbp 加密帶寬和領(lǐng)先的安全功能，例如支持 MACsec 和 VXLANsec，并通過(guò)硬件信任根將安全啟動(dòng)作為默認(rèn)設(shè)置，幫助確保數(shù)據(jù)流和網(wǎng)絡(luò)管理的安全性和完整性。

　　現(xiàn)在各大計(jì)算機(jī)制造商紛紛推出 OVX 服務(wù)器，對(duì)于想在 OVX 試用 Omniverse 的客戶，英偉達(dá)在全球多地提供 LaunchPad 計(jì)劃，第一代 OVX 正由英偉達(dá)和早期客戶運(yùn)行，第二代 OVX 正被構(gòu)建中。Spectrum-4 的樣機(jī)將在今年第四季度末發(fā)布。

　　隨后，曾在往屆 GTC 大會(huì)展示過(guò)的黃仁勛虛擬化身“玩偶老黃”Toy Jensen 再度現(xiàn)身。

　　它不是錄像，而能做到完全實(shí)時(shí)地進(jìn)行眼神交流與對(duì)話。黃仁勛現(xiàn)場(chǎng)問(wèn)它“什么是合成生物學(xué)”、“你是如何制作出來(lái)的”等問(wèn)題，它都對(duì)答如流。

　　使用英偉達(dá) Omniverse Avatar 框架，企業(yè)就能快速構(gòu)建和部署像 Toy Jensen 這樣的虛擬形象，從模仿聲音到細(xì)微的頭部及身體運(yùn)動(dòng)，乃至高保真度的形象塑造，都讓虛擬人更加靈動(dòng)。

　　最后，得益于 Riva 中的最新對(duì)話式 AI 技術(shù)和超大語(yǔ)言模型 Megatron 530B NLP，虛擬人可以聽懂你問(wèn)的問(wèn)題，也能跟你實(shí)時(shí)聊天互動(dòng)。

　　在此基礎(chǔ)上，英偉達(dá)宣布將推出 Omniverse Cloud。通過(guò) Omniverse Cloud 連接，協(xié)作者們使用英偉達(dá) RTX PC、筆記本電腦和工作站，均可實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)協(xié)同工作。

　　用戶如果沒有 RTX 計(jì)算機(jī)，只需點(diǎn)擊一下，即可從 GeForce Now 上啟動(dòng) Omniverse。

　　07. 汽車：預(yù)告 DRIVE Hyperion9 推出多模態(tài)地圖引擎

　　Omniverse 平臺(tái)是整個(gè)工作流程的核心，DRIVE 平臺(tái)則相當(dāng)于 AI 司機(jī)。

　　黃仁勛宣布下一代 DRIVE Hyperion 9 將從 2026 年起搭載到汽車中，它將擁有 14 個(gè)攝像頭、9 個(gè)雷達(dá)、3 個(gè)激光雷達(dá)和 20 個(gè)超聲傳感器，總體傳感器數(shù)量將是 Hyperion 8 的兩倍。

　　此外，英偉達(dá)推出了一種多模態(tài)地圖引擎 NVIDIA DRIVE Map，包含攝像頭、激光雷達(dá)和雷達(dá)的數(shù)據(jù)，同時(shí)兼顧安全性。

　　DRIVE Map 有兩個(gè)地圖引擎，真值測(cè)繪地圖引擎和眾包車隊(duì)地圖引擎。黃仁勛談道，到 2024 年，他們預(yù)計(jì)繪制并創(chuàng)建北美、西歐和亞洲所有主要公路的數(shù)字孿生，總長(zhǎng)度約為 50 萬(wàn)公里。

　　“我們正在構(gòu)建地球級(jí)別的自動(dòng)駕駛車隊(duì)數(shù)字孿生?！秉S仁勛說(shuō)。

　　合作方面，全球第二大電動(dòng)汽車制造商比亞迪將在 2023 年上半年開始投產(chǎn)的汽車中搭載 DRIVE Orin 計(jì)算平臺(tái)。自動(dòng)駕駛獨(dú)角獸企業(yè)元戎啟行、中國(guó)自動(dòng)駕駛創(chuàng)企云驥智行也宣布將在其 L4 級(jí)自動(dòng)駕駛車規(guī)級(jí)量產(chǎn)方案中搭載 NVIDIA DRIVE Orin SoC 芯片。

　　美國(guó)電動(dòng)汽車公司 Lucid Motors、中國(guó) L4 級(jí)自動(dòng)駕駛科技公司文遠(yuǎn)知行、中國(guó)新型電動(dòng)車公司悠跑科技均宣布將應(yīng)用英偉達(dá) DRIVE Hyperion 自動(dòng)駕駛汽車平臺(tái)。

　　08. 機(jī)器人平臺(tái)：從醫(yī)療設(shè)備到自主移動(dòng)機(jī)器人

　　黃仁勛認(rèn)為下一波 AI 浪潮是機(jī)器人，英偉達(dá)正在構(gòu)建多個(gè)機(jī)器人平臺(tái)，包括用于自動(dòng)駕駛汽車的 DRIVE、用于操縱和控制系統(tǒng)的 Isaac、用于自主式基礎(chǔ)架構(gòu)的 Metropolis、用于醫(yī)療設(shè)備的 Holoscan 等。

　　他將機(jī)器人系統(tǒng)的工作流程簡(jiǎn)化為真值數(shù)據(jù)生成、AI 模型訓(xùn)練、Omniverse 數(shù)字孿生、機(jī)器人技術(shù)棧四大支柱。

　　Clara Holoscan MGX 是一個(gè)開放可擴(kuò)展的機(jī)器人平臺(tái)，其設(shè)計(jì)符合 IEC-62304 醫(yī)療級(jí)規(guī)格，核心計(jì)算機(jī)為 Jetson AGX Orin 和 ConnectX-7 智能網(wǎng)卡，并可選配 NVIDIA RTX A6000 GPU。

　　該平臺(tái) AI 算力可達(dá)每秒 254~610 萬(wàn)億次運(yùn)算，目前向早期體驗(yàn)客戶開放，正式上市時(shí)間是 5 月，并將于 2023 年第一季度完成醫(yī)療級(jí)準(zhǔn)備。

　　Metropolis 平臺(tái)的下載量已經(jīng)達(dá)到 30 萬(wàn)次，擁有 1000 多個(gè)生態(tài)系統(tǒng)合作伙伴，并在超過(guò) 100 萬(wàn)個(gè)設(shè)施中運(yùn)營(yíng)。

　　機(jī)器人發(fā)展最快的領(lǐng)域之一是自主移動(dòng)機(jī)器人（AMR），它本質(zhì)上是室內(nèi)無(wú)人駕駛，速度偏低但環(huán)境高度非結(jié)構(gòu)化。

　　今天，英偉達(dá)推出 Isaac for AMR，它有四大核心：用于真值生成的 NVIDIA DeepMap、用于訓(xùn)練模型的 NVIDIA AI、搭載 Orin 的 AMR 機(jī)器人參考設(shè)計(jì)、Isaac 機(jī)器人技術(shù)堆棧中的新 Gem 及基于 Omniverse 的新版 Isaac Sim，每個(gè)都單獨(dú)可用且完全開放。

　　與 DRIVE Hyperion 類似，Isaac Nova 是一個(gè) AMR 機(jī)器人系統(tǒng)參考設(shè)計(jì)，整個(gè) Isaac 堆棧都基于此構(gòu)建。Nova 有 2 個(gè)攝像頭、2 個(gè)激光雷達(dá)、8 個(gè)超聲波雷達(dá)和 4 個(gè)魚眼攝像頭。

　　英偉達(dá)還宣布推出 Jetson Orin 開發(fā)者套件，以在邊緣實(shí)現(xiàn)服務(wù)器級(jí)的 AI 性能。

　　Nova AMR 將于第二季度上市，它將配備英偉達(dá)新的 DeepMap 雷達(dá)制圖系統(tǒng)，可以掃描和重建環(huán)境，以進(jìn)行路線規(guī)劃和數(shù)字孿生仿真。

　　09. 結(jié)語(yǔ)：AI 開發(fā)者的前沿技術(shù)盛宴

　　這些年來(lái)，英偉達(dá) GTC 大會(huì)已經(jīng)成為一場(chǎng)面向 AI、HPC、科學(xué)計(jì)算、數(shù)字孿生及自動(dòng)駕駛等諸多前沿領(lǐng)域的技術(shù)盛宴。

　　在這場(chǎng)盛宴中，我們不僅看到技術(shù)突破如果改變各行各業(yè)的生產(chǎn)效率和工作方式，也看到英偉達(dá)圍繞計(jì)算世界的最新布局。

　　隨著新一代大規(guī)模云技術(shù)的出現(xiàn)，數(shù)據(jù)中心架構(gòu)有待轉(zhuǎn)型。在穩(wěn)擁 GPU 基本盤的基礎(chǔ)之上，英偉達(dá)的角色正從圖形顯示和加速計(jì)算“偏科學(xué)霸”，轉(zhuǎn)向圍繞數(shù)據(jù)中心三大芯片支柱全面發(fā)展。

　　黃仁勛認(rèn)為，數(shù)據(jù)中心正在轉(zhuǎn)變成“AI 工廠”，它通過(guò)處理海量的數(shù)據(jù)來(lái)實(shí)現(xiàn)智能，而今日推出的 H100 便是實(shí)現(xiàn)企業(yè) AI 業(yè)務(wù)加速的引擎。

　　H100 的多項(xiàng)技術(shù)創(chuàng)新，數(shù)據(jù)中心專屬 Grace CPU 超級(jí)芯片的特殊設(shè)計(jì)，以及 AI 和 Omniverse 平臺(tái)的持續(xù)升級(jí)，進(jìn)一步擴(kuò)大了英偉達(dá)在加速 AI 訓(xùn)練及推理領(lǐng)域的領(lǐng)導(dǎo)地位。

　　在為期 4 天的英偉達(dá) GTC 大會(huì)上，我們還將看到更多不同細(xì)分領(lǐng)域的專家，分享他們?nèi)绾卫?AI 和加速計(jì)算領(lǐng)域的技術(shù)創(chuàng)新，來(lái)開展各類開創(chuàng)性的研究或解決正面臨的挑戰(zhàn)。

英偉達(dá)連甩 20 枚 AI 核彈：800 億晶體管 GPU、144 核 CPU 來(lái)了

相關(guān)閱讀

英偉達(dá)連甩 20 枚 AI 核彈：800 億晶體管 GPU、144 核 CPU 來(lái)了