英偉達顛覆CPU！長髮黃仁勳殺入英特爾地盤，Arm架構CPU效能高10倍

黃仁勳、皮衣、自家廚房。

這一次，老黃的頭髮有點長。

今日凌晨，NVIDIAGTC2021開幕。

今年，「GPU大哥」英偉達居然「不講武德」，釋出一個基於Arm架構的新資料中心CPU Nvidia Grace，它將直接挑戰英特爾在伺服器和資料中心計算領域的主導地位。

毫不奇怪，英特爾和AMD的股價在這一訊息上下跌了幾個百分點。

隨著英偉達進軍CPU領域，且能大大超越Intel和AMD的處理器，英特爾和AMD或將在這一技術領域輸掉競爭？

先來看看英偉達的CPU有多強。

英偉達CPU：因AI而生，進擊英特爾最賺錢的領域

對英特爾和AMD來說，這是個壞訊息。

英偉達宣佈出算力強大的CPU，把戰火燒到了英特爾後院。

十年前在英特爾試圖狙擊Nvidia GPU殺進HPC異構並行的努力，畫了一張圖，今天隨手在手機上指頭畫了一下，CPU和GPU分別從高浮點算力和高通量處理的南北山頭向頂端攀登，

現在看，藉助AI興起，英偉達勢頭更猛一些，帕特基辛格同志要小心了。

專攻GPU的英偉達在這次GTC大會上推出了基於Arm架構的中央處理器（CPU）—— Grace，用於大規模人工智慧和高效能計算應用。

黃仁勳表示，「這是英偉達第一個資料中心CPU，專為大型應用建立」。

這款CPU以美國海軍少將、計算機程式設計先驅GraceHopper的名字命名。

Grace Hopper是計算機科學的先驅之一，也是哈佛Mark 1的第一批程式設計師和第一個連結器的發明者。

她在20世紀50年代開創了計算機程式設計，發明了世界上第一個編譯器，被稱為「計算機軟體工程第一夫人」。

GPU用於執行影片遊戲和資料中心的資料密集型計算任務。而CPU更像是「通才晶片」，可以執行諸如執行作業系統之類的基本任務。

這款名為Grace的CPU使用了節能 Arm 核心—— Neoverse，為系統訓練大型人工智慧模型提供了巨大的效能飛躍。

具體講，基於Grace的系統與NVIDIA GPU緊密結合，效能將比目前最先進的NVIDIA DGX系統（在x86 CPU上執行）高出10倍。

它能夠滿足世界上最先進應用的計算需求，包括自然語言處理、推薦系統和人工智慧超級計算，這些應用分析需要超快計算效能和大容量記憶體中的巨大資料集。

Grace還是一款高度專用型處理器，主要面向大型資料密集型HPC和AI應用。新一代NLP模型的訓練會有超過一萬億的引數。

‍

這款CPU的基本效能是第四代Nvidia NVLink互連技術，該技術在Grace和Nvidia圖形處理單元之間提供每秒900 GB的連線，使總頻寬比目前領先的伺服器高出30倍。

英偉達表示，新產品將於2023年初上市。

黃表示，使用經過授權的 ARM IP，英偉達將 Grace 設計成專門用於大規模人工智慧和高效能計算的 CPU。

「加上 GPU 和 DPU，Grace 為我們提供了計算的第三個基礎技術，以及重新構建資料中心的能力，以推進人工智慧。英偉達現在是一家三晶片公司。」

英偉達新推出CPU將會在明年兩臺效能強大的AI超算上實現首次應用。

黃表示，「這是世界上第一個為 TB 級計算設計的 CPU」。

作為首批客戶，瑞士超級計算中心（CSCS）和美國洛斯阿拉莫斯國家實驗室（Los Alamos National Laboratory）將是第一個使用由惠普打造的Grace驅動的超級計算機的機構。

Grace將為世界上最快的超級計算機提供驅動力。這臺被稱為阿爾卑斯山的超算將具有20億次浮點運算的能力。

這比當今領先的人工智慧超級計算機——2。8億次運算的 Nvidia Seline 超級計算機的計算能力高出約7倍。

GTC 2021推出的第一款伺服器微處理器Grace，代表了英偉達想要在CPU領域一展宏圖，搶佔英特爾最賺錢的市場領域。

BlueField-3 DPU

黃仁勳宣佈NVIDIA BlueField-3 DPU將為構建超大規模資料中心、工作站和超級計算機所需的基礎設施提供進一步的加速。

這款新一代資料處理器將提供最強大的軟體定義網路、儲存和網路安全加速功能。

BlueField-2能夠解除安裝相當於30個CPU核的工作負載，而BlueField-3實現了「10倍」的效能飛躍，能夠替代300個CPU核，以400Gbps的速率，對網路流量進行保護、解除安裝和加速。

英偉達「三芯」

資料中心路線圖包括CPU、GPU和DPU這三類晶片，Grace和BlueField是其中必不可少的關鍵組成部分。

每個晶片架構歷經兩年的打磨週期（週期內可能出現轉變），一年專注於 x86 平臺，另一年專注於 Arm 平臺。

「我們每年都會發布激動人心的新品。三類晶片，逐年飛躍，一個架構。」

Arm無可比擬

Arm是全球最受歡迎的CPU，黃仁勳解釋：「理由很充分，因為它超級節能，而且其開放式授權許可模式激勵了全世界的創新者。」

在雲計算、企業和邊緣資料中心、超級計算、PC等其他市場中，Arm也開始嶄露頭角。

黃仁勳宣佈與多家重要的Arm合作伙伴展開合作，包括雲計算領域的AWS、科學和雲計算領域的Ampere Computing、超融合邊緣伺服器領域的Marvel、以及將打造Chrome OS和Linux PC SDK與參考系統的聯發科。

面向AI的計算機DGX

軟硬體雙管齊下，黃仁勳宣佈升級NVIDIA專為工作組打造的「行動式AI資料中心」——NVIDIA DGX Station，以及NVIDIA專為密集型AI研發打造的AI資料中心產品——NVIDIA DGX SuperPod。

全新DGX Station 320G藉助320GB超快速HBM2e連線至4個NVIDIA A100 GPU，記憶體頻寬達到每秒8TB。然而，僅需將其插入普通的壁裝電源插座即可使用，耗電量只有1500瓦。

DGX SuperPOD使用全新80GB NVIDIA A100，將其HBM2e記憶體提升至90TB。目前它已經升級至採用NVIDIA BlueField-2，且NVIDIA如今還為該產品提供配套的NVIDIA Base Command DGX管理和編排工具。

Omniverse：還原尼爾·斯蒂芬森的《雪崩》世界

人類與AI和機器人共存的虛擬實時3D世界不再只是科幻小說中的故事情節。

NVIDIA Omniverse是一個雲原生平臺，其特點包括：可以擴充套件至多個GPU、具有高物理精度、能夠充分運用RTX實時路徑追蹤和DLSS、可以使用NVIDIA MDL模擬材料、可以使用NVIDIA PhysX模擬物理學並且與NVIDIA AI完全整合。

黃仁勳表示：「Omniverse旨在建立共享虛擬3D世界，就像尼爾·斯蒂芬森在1990年代早期的小說《雪崩》中所描述的科幻虛擬空間那樣。」

黃仁勳還宣佈將從今年夏季開始提供Omniverse企業授權許可。自公測版釋出以來，建築領域的福斯特建築事務所（Foster and Partners）、娛樂領域的ILM、遊戲領域的Activision以及大型廣告公司WPP等合作伙伴都將Omniverse運用到了其工作中。

NVIDIA Jarvis，加速AI對話

此次NVIDIA還發布了用於訓練Transformers的框架—— NVIDIA Megatron。

在keynote中，黃仁勳詳細介紹了NVIDIA用於計算藥物研發加速庫Clara Discovery的一些新模型，以及與Schrodinger的合作。

Schrodinger是一個基於物理學和機器學習的頂尖藥物研發與材料科學計算平臺。

為加快有賴於量子位元的量子計算研究，黃仁勳釋出了cuQuantum，其能夠為量子電路模擬器提供加速，以助力研究人員設計出更完善的量子計算機。

為加快對話式AI的發展，黃仁勳宣佈先進的深度學習AI——NVIDIA Jarvis已經可用，其能夠實現語音識別、語言理解、翻譯和表達性語音。

為幫助客戶將自身專業知識應用於AI領域，黃仁勳釋出了NVIDIA TAO，其可以運用客戶和合作夥伴的資料，對NVIDIA預訓練模型進行微調和適配，同時保護資料隱私。

最後出場的是推理伺服器NVIDIA Triton，它可以從進入客戶EGX伺服器或雲實例的連續資料流中獲取洞察。

黃仁勳說：「這包括任何在cuDNN上執行的AI模型，也就是幾乎所有的AI ，包括來自TensorFlow、Pytorch、ONNX、OpenVINO、TensorRT或自定義C++/python後臺等的任何框架。」

NVIDIA Drive Orin：汽車的中央大腦

最後是自動駕駛。

黃仁勳表示，自動駕駛汽車領域是「機器學習和機器人技術所面對的最嚴峻的挑戰之一，同時也是最棘手、影響最大的挑戰之一。」

‍

NVIDIA正在為價值「10萬億美元」的交通運輸行業構建模組化的端到端解決方案，使合作伙伴能夠充分利用所需要的部件。

黃仁勳表示，將於2022年投產的NVIDIA自動駕駛汽車計算系統級晶片——NVIDIA DRIVE Orin，旨在成為汽車的「中央電腦」。

沃爾沃從2016年開始應用NVIDIA DRIVE的算力，基於NVIDIA DRIVE Xavier，為新車型開發AI輔助駕駛功能，軟體則由沃爾沃汽車旗下的自動駕駛軟體開發公司Zenseact自主研發。

沃爾沃新一代汽車的自動駕駛計算機將配備NVIDIA DRIVE Orin。

‍

這也是英偉達和合作夥伴致力推廣的「軟體定義車型」的概念。

與此同時，黃仁勳宣佈了NVIDIA新一代車載系統級晶片NVIDIA DRIVE Atlan，為汽車帶來真正的資料中心。

Atlan可以達到每秒超過1000萬億次（TOPS）運算次數，這是DRIVE平臺首次整合DPU，透過Arm核為自動駕駛汽車帶來資料中心級的網路，致力於應用到2025年的車型。

Atlan約是上一代Orin處理器的4倍，超過了絕大多數現有無人駕駛出租車的計算能力。

NVIDIA DRIVE Orin - 2019年年底公佈但至今沒有出貨的晶片方案算力254 TOPS；2020年的Xavier方案有30 TOPS，而2018年的Parker僅可以提供1 TOPS。

TOPS就是新馬力

黃仁勳表示：「Atlan集NVIDIA在AI、汽車、機器人、安全和BlueField安全資料中心領域的所有技術之大成，堪稱一項技術奇蹟。」

黃仁勳還發布了NVIDIA第八代Hyperion汽車平臺，包括參考感測器、自動駕駛汽車和中央計算機、3D地面真實資料記錄儀、網路以及所有必要的軟體。

黃仁勳還宣佈DRIVE Sim將於今年夏季開放供業界使用。

正如Omniverse能夠構建汽車生產工廠的數字孿生一樣，DRIVE Sim也可用於建立自動駕駛汽車的「數字孿生」，並將其用於自動駕駛汽車的開發。

In a word，黃仁勳表示：「幾乎可以說，NVIDIA將助力您成就畢生的事業。」

參考資料：

https：//blogs。nvidia。com/blog/2021/04/12/nvidia-drive-atlan-autonomous-vehicle-platform/

https：//venturebeat。com/2021/04/12/nvidia-unveils-grace-arm-based-cpu-for-giant-scale-ai-and-hpc-apps/

https：//nvidianews。nvidia。com/news/nvidia-unveils-nvidia-drive-atlan-an-ai-data-center-on-wheels-fornext-gen-autonomous-vehicles