AMD Zen4架構深入揭秘!49%效能提升從何而來?

一、全新的Zen4核心:前端大變、不一樣的AVX-512

AMD銳龍7000系列的效能大家都見識過了,提升幅度可能沒有預想得那麼猛,但依然誠意十足。

銳龍9 7900X作為次旗艦,就足以碾壓12代酷睿頂級灰燼版i9-12900KS。主流的銳龍5 7600X更是再次展現爆款潛質,直接讓i5-12600K抬不起頭來。

至於和Intel 13代酷睿究竟鹿死誰手,還要到這個月底才能見分曉了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

按照AMD的官方資料,Zen4相比於Zen3,同等效能下功耗可降低至多62%,同等功耗下效能可提升至多49%!

今天,我們就來深入瞭解一下Zen4架構、平臺的革新之處,看看如此巨大的提升是從而來的。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

先從Zen架構的歷史講起……

AMD Zen4架構深入揭秘!49%效能提升從何而來?

Zen4已經是AMD Zen系列架構的第四代(Zen/Zen+算作一代),對比來看它的改革、提升幅度都不是最大的,更多的是在Zen3基礎上的一次深度最佳化增強,並在新工藝的加持下大幅提升頻率,最高加速頻率不但首次突破5GHz,而且跨越性地達到了5。7GHz!

對比四代架構,初代Zen的變革、提升幅度最猛(當然主要是推土機實在太弱了),Zen2是一次最佳化升級,尤其chiplet設計奠定未來基礎,Zen3則是再一次革命性的大變,19% IPC提升也非常感人,Zen4再來個小步快跑就非常符合情理和邏輯了。

按照AMD的說法,Zen4架構的設計目標有三個方面:

一是效能,IPC(每時鐘週期指令數或同頻效能)和頻率提升幅度都要達到兩位數(超過10%);

二是延遲,透過增大二級快取、改進快取有效性,大幅降低平均延遲;

三是能效,在整個TDP(熱設計功耗)範圍內,顯著降低動態功耗。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

為了達成以上目標,Zen4對整個微架構體系進行了升級最佳化,包括前端、執行引擎、載入/儲存單元、快取、指令集等等,後邊我們會一一講到。

整體而言,Zen4架構的核心升級點包括:改進分支預測、增大OP指令作快取、增大指令退役佇列、增大整數/浮點暫存器檔案、加深核心緩衝吞吐、浮點單元支援AVX-512指令、改進載入/儲存單元、增大二級快取。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

前端部分變化較大,這裡包括指令快取、分支預測、解碼器、指令快取、微指令佇列等模組。

Zen4架構重點改進了分支預測部分,包括每時鐘週期預測兩個跳轉分支、一級快取BTB(分支目標緩衝)增大50%達到1。5K條目、二級快取BTB擴容從6。5K略增至7K。

另外,指令快取(Op Cache)增大了約68%達到6。75K條目,每時鐘週期可以完成多達9個宏指令(增加1個)。

不變的則是解碼器每時鐘週期發出4條指令、微指令佇列每時鐘週期分派6個整數+浮點指令。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

執行引擎部分變化較小,尤其是每時鐘週期10次整數、6次浮點的指令分派保持不變。

指令退役佇列或者說ROB(重排序緩衝)從256條目增大25%至320條目,整數暫存器從192個增至224個,浮點暫存器從160個增至192個,快取與核心之間的吞吐能力也提升了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

載入/儲存單元部分,載入佇列從72個增大至88個(22%),儲存佇列維持64個不變,二級快取DTLB(資料頁表緩衝)從2K條目增大了多達50%至3K條目,另外還減少了資料快取埠的衝突機率。

也許有同學會問,很多模組都是不斷增大、再增大,為什麼不一步到位,從設計之初就做個大容量呢?

一方面,誰也無法精準預測每個模組多大容量下效率最好,而且不同模組之間需要彼此協調配合;

另一方面,更大容量意味著更多電晶體、更大核心面積、更高功耗、更高成本,需要在效能、能效之間做出妥協、尋求平衡。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

快取體系也做了最佳化,尤其是二級快取,不但容量翻了一番,每核心來到1MB,還提升了速度。

同時,從二級快取到三級快取、從三級快取到記憶體,都支援更多命中失敗(outstanding miss),可以減少流水線的停頓,增加快取回填頻寬,提升整體效率。

不過整體快取架構沒變,一級快取依然是32KB+32KB的每核心容量組合,三級快取則繼續每8個核心一組共享32MB。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AVX-512指令集或許是大家對Zen4最感興趣的地方之一,畢竟在以往這是Intel處理器的專屬技術,而且爭議非常大,有人覺得它非常有用,有人覺得它只是徒增功耗,甚至成為極限烤機專用……

Zen4支援的AVX-512並非直接將Intel那套技術照搬過來(也不允許),而是選擇了不一樣的實現方式。

Intel處理器執行AVX-512指令時,是完整的512-bit通道(這也是該指令集命名的來源),但是AMD走的是256-bit通道,也就是砍了一半,因此遇到512-bit的指令就需要拆分成兩個256-bit指令來執行。

事實上,AMD推土機家族、Zen家族在執行AVX-2 256-bit指令的時候,也是拆分成兩個128-bit。這都是一脈相承的

AMD表示,這麼做可以節省芯片面積,並且避免執行AVX-512指令時發熱過大、頻率下降的情況出現(峰值效能確有輕微損失),因為真正長達512-bit的指令並不多,就像以前256-bit的指令不夠多。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

Zen4支援的AVX-512指令一覽並不是把Intel的全都搬了過來,而是選擇性地加入,除了一些基礎指令,特別值得注意的是用於AI加速的VNNI、BF16,這也是Intel之前宣傳的重點。

VNNI是面向AI模型推理的向量指令,可將多個8-bit或16-bit整數串聯成512-bit,提升卷積神經網路常用的MAC(乘法累加)的速度。

另一個是BF16,面向AI加速,將雙精度浮點FP32中的23位小數減少到7位,並保留1位符號、8位指數,結果與FP32相比範圍相同,只是精度較差,但仍遠高於單精度FP16。

按照AMD的說法,加入AVX-512指令集後,Zen4架構的FP32浮點推理多執行緒效能可提升1。31倍,VNNI INT8整數推理多執行緒效能可提升2。47倍!

AMD Zen4架構深入揭秘!49%效能提升從何而來?

另外,Zen4還增加了一些虛擬化、安全性方面的新指令,就不贅述了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

以上是Zen4、Zen3的具體變化對比,可以看到其中不少都維持不變,其他很多則只是數量/容量上的擴充,因此說Zen4就是個放大最佳化版的Zen3也沒什麼毛病。

值得注意的是,Zen4二級快取、三級快取的延遲甚至還略微加大了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AMD宣稱,Zen4 IPC平均提升了13%,這是在固定4GHz八核心情況下,透過22個專案對比Zen3得出的幾何平均結果。

當然不同專案的變化幅度差異很大,比如說CPU-Z單執行緒只提升了1%(所以這個測試專案跑分變化不大),寒霜引擎遊戲、《GTA V》、PUBG吃雞、CineBench R23單執行緒這些專案提升也有限。

wPrime 1024M是變化最大的提升幅度達驚人的39%,另外像是Dolphin Web測試和《看門狗:軍團》、《F1 2022》、《殺出重圍:人類分裂》、《地鐵:離去》等遊戲的提升也很喜人。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

13%的提升進一步劃分,可以看到前端架構改進帶來的提升幅度最大,其次是載入/儲存單元、分支預測單元,而來自執行引擎、二級快取的貢獻相對較小。

這和前邊架構分析的變化幅度是相符合的。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

IPC提升之外,銳龍7000系列的頻率也達到了前所未有的高度,旗艦銳龍9 7950X最高可以加速到5。7GHz(還有個5。85GHz fMax頻率但官方一直保持緘默)。

當然,5。7GHz的頻率只有單核心加速可以做到,AMD也公佈了銳龍9 7950X在不同核心/執行緒下的最高加速頻率,可以看到2核心可以到5。6GHz,8核心可以接近5。4GHz,16核心全開也能到5。2GHz。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

13% IPC提升,加上頻率拉到最高5。7GHz,銳龍7000的單執行緒效能提高了最多29%。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

一個很容易被忽略的點,就是銳龍7000系列支援Eco模式,執行在更低的TDP,比如170W的可以低至105W或者65W,105W的可以低至65W。

AMD宣稱,銳龍9 7950X 65W Eco模式下的效能,依然可以超過正常的銳龍9 5950X。

Eco模式未來會整合在主機板BIOS的超頻模組,可一鍵開啟,還會整合在銳龍Master軟體中。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

有趣的是,得益於新的架構和工藝,Zen4單個核心加二級快取總面積僅為3。84平方毫米,相比於Intel 7工藝的12代酷睿的7。46平方毫米,小了幾乎一半,能效則高了幾乎一半。

二、全新的IO Die:首次加入GPU、6nm新工藝給力

Zen2架構首次引入了chiplet設計,一般稱之為小晶片、芯粒,一直延續至今,包括一兩個CCD、一個IOD,前者包括CPU核心、快取,後者包括各類控制器和輸入輸出,類似傳統雙晶片組的北橋。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

Zen4 CCD部分從臺積電7nm升級為臺積電5nm工藝,IOD部分則從GF 12nm躍進到臺積電6nm,自然有利於提高整合度、控制面積。很大程度上可以說,IOD這次的變化甚至比CCD還要猛。

首先,Zen4 IOD首次整合GPU圖形核心,而且用上了最新的RDNA2架構,堪比移動端的銳龍6000U/H系列處理器,桌面APU都還沒有這個待遇。

首次整合DDR5記憶體控制器,最高標準頻率5200MHz(還可以繼續超頻),甚至還支援ECC(是否開啟取決於主機板)——DDR4確實沒了,不要再想了。

首次整合PCIe 5。0控制器,可提供28條通道,可拆分為一路x16、三路x4。

首次支援USB Type-C介面,支援USB BIOS Flashback,可透過隨身碟和USB介面直接重新整理BIOS,現在不少高階主機板支援,以後就可以作為標配了,方便之極。

此外,Infinity Fabric(IF)高速互連匯流排也得到了最佳化,帶來了新的FCLK(IF匯流排)、UCLK(記憶體控制器)、MCLK(記憶體)頻率比例,後邊記憶體環節細講。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

Zen4 IOD整合的GPU非常迷你,只有兩個CU計算單元(128個流處理器)、四個ACE非同步計算引擎、一個HWS硬體暫存器,打遊戲什麼的就別想了,它只是個“亮機卡”,用途有二:

一是作為基本的顯示和影片輸出,給那些不需要獨顯、只需小規模集顯的環境,比如商務辦公、商業嵌入式、CAD、CAM等領域。

二是作為備用顯示裝置,在獨立顯示卡故障的時候,提供一個進入系統、排查問題的途徑。

規格方面倒是挺齊全,尤其是顯示與多媒體,支援H。264、H。265(HEVC)影片編解碼,AV1影片解碼,DisplayPort 2。0 UHBR10/DSC/HDR(AN獨顯都還沒有呢),HDMI 2。1 HFR/48Gbps FRL/DSC/HDR10+/VRR,USB-C DP Alt模式,4K60,甚至還支援混合顯示,組建個HTPC非常趁手。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

銳龍7000處理器內部組成示意圖,還是老樣子,兩個CCD搭配一個IOD,最多16核心,當然也可以一個CDD搭配一個IOD,最多8核心。

值得一提的是,CCD對IOD每時鐘週期的寫入仍然是16Byte、讀取仍然是32Byte,因此單個CCD的情況仍然存在頻寬減半的問題,還好實際效能不受影響。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

Zen4 CCD部分面積僅為70平方毫米,相比Zen3 80。7平方毫米縮小了13。3%,但電晶體數量增加了足足56。6%,從41。5億個來到65億個,整合密度超過9280萬個/平方毫米,增加了超過80%!

Zen4 IOD部分面積122平方毫米,和上代125平方毫米相差無幾,但電晶體從20。9億個增加到34億個,增幅達62。7%,整合密度則增加了66。7%。

三、全新的AM5介面:戰至2025年+

Intel經常被詬病“科技以換介面為本”,AMD則良心的多,所以這次Zen4架構換介面,絕對是一件大事。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AMD的一個AM4介面已經用了6年時間 不但貫穿整個Zen家族歷史,最早可以追溯到2016年的第七代APU Bristol Ridge,那時候的CPU架構還是推土機家族呢。

這麼長的時間裡,AM4介面經歷了五代CPU架構、4代製造工藝,覆蓋超過125款處理器和500款主機板,在整個x86歷史上也是無出其右者了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AMD Zen4架構深入揭秘!49%效能提升從何而來?

由於新技術、新形勢的需要,AMD迎來了全新的介面AM5,變化前所未有:

首次從PGA針腳式改成LGA觸點式,一如Intel多年來的設計,共有1718個觸點,再也不用擔心拔出散熱器帶出處理器了,但主機板插座要更小心對待,避免針腳彎折。

最大功耗空間放寬到230W,為超頻和未來升級留足餘地。

首次支援DDR5記憶體、PCIe 5。0匯流排,下次再變應該要到DDR6記憶體了,官方承諾新介面規劃支援到2025年乃至更遠。

驚喜的是,無論處理器封裝尺寸,還是主機板插座尺寸和孔距,AM5全都保持不變,AM4平臺散熱器可以繼續正常使用,從而降低升級成本。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AM5介面在供電方面也做了大量的改進設計,包括增強全平臺電源管理的通訊匯流排,在多個板載調節器之間用於持續監控電壓、電流、溫度、功耗的高速雙向通訊,用於系統健康狀態監控的的電壓調節器,最佳化多種負載條件下省電的擴充套件電源狀態定義。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

銳龍7000系列處理器提供三種TDP級別,分別為65W、105W、175W,它們各自對應的插座最大允許功耗、峰值電流、穩定電流各不相同。

比如TDP 170W的頂級型號,插座功耗可承受230W,峰值電流可達225A,持續電流也有160A。

當然這都是極限值,一般情況根本碰不到。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AM4平臺到AM5平臺的變化,說白了就是銳龍7000相比銳龍5000的變化。

四、全新的DDR5記憶體:EXPO一鍵超頻、注意新頻率比例

Zen4架構是AMD第一次支援DDR5記憶體,而且不同於Intel 12/13代酷睿同時相容DDR5/DDR4,AMD直接拋棄了DDR4。

事實上,移動端Zen3+架構的銳龍6000U/H系列就是這麼幹的。

這麼激進是相當考驗勇氣的,需要提前N年預判記憶體行業變化,準確切入,一旦碰上新記憶體效能、普及問題,可能會遭遇滅頂之災。

還好,DDR5經過第一代產品的鋪墊,效能優勢正在展現,價格也逐漸趨於主流合理化。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

除了常規支援DDR5,AMD這次還帶來了EXPO技術,對標Intel XMP,簡單說都是一鍵超頻。

搭配銳龍7000處理器、AM5 600系列主機板,AMD EXPO可以實現對DDR5記憶體的一鍵超頻,並提供完整的超頻引數設定,玩家可以自由調節。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

官方號稱,EXPO DDR5-6000對比JEDEC DDR5-5200,可以在1080p解析度下獲得最高11%的效能提升,同時延遲降低到大約63ns。

其中,《CSGO》效能提升可達11%,《德軍總部:新血脈》可有7%,《F1 2021》、《英雄聯盟》可得6%,《GTA V》能獲益5%。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

目前已支援AMD EXPO技術的記憶體品牌包括威剛、海盜船、金邦、芝奇、金士頓,首發就會推出至少15款產品,預設頻率起步就有6000MHz,最高達到6400MHz。

AMD還強調,EXPO技術完全免費授權,不會向主機板、記憶體廠商收取任何費用。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

AMD還要求記憶體廠商,所有符合EXPO標準的記憶體產品,必須提供一份詳細的報告,包括元件、完整時序表、軟硬體穩定性資訊等等,方便玩家識別選購。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

如果你要對記憶體進行超頻,注意這次有一個特別的變化。

Zen3時代,IF匯流排頻率FCLK、記憶體控制器頻率UCLK、記憶體頻率MCLK需要保持在1:1:1,也就是完全同頻,才能獲得最佳效能,甜點記憶體頻率為DDR4-3600。

Zen4時代,IF匯流排頻率設定為自動就行了,只需保持記憶體控制器、記憶體同頻即可,IF匯流排與記憶體的分頻則固定為2:3。

官方支援最大記憶體頻率為DDR5-5200,此時對應的預設IF匯流排頻率為1733MHz。

最佳記憶體頻率是DDR5-6000,此時RAM記憶體頻率3000MHz、IMC記憶體控制器頻率3000MHz、IF匯流排頻率2000MHz。

當然,如果你需要的是更高記憶體頻寬,就不必在意這套規則,單獨拉昇記憶體頻率就好了。

記憶體頻率超過6000MHz之後,記憶體控制器、記憶體頻率比例將切換到1:2,IF匯流排頻率則會在1850-2100MHz之間波動。

五、全新的600系晶片組:首次至尊版、雙晶片之前搞錯了

首先吐槽一下,AMD銳龍時代的主機板晶片組命名直接模仿Intel的套路,並“截胡”競品的後路,導致名字過於接近,非常難以識別,著實鬧心。

最典型的,B550是AMD的,B560是Intel的……

AMD Zen4架構深入揭秘!49%效能提升從何而來?

Zen4時代,AMD晶片組進入600系列,並首次迎來Extreme(至尊版),包括X670E、B650E,還有普通的X670、B650。

X670E、X670已經隨同第一批處理器上市,B650E、B650則將在10月份跟進。

之前我們曾誤以為X670、B650是單晶片,X670E、B650E是雙晶片,其實並非如此。

事實上,X670E、X670都可單可雙,雙晶片時透過PCIe 4。0 x4通道再串聯一個以提高擴充套件性,B650E、B650則都是單晶片。

最核心的區別,就是E系列顯示卡、M。2 SSD都支援PCIe 5。0,非E系列顯示卡、M。2 SSD只有其一支援PCIe 5。0。如何設定,就看主機板廠商的選擇了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

具體來說,銳龍7000處理器支援28條PCIe 5。0,其中16條用於顯示卡、8條用於NVMe SSD(可拆分為兩組x4)、4條用於連線晶片組。

支援四個USB 3。0 10Gbps(包括C口),和一個通用目的USB 2。0,就是USB BIOS重新整理之用的。

X670E、X670支援12條PCIe 4。0,可配置給Wi-Fi網絡卡、藍芽、NVMe SSD等裝置。

支援8條PCIe 3。0,可以有五種不同配置:8條PCIe 3。0、6條PCIe 3。0加2個SATA 6Gbps、4條PCIe 3。0加4個SATA 6Gbps、2條PCIe 3。0加6個SATA 6Gbps、8個SATA 6Gbps。

USB介面有固定的8個USB 3。0 10Gbps、12個USB 2。0,剩下的可選三種不同配置:2個USB 3。1 20Gbps、1個USB 3。1 20Gbps加2個USB 3。0 10Gbps、4個USB 3。0 10Gbps,總頻寬都是40Gbps,等於一個USB4。

如果再串聯一個X670E或者X670,上述擴充套件直接翻倍,具體配置就更加靈活了。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

B650E、B650支援8條PCIe 4。0、4條PCIe 3。0,後者也可配置為2條PCIe 3。0加2個SATA 6Gbps、4個SATA 6Gbps。

USB介面固定支援4個USB 3。0 10Gbps、6個USB 2。0,還可選1個USB 3。1 20Gbps或2個USB 3。0 10Gbps。

六、結語:承上啟下 奠定未來

AMD Zen4架構深入揭秘!49%效能提升從何而來?

展望未來,Zen4 3D V-Cache快取版、Zen4c都在路上。

Zen4 3D V-Cache就像銳龍7 5800X3D那樣加入堆疊快取,遊戲效能必將再次大殺四方,預計有銳龍9 7950X3D、銳龍9 7900X3D、銳龍7 7800X3D三款型號。假如每個CCD都堆疊64MB快取,總快取最多可達208MB。

Zen4c則用於EPYC霄龍產品線,面向高密度雲服務和計算領域,使用臺積電4nm工藝,最多可達128核心256執行緒,而且也會疊加3D V-Cache快取,總容量預計達到恐怖的1152MB。

Zen5家族也風雨欲來,包括4nm的Zen5、Zen5 3D V-Cache,3nm的Zen5c。

據說,Zen5會非常激進,整體架構推倒重來,升級力度自然遠超Zen4,再加上新工藝的輔助,著實令人期待。

AMD Zen4架構深入揭秘!49%效能提升從何而來?

一如前文所述,Zen4並沒有徹底改變,而是在Zen3的基礎上最佳化完善,打通其任督二脈,加入全新的DDR5記憶體、PCIe 5。0匯流排,再輔以臺積電5nm工藝的電晶體密度、頻率紅利加持,成就新一代平臺。

可以說,Zen4的主要使命就是承上啟下,深化Zen3,迎接Zen5!

AMD Zen4架構深入揭秘!49%效能提升從何而來?