平頭哥造芯模式,正式跑通!

李根 魚羊 假裝發自 西溪

量子位 | 公眾號 QbitAI

“生死看淡,不服就幹”,平頭哥造芯模式,正式跑通。

2022雲棲大會現場,新進展再次由阿里雲智慧總裁

張建鋒

對外宣佈。

倚天710已大規模應用,成為中國首個雲上大規模應用的自研CPU。

在核心應用場景中,算力價效比提升

30%

以上,單位算力功耗(耗電量)降低

60%

以上。

張建鋒還宣佈,倚天710的部署規模還會進一步擴大,未來兩年

20%的新增算力

都將使用

自研CPU

更直白翻譯,就是以後阿里雲的晶片部署中,

每10顆CPU晶片裡就有2顆自研CPU

平頭哥造芯模式,正式跑通!

這個進展和應用,為何重要?

首先,大規模部署代表著晶片產品獲得了

市場檢驗

,也意味著

最難的生態一環達成閉環

——雖然不如新硬體來的“刺激”,但意義和價值卻絲毫不遜於新品釋出,甚至長遠來看,量級簡直不能相提並論。

其次,倚天710,作為一款基於

Arm架構的雲端CPU

,想要在

x86

占主導地位的

全球雲計算和伺服器晶片生態

中立足,更是難上加難,目標

十中有二

更是Arm架構在雲端里程碑式的新突破。

最後,倚天710的大規模部署,不僅是

中國首個自研CPU的應用紀錄

,還意味著誕生在造芯浪潮中的

平頭哥模式

幹出來了!

平頭哥造芯模式,正式跑通!

縱觀半導體半個世紀的發展史,

檢驗造芯模式

的核心關鍵一以貫之:

造出來(設計和流片)

用得上(需求和效能)

用得好(功耗和成本)

離不開(工具和生態)

而在倚天710的進展中,這四大流程關鍵,平頭哥都(一口氣)完成了

實踐證明

唯一待解之謎,只剩下造芯模式的

通關速度

——

傳統IT時代的造芯公司和通用晶片,短則5~7年,長則可能10年……

而平頭哥的倚天710,

僅僅用了2年

所以這種模式和速度背後,根本原因是什麼?

是半導體領域也面臨世紀變革?

抑或一個時代果真有一個時代的造芯模式?

平頭哥造芯模式,正式跑通!

中國首個雲端大規模應用的自研CPU

倚天710

,2021年雲棲大會發布,是平頭哥造芯以來交出的首款通用型CPU。

單晶片600億電晶體、128核、主頻3。2GHz……首戰跑分就超出業內標杆20%,能效比提升50%以上。

主要用於雲計算場景,基於Arm v9架構,

首發即重新整理了Arm伺服器晶片效能紀錄

作為通用晶片,需要囊括接收、處理、運算伺服器計算機內部所有資訊,

是業內公認的設計難度最高的晶片之一

平頭哥造芯模式,正式跑通!

晶片之難

最根本

還不在於設計和製造,更關鍵的是

落地和應用

:能夠真正讓更多人用得上、用得好,以強大的生態拱衛壘砌起護城河。

於是一年之後,平頭哥交出重要答卷。

阿里雲方面稱,經過一年業務驗證,

倚天710已規模部署並對外提供服務

具體到應用場景中,在資料庫、大資料、影片編解碼、AI推理等核心場景中的價效比提升30%以上,單位算力功耗(耗電量)降低60%以上。

這種應用例項,有阿里內部的新業務,也有外部客戶:比如研究機構,智慧手機企業,還有知名網際網路公司。

主打資料智慧SaaS工具生態的匯量科技就表示,在廣告推理中使用倚天710例項後,不僅有效提升了

CPU處理能力和網路頻寬

,成本對比傳統例項也降低15-20%,綜合性價比提升40%以上。

而阿里集團內部,倚天710則開始支援最核心的

電商業務

,並且成功在

雙11

等峰值流量大考中,經受住了實戰檢驗。

平頭哥造芯模式,正式跑通!

這種應用和反饋,意外嗎?不算意外。

畢竟

效能和引數

,從設計和成功流片之後,就決定了跑分成績。

但一款Arm雲端CPU能夠快速應用於不同場景和服務,適配不同領域的軟體和應用,

純靠硬體之力,辦不到

阿里雲方面解釋,這背後離不開

倚天710、飛天作業系統和CIPU融合

,首次實現了

晶片、計算架構及作業系統

的協同最佳化。

而且從造芯啟動開始,

演算法、軟體和生態工具

的相關工作也早已啟動,作用到倚天710大規模部署中,實現了全應用生態的適配,甚至

0程式碼修改即可完成主流業務遷移

平頭哥造芯模式,正式跑通!

所以對於平頭哥造芯,

軟體定義硬體、需求定義供給

,都是已經驗證過的定理。但全域性思維下的以終為始,

把生態和應用納入到造芯流程中

,卻是新角度、新方法。

這是對傳統晶片研發模式的

根本性變革

,也暗含

雲原生

對映的時代趨勢,更能

解釋平頭哥造芯的模式和速度

倚天710的成功、平頭哥模式的跑通,是

雲計算定義硬體

的成功,是雲計算重塑晶片甚至整個IT硬體體系的證明。

更代表著——IT時代全新的造芯模式開啟。

一個時代有一個時代的造芯模式

阿里入局造芯,平頭哥不服就幹。

氣勢、速度和交貨,三位一體。

平頭哥造芯模式,正式跑通!

2018年9月

,整合中天微和達摩院成立旗下晶片公司後,

平頭哥半導體

正式推出,放話“生死看淡”。

僅僅1年,

首款處理器產品玄鐵910

對外發布,創造RISC-V開源陣營裡的最快紀錄。

又過1年,還在雲棲大會,

首款AI專用晶片含光800

,一劍霜寒十四州,首發特定場景效能就40倍於同領域標杆英偉達P4。

到了2021年,依然是雲棲,

倚天710以阿里首款為雲而生的通用CPU

震動業內,效能跑分領先,能效比更是領跑……

加上今年披露的

落地部署和應用進展

,用產品迴應質疑,用進展證明模式和實力。

平頭哥造芯模式,正式跑通!

整個程序中,平頭哥造芯模式的速度秘訣,也在摸象中逐步清晰。

核心歸結起來其實就3點。

第一,造得快,因為需求清晰。

傳統半導體廠商造芯,先調研客戶、再收集需求、接著內部收斂聚焦,然後才能進入定義和晶片設計……過程中免不了技術、產品和工程的拉鋸平衡,於是造芯週期光在前期規劃就會無限拉長。

平頭哥之所以不同,是因為阿里雲在客戶服務、需求和算力產品定義上,積累已非一日,設計規劃週期,可以大大縮短。

第二,造得好,源自任務明確。

一方面,透過需求定義供給。什麼樣的任務,需要晶片提供什麼樣的能力……傳統造芯,先把效能按照天花板設計,再在部署應用中想辦法適配和榨乾,晶片之於應用是參考答案。而需求定義供給,則可以抓住主要任務和矛盾,晶片即解答。

另一方面,軟體定義硬體。晶片作為計算任務的解法整合,以前是先有硬體再配演算法,但從AI為主的專用需求開始,最高效的解法早已變成了軟硬一體化方案,甚至為了演算法和軟體去定製晶片硬體。

這種源頭起點上的變革,晶片的效能、功耗、應用落地,自然不會差。

第三,用得上且用得好,因為落地場景清晰。

平頭哥造芯,從一開始就與阿里雲緊密協同,阿里雲是集團同事、客戶、也是落地場景,在阿里生態內,就能完成晶片的全流程。

晶片的流程,之前最受關注的是設計和流片,但這其實只是開始。

流片之後需要壓測,驗證穩定性,然後小批次交付客戶開發利用反饋,進行功能性測試,如果有問題還得重新設計、改版,再走一遍週期,這也是為什麼一款晶片在流片成功之後,依然需要一年半載才能驗證應用價值的內在原因。

但平頭哥不同,在阿里集團內部,在阿里雲的體系協同下,各種壓測、場景和應用反饋,基本是

完整全鏈路

的。

比如倚天710,去年8月點亮成功,雲棲大會官宣釋出,緊接著雙11就開啟了峰值極限下的穩定性壓測……以往傳統晶片公司用時一年半載才能完成的流程,阿里幾個月就走完了,

一款晶片的成熟週期,被大大縮短

所以平頭哥造芯,自然是攻堅科技產業中最基礎又最關鍵的一環,但從一開始就並非為造而造,或者因為熱潮而出發。

平頭哥半導體的價值,或許要放在

整個阿里的算力攻堅程序中

,才能透過區域性看整體,透過現象看清本質。

平頭哥造芯模式,正式跑通!

阿里雲

的發展史,關於開創者們的往事記述很多,而且傳奇性和喜劇感十足,早已深入人心。

但從

算力技術

主線和維度,可以倒推歸結為

4個階段

第一個階段,用分散式技術解決算力瓶頸。

在全球網際網路流量大爆發之前,企業算力的核心載體是

小型機

,透過線下自建或租用伺服器的方式解決算力問題,但對於身處消費網際網路方向上的企業而言,這種模式顯然越來越難以為繼。

阿里的算力攻堅,以及阿里雲計算的肇始,就是基於這樣的背景。

2007年,為了應對指數級擴張的淘寶流量,阿里開始從業務底層的

IOE

(IBM小型機、Oracle資料庫、EMC儲存)尋求根本性解法,即後來的基於雲計算搭建全新技術架構,打破“擴大采購規模”的線性侷限。

其後進一步為這套底層技術和上層業務開發作業系統,在

2009年正式啟動了飛天

,阿里雲也由此正式成立,沒想到日後會成為中國企業自研雲計算的開端。

平頭哥造芯模式,正式跑通!

飛天雲作業系統的本質,是要用分散式架構替換中心化架構,可以讓全世界伺服器實現連線,既能快速應對突增的流量,還能

讓計算資源真正像水電一樣即需即用

所以“分散式架構”和發展方向,就是算力攻堅的核心第一仗,後面叢集挑戰、故障運維、併發應對……都是正確方向之下的升級打怪。

結果則人人都感知到了。雙11購物不再卡頓,12306春運購票也逐漸不再被吐槽……這都是阿里在分散式計算思想下開花結果的功勞。

第二階段,從雲計算需求和痛點,反向定義新硬體。

雲計算的好處,一用即知,但虛擬化損耗的問題卻一度成為頑疾。

所謂

虛擬化損耗

,就是雲端呼叫線下伺服器的程序,本身就會吸走機器效能,造成算力浪費。

業內面對這一頑疾,往往採用更低成本的軟體最佳化方法,但顯然治標不治本,只能最佳化,不能根治。

平頭哥造芯模式,正式跑通!

阿里雲的方法是後來的

神龍架構

,打造了一個專用硬體來負責晶片不擅長的虛擬化排程工作,用軟硬體一體的思路真正做到了0損耗。

這讓阿里雲一下子坐穩了份額第一的位置,也帶來了更重要的開始:

算力攻堅要向底層硬體、甚至晶片尋求解法

軟硬一體化,軟體定義硬體,或者說雲計算定義新硬體的趨勢……在阿里雲,以2017年9月第一代神龍架構推出作為標誌性節點。

第三階段,造芯,重塑整個IT硬體體系。

也就是當前所處的階段,以2017年達摩院成立,求解前沿晶片技術和2018年平頭哥半導體推出為標誌性事件,

阿里雲真正從“軟”到“硬”,從雲端向下定義晶片

平頭哥造芯模式,正式跑通!

當然這種求解,有宏觀社會責任擔當的原因,但在阿里雲發展方向裡,趨勢也早已再明顯不過。

一方面是去IOE體系之下的硬體進一步變革需求。另一方面,作為雲計算服務提供商,不碰晶片,不碰硬體,其實就無法真正做到效能、成本和體驗的最優解。

於是可以看到,除了自研晶片,阿里雲還在伺服器、交換機等硬體方面做了系統性革新,

以晶片為起點,幾乎重塑了整個IT硬體體系

上一階段的神龍架構計算平臺,也在不斷升級,成為新物種:

CIPU

——向下可以對資料中心的計算、儲存和網路資源快速雲化並進行硬體加速,向上接入作業系統。

所以這就是終點了嗎?

從阿里雲已經交貨部署的成果來看,可以算是

階段性終點

了。

但如果放在算力攻堅的

終局審視

,或許還有兩個更宏大的

時代級問題

一是新型計算架構

。整個產業都到了突破傳統馮·諾依曼架構儲存計算分離的效能瓶頸的關口,存算一體的新型大一統計算體系架構,被越來越多提及。

二是新型顛覆式計算形態

,比如量子計算。

有意思的是,這兩大時代級問題,任何一個對於當前算力格局的影響,可能都會是

核彈級

的。

平頭哥造芯模式,正式跑通!

總的說來,只有如此全域性式透視,以終點看起點和過程,才能

更本質地看清阿里造芯、平頭哥模式的歸、去、來

這背後是一家公司對於科技需求和科技發展挑戰的

逢山開路

,但同樣也是

時代趨勢的具體對映和展現

或許不用再贅述和論證了。

一個時代有一個時代的算力需求和挑戰,於是一個時代也就有一個時代的算力解決方案,進而一個時代就會有一個時代的造芯模式。

平頭哥模式,就是代表

算力發展方向的代表性模式

平頭哥造芯模式,正式跑通!

如何評價「平頭哥模式」?

最後,晶片全流程work,整個模式跑通,也意味著平頭哥出發時被寄予的期望和質疑,都到了可以重新評估的時候。

阿里造芯以來,噱頭、熱點和形象工程之說,從未停止。

但隨著

倚天710年度性交卷

,成為中國首個雲上大規模應用的自研CPU,此論可休矣。

而且倚天710創造的紀錄、展現的效用、開啟的正規化,必將帶來造芯模式上更大的啟發和變革。

其次,過去幾年

雲計算相關的格局洗牌猜想

,同樣也到了有理有據的結辯時刻。

過去的市場份額是阿里雲一騎絕塵,因為出發得早。接下來的格局也依然會是阿里雲不可爭鋒,

因為基於晶片和底層軟硬一體架構的壁壘

,無人能比,短時間內無人能及。

而且業內業外,一種討論和新觀點也正在愈演愈烈:

新時代的科技競速,本質就是以算力為基建的競速。

下層基建決定了上層生態。底層基建決定了發展速度。

或許完全強調算力的作用,太過絕對。但誰也無法否認的是,

算力正在成為科技發展中最基礎也最重要的生產要素

而對於阿里和阿里雲來說,過去的積累和沉澱,在當前的時代級變革前顯得如此恰逢其時。

平頭哥造芯模式,正式跑通!

晶片、作業系統、資料庫、儲存、網路和上層應用……擁有全棧完整自研軟硬體技術體系的雲計算提供商,中國目前僅此一家。

這是阿里之幸,也是時代給予的機遇。

科技變革的規律,通常都是哪裡有痛點需求,哪裡就有解決方案和應對之策

但上一波科技浪潮湧動之時,中國玩家沒能參與其中,

基礎半導體的研發和定義

,也完全處於

跟隨狀態

所以現在,終於終於有機會,

可以在全新造芯正規化下,從新起點出發,參與硬科技創新的研發和定義

或許這一次,也真正有這樣有意思的機會——

源自中國文化裡的兵器,比如玄鐵、含光、倚天、屠龍……被更多人追問、瞭解和感嘆。

— 完 —