李根 魚羊 假裝發自 西溪
量子位 | 公眾號 QbitAI
“生死看淡,不服就幹”,平頭哥造芯模式,正式跑通。
2022雲棲大會現場,新進展再次由阿里雲智慧總裁
張建鋒
對外宣佈。
倚天710已大規模應用,成為中國首個雲上大規模應用的自研CPU。
在核心應用場景中,算力價效比提升
30%
以上,單位算力功耗(耗電量)降低
60%
以上。
張建鋒還宣佈,倚天710的部署規模還會進一步擴大,未來兩年
20%的新增算力
都將使用
自研CPU
。
更直白翻譯,就是以後阿里雲的晶片部署中,
每10顆CPU晶片裡就有2顆自研CPU
。
這個進展和應用,為何重要?
首先,大規模部署代表著晶片產品獲得了
市場檢驗
,也意味著
最難的生態一環達成閉環
——雖然不如新硬體來的“刺激”,但意義和價值卻絲毫不遜於新品釋出,甚至長遠來看,量級簡直不能相提並論。
其次,倚天710,作為一款基於
Arm架構的雲端CPU
,想要在
x86
占主導地位的
全球雲計算和伺服器晶片生態
中立足,更是難上加難,目標
十中有二
更是Arm架構在雲端里程碑式的新突破。
最後,倚天710的大規模部署,不僅是
中國首個自研CPU的應用紀錄
,還意味著誕生在造芯浪潮中的
平頭哥模式
幹出來了!
縱觀半導體半個世紀的發展史,
檢驗造芯模式
的核心關鍵一以貫之:
造出來(設計和流片)
用得上(需求和效能)
用得好(功耗和成本)
離不開(工具和生態)
而在倚天710的進展中,這四大流程關鍵,平頭哥都(一口氣)完成了
實踐證明
。
唯一待解之謎,只剩下造芯模式的
通關速度
——
傳統IT時代的造芯公司和通用晶片,短則5~7年,長則可能10年……
而平頭哥的倚天710,
僅僅用了2年
。
所以這種模式和速度背後,根本原因是什麼?
是半導體領域也面臨世紀變革?
抑或一個時代果真有一個時代的造芯模式?
中國首個雲端大規模應用的自研CPU
倚天710
,2021年雲棲大會發布,是平頭哥造芯以來交出的首款通用型CPU。
單晶片600億電晶體、128核、主頻3。2GHz……首戰跑分就超出業內標杆20%,能效比提升50%以上。
主要用於雲計算場景,基於Arm v9架構,
首發即重新整理了Arm伺服器晶片效能紀錄
。
作為通用晶片,需要囊括接收、處理、運算伺服器計算機內部所有資訊,
是業內公認的設計難度最高的晶片之一
。
但
晶片之難
,
最根本
還不在於設計和製造,更關鍵的是
落地和應用
:能夠真正讓更多人用得上、用得好,以強大的生態拱衛壘砌起護城河。
於是一年之後,平頭哥交出重要答卷。
阿里雲方面稱,經過一年業務驗證,
倚天710已規模部署並對外提供服務
。
具體到應用場景中,在資料庫、大資料、影片編解碼、AI推理等核心場景中的價效比提升30%以上,單位算力功耗(耗電量)降低60%以上。
這種應用例項,有阿里內部的新業務,也有外部客戶:比如研究機構,智慧手機企業,還有知名網際網路公司。
主打資料智慧SaaS工具生態的匯量科技就表示,在廣告推理中使用倚天710例項後,不僅有效提升了
CPU處理能力和網路頻寬
,成本對比傳統例項也降低15-20%,綜合性價比提升40%以上。
而阿里集團內部,倚天710則開始支援最核心的
電商業務
,並且成功在
雙11
等峰值流量大考中,經受住了實戰檢驗。
這種應用和反饋,意外嗎?不算意外。
畢竟
效能和引數
,從設計和成功流片之後,就決定了跑分成績。
但一款Arm雲端CPU能夠快速應用於不同場景和服務,適配不同領域的軟體和應用,
純靠硬體之力,辦不到
。
阿里雲方面解釋,這背後離不開
倚天710、飛天作業系統和CIPU融合
,首次實現了
晶片、計算架構及作業系統
的協同最佳化。
而且從造芯啟動開始,
演算法、軟體和生態工具
的相關工作也早已啟動,作用到倚天710大規模部署中,實現了全應用生態的適配,甚至
0程式碼修改即可完成主流業務遷移
。
所以對於平頭哥造芯,
軟體定義硬體、需求定義供給
,都是已經驗證過的定理。但全域性思維下的以終為始,
把生態和應用納入到造芯流程中
,卻是新角度、新方法。
這是對傳統晶片研發模式的
根本性變革
,也暗含
雲原生
對映的時代趨勢,更能
解釋平頭哥造芯的模式和速度
。
倚天710的成功、平頭哥模式的跑通,是
雲計算定義硬體
的成功,是雲計算重塑晶片甚至整個IT硬體體系的證明。
更代表著——IT時代全新的造芯模式開啟。
一個時代有一個時代的造芯模式
阿里入局造芯,平頭哥不服就幹。
氣勢、速度和交貨,三位一體。
2018年9月
,整合中天微和達摩院成立旗下晶片公司後,
平頭哥半導體
正式推出,放話“生死看淡”。
僅僅1年,
首款處理器產品玄鐵910
對外發布,創造RISC-V開源陣營裡的最快紀錄。
又過1年,還在雲棲大會,
首款AI專用晶片含光800
,一劍霜寒十四州,首發特定場景效能就40倍於同領域標杆英偉達P4。
到了2021年,依然是雲棲,
倚天710以阿里首款為雲而生的通用CPU
震動業內,效能跑分領先,能效比更是領跑……
加上今年披露的
落地部署和應用進展
,用產品迴應質疑,用進展證明模式和實力。
整個程序中,平頭哥造芯模式的速度秘訣,也在摸象中逐步清晰。
核心歸結起來其實就3點。
第一,造得快,因為需求清晰。
傳統半導體廠商造芯,先調研客戶、再收集需求、接著內部收斂聚焦,然後才能進入定義和晶片設計……過程中免不了技術、產品和工程的拉鋸平衡,於是造芯週期光在前期規劃就會無限拉長。
平頭哥之所以不同,是因為阿里雲在客戶服務、需求和算力產品定義上,積累已非一日,設計規劃週期,可以大大縮短。
第二,造得好,源自任務明確。
一方面,透過需求定義供給。什麼樣的任務,需要晶片提供什麼樣的能力……傳統造芯,先把效能按照天花板設計,再在部署應用中想辦法適配和榨乾,晶片之於應用是參考答案。而需求定義供給,則可以抓住主要任務和矛盾,晶片即解答。
另一方面,軟體定義硬體。晶片作為計算任務的解法整合,以前是先有硬體再配演算法,但從AI為主的專用需求開始,最高效的解法早已變成了軟硬一體化方案,甚至為了演算法和軟體去定製晶片硬體。
這種源頭起點上的變革,晶片的效能、功耗、應用落地,自然不會差。
第三,用得上且用得好,因為落地場景清晰。
平頭哥造芯,從一開始就與阿里雲緊密協同,阿里雲是集團同事、客戶、也是落地場景,在阿里生態內,就能完成晶片的全流程。
晶片的流程,之前最受關注的是設計和流片,但這其實只是開始。
流片之後需要壓測,驗證穩定性,然後小批次交付客戶開發利用反饋,進行功能性測試,如果有問題還得重新設計、改版,再走一遍週期,這也是為什麼一款晶片在流片成功之後,依然需要一年半載才能驗證應用價值的內在原因。
但平頭哥不同,在阿里集團內部,在阿里雲的體系協同下,各種壓測、場景和應用反饋,基本是
完整全鏈路
的。
比如倚天710,去年8月點亮成功,雲棲大會官宣釋出,緊接著雙11就開啟了峰值極限下的穩定性壓測……以往傳統晶片公司用時一年半載才能完成的流程,阿里幾個月就走完了,
一款晶片的成熟週期,被大大縮短
。
所以平頭哥造芯,自然是攻堅科技產業中最基礎又最關鍵的一環,但從一開始就並非為造而造,或者因為熱潮而出發。
平頭哥半導體的價值,或許要放在
整個阿里的算力攻堅程序中
,才能透過區域性看整體,透過現象看清本質。
阿里雲
的發展史,關於開創者們的往事記述很多,而且傳奇性和喜劇感十足,早已深入人心。
但從
算力技術
主線和維度,可以倒推歸結為
4個階段
。
第一個階段,用分散式技術解決算力瓶頸。
在全球網際網路流量大爆發之前,企業算力的核心載體是
小型機
,透過線下自建或租用伺服器的方式解決算力問題,但對於身處消費網際網路方向上的企業而言,這種模式顯然越來越難以為繼。
阿里的算力攻堅,以及阿里雲計算的肇始,就是基於這樣的背景。
2007年,為了應對指數級擴張的淘寶流量,阿里開始從業務底層的
IOE
(IBM小型機、Oracle資料庫、EMC儲存)尋求根本性解法,即後來的基於雲計算搭建全新技術架構,打破“擴大采購規模”的線性侷限。
其後進一步為這套底層技術和上層業務開發作業系統,在
2009年正式啟動了飛天
,阿里雲也由此正式成立,沒想到日後會成為中國企業自研雲計算的開端。
飛天雲作業系統的本質,是要用分散式架構替換中心化架構,可以讓全世界伺服器實現連線,既能快速應對突增的流量,還能
讓計算資源真正像水電一樣即需即用
。
所以“分散式架構”和發展方向,就是算力攻堅的核心第一仗,後面叢集挑戰、故障運維、併發應對……都是正確方向之下的升級打怪。
結果則人人都感知到了。雙11購物不再卡頓,12306春運購票也逐漸不再被吐槽……這都是阿里在分散式計算思想下開花結果的功勞。
第二階段,從雲計算需求和痛點,反向定義新硬體。
雲計算的好處,一用即知,但虛擬化損耗的問題卻一度成為頑疾。
所謂
虛擬化損耗
,就是雲端呼叫線下伺服器的程序,本身就會吸走機器效能,造成算力浪費。
業內面對這一頑疾,往往採用更低成本的軟體最佳化方法,但顯然治標不治本,只能最佳化,不能根治。
阿里雲的方法是後來的
神龍架構
,打造了一個專用硬體來負責晶片不擅長的虛擬化排程工作,用軟硬體一體的思路真正做到了0損耗。
這讓阿里雲一下子坐穩了份額第一的位置,也帶來了更重要的開始:
算力攻堅要向底層硬體、甚至晶片尋求解法
。
軟硬一體化,軟體定義硬體,或者說雲計算定義新硬體的趨勢……在阿里雲,以2017年9月第一代神龍架構推出作為標誌性節點。
第三階段,造芯,重塑整個IT硬體體系。
也就是當前所處的階段,以2017年達摩院成立,求解前沿晶片技術和2018年平頭哥半導體推出為標誌性事件,
阿里雲真正從“軟”到“硬”,從雲端向下定義晶片
。
當然這種求解,有宏觀社會責任擔當的原因,但在阿里雲發展方向裡,趨勢也早已再明顯不過。
一方面是去IOE體系之下的硬體進一步變革需求。另一方面,作為雲計算服務提供商,不碰晶片,不碰硬體,其實就無法真正做到效能、成本和體驗的最優解。
於是可以看到,除了自研晶片,阿里雲還在伺服器、交換機等硬體方面做了系統性革新,
以晶片為起點,幾乎重塑了整個IT硬體體系
。
上一階段的神龍架構計算平臺,也在不斷升級,成為新物種:
CIPU
——向下可以對資料中心的計算、儲存和網路資源快速雲化並進行硬體加速,向上接入作業系統。
所以這就是終點了嗎?
從阿里雲已經交貨部署的成果來看,可以算是
階段性終點
了。
但如果放在算力攻堅的
終局審視
,或許還有兩個更宏大的
時代級問題
:
一是新型計算架構
。整個產業都到了突破傳統馮·諾依曼架構儲存計算分離的效能瓶頸的關口,存算一體的新型大一統計算體系架構,被越來越多提及。
二是新型顛覆式計算形態
,比如量子計算。
有意思的是,這兩大時代級問題,任何一個對於當前算力格局的影響,可能都會是
核彈級
的。
總的說來,只有如此全域性式透視,以終點看起點和過程,才能
更本質地看清阿里造芯、平頭哥模式的歸、去、來
。
這背後是一家公司對於科技需求和科技發展挑戰的
逢山開路
,但同樣也是
時代趨勢的具體對映和展現
。
或許不用再贅述和論證了。
一個時代有一個時代的算力需求和挑戰,於是一個時代也就有一個時代的算力解決方案,進而一個時代就會有一個時代的造芯模式。
平頭哥模式,就是代表
算力發展方向的代表性模式
。
如何評價「平頭哥模式」?
最後,晶片全流程work,整個模式跑通,也意味著平頭哥出發時被寄予的期望和質疑,都到了可以重新評估的時候。
阿里造芯以來,噱頭、熱點和形象工程之說,從未停止。
但隨著
倚天710年度性交卷
,成為中國首個雲上大規模應用的自研CPU,此論可休矣。
而且倚天710創造的紀錄、展現的效用、開啟的正規化,必將帶來造芯模式上更大的啟發和變革。
其次,過去幾年
雲計算相關的格局洗牌猜想
,同樣也到了有理有據的結辯時刻。
過去的市場份額是阿里雲一騎絕塵,因為出發得早。接下來的格局也依然會是阿里雲不可爭鋒,
因為基於晶片和底層軟硬一體架構的壁壘
,無人能比,短時間內無人能及。
而且業內業外,一種討論和新觀點也正在愈演愈烈:
新時代的科技競速,本質就是以算力為基建的競速。
下層基建決定了上層生態。底層基建決定了發展速度。
或許完全強調算力的作用,太過絕對。但誰也無法否認的是,
算力正在成為科技發展中最基礎也最重要的生產要素
。
而對於阿里和阿里雲來說,過去的積累和沉澱,在當前的時代級變革前顯得如此恰逢其時。
晶片、作業系統、資料庫、儲存、網路和上層應用……擁有全棧完整自研軟硬體技術體系的雲計算提供商,中國目前僅此一家。
這是阿里之幸,也是時代給予的機遇。
科技變革的規律,通常都是哪裡有痛點需求,哪裡就有解決方案和應對之策
。
但上一波科技浪潮湧動之時,中國玩家沒能參與其中,
基礎半導體的研發和定義
,也完全處於
跟隨狀態
。
所以現在,終於終於有機會,
可以在全新造芯正規化下,從新起點出發,參與硬科技創新的研發和定義
。
或許這一次,也真正有這樣有意思的機會——
源自中國文化裡的兵器,比如玄鐵、含光、倚天、屠龍……被更多人追問、瞭解和感嘆。
— 完 —