軟硬結合,以終為始 對話地平線CTO黃暢

軟硬結合,以終為始 對話地平線CTO黃暢

車東西(公眾號:chedongxi)

作者

| 曉寒 俞嶽

編輯

| 肖涵

智慧電動汽車的算力競賽已經打響。

最近釋出的新車中,車載自動駕駛計算平臺的算力動輒數百、上千TOPS。計算平臺背後離不開大算力自動駕駛晶片的支援,但現階段唱主角的晶片企業還多是英偉達、高通等海外玩家,中國晶片企業何時能登臺與之同場競技?

答案就在明年。

屆時地平線的全場景整車智慧中央計算晶片征程5有望量產裝車,國內消費者也將真正用上一套軟硬體全套國產的高階自動駕駛方案。

事實上,地平線征程5在今年5月流片成功後,就憑藉著30W功耗、128TOPS的單晶片AI算力吸引了整個汽車行業的關注。在當天的釋出會上,更是有多家車企現場宣佈與地平線就征程5晶片達成首發量產合作意向,其火熱程度可見一斑。

眼下已是2021年末,距離征程5的量產時間表越來越近。那麼在過去半年裡,地平線團隊究竟為征程5的量產做了哪些工作?這款晶片的實際測試結果真如地平線強調的真實AI效能一樣優秀嗎?

日前,車東西團隊到訪地平線北京總部,與其聯合創始人&CTO黃暢再次進行了一場深度對話,不僅瞭解到了征程5量產裝車工作的最新進展,還得以從地平線技術掌舵人黃暢的詳細解讀中,徹底揭開徵程5的核心技術面紗。

一、晶片進入密集測試階段 裝車速度快於同行

今年7月29日,地平線在上海舉行了征程5的釋出會,以亮眼的紙面引數迅速點燃了汽車行業對國產大算力自動駕駛芯的期待之火。

這顆SoC晶片基於16nm製程打造,其CPU採用8核心ARM Cortex A55核心,最核心的AI運算單元系地平線自研的雙核心貝葉斯架構BPU(Brain Processing Unit)。同時其內部還有2個ISP核心、計算機視覺引擎、2個DSP核心、影片編碼解碼單元。

軟硬結合,以終為始 對話地平線CTO黃暢

▲地平線征程5釋出會

強大硬體配置背後,征程5晶片的AI算力能夠達到128TOPS,並支援最多8顆征程5晶片組合起來打造自動駕駛域控制器,綜合算力高達1024TOPS。

晶片的算力固然重要,但在晶片業內人士看來,談算力必須考慮功耗——優秀的功耗比才能說明晶片實力的強勁。

透過與幾款典型自動駕駛晶片關鍵引數的比較可以發現,地平線征程5的能效比表現非常優秀,不僅超過了特斯拉引以為傲的FSD晶片,甚至還超越了幾乎是2022年旗艦智慧電動車標配的英偉達Orin。

軟硬結合,以終為始 對話地平線CTO黃暢

▲幾款典型自動駕駛晶片引數對比

當然,上面的數字都是紙面引數,能不能打還得看實際測試結果。

“跑完演算法後我們發現征程5的表現非常優秀。”在談及征程5的實際表現時,黃暢按捺不住內心的激動,笑著給出了這樣一句答案。

據其介紹,地平線的技術團隊以微軟的MS CoCo資料集為準,對征程5和英偉達目前已經裝車的Xavier晶片進行了物體識別演算法的對比測試。

其將同樣的深度學習模型跑在兩塊晶片上,平均精度都維持在34。6%左右的水平,同時輸入解析度為512×512的影象,結果Xavier處理的平均幀率不到200FPS,而地平線征程5達到了1283FPS。

由於當時測試時,英偉達Orin還沒量產拿不到實物,按照官網所說相比Xavier效能提升7倍粗略計算。如果在Orin晶片上跑同樣的演算法,幀率乘以7就是大概1001幀,還是沒有徵程5優秀。

自動駕駛晶片的AI算力就是為感知演算法的深度學習模型提供支援,在同樣識別精度的條件下,誰的處理幀率更高,自然就說明了誰的“算力”更強。

在與車東西見面時,黃暢剛開完上一個會還未吃午飯。在快速吃了幾口麵包後,他繼續向車東西講起了近來的工作。

他講到,晶片量產上車前需要大量測試驗證,需要確保它能夠穩定工作5年、甚至10年,才能真正量產裝車。所以在釋出會之後,地平線團隊的主要工作就是對征程5進行各類測試,這裡不僅僅是對晶片本身進行測試,配套的主機板、控制器,甚至是軟體演算法都需要進行各類測試。

“進入2022年,我們的測試還會更加密集和深入。”黃暢說道,“如果計算從釋出到量產裝車之間的時間,我們的速度在業內已經很快了。”

黃暢的說法確有事實依據。比如英偉達在2019年釋出了Orin晶片,高通在2020年釋出了Snapdragon Ride自動駕駛平臺,而二者的量產上車時間都在2022年。而地平線征程5從2021年5月流片成功到量產上車的時間預計小於2年。

地平線晶片快速匯入量產的能力與速度有據可循。地平線2019年8月釋出的中國首款車規級征程2晶片,歷時短短10個月,便於2020年6月在長安UNIT車型上實現前裝量產;2020年9月,地平線釋出了新一代征程3晶片,8個月後搭載於2021款理想ONE量產上市。而這量產裝車的速度背後,是地平線晶片在研發全週期裡,做的大量且充分的測試驗證工作。

二、八字訣竅是研發秘籍 地平線竟是軟體公司

從前文總結來看,征程5既擁有出色的能效比和實際測試結果,同時又能快速實現量產裝車,表現確實出眾。那麼地平線到底是如何做到這些的呢?

“答案就8個字,以終為始,軟硬結合。”黃暢笑著說道。

黃暢所說的“以終為始”,就是說在設計晶片之初就要考慮清楚晶片的具體用途——要實現什麼功能,跑什麼演算法,要達怎麼樣的技術指標。

簡單點說,這個原則跟訂製西裝一樣,只有知道人的身高、體重、三圍、臂長的資料(即需求)後,才能量身打造出最合適的衣服。

而“軟硬結合”則是執行“以終為始”理念的具體操作方法,即在晶片設計、測試驗證、量產上車的各個步驟都執行軟硬結合的操作模式。

“想要做好自動駕駛晶片,你得知道自動駕駛演算法到底是什麼樣的,它要跑通哪種場景。”黃暢解釋道。

正是基於這種理念,地平線最近幾年迅速組建起了一支龐大的軟體團隊,甚至規模還超過了硬體團隊。

其公司總計有1000多名員工,70%以上為研發人員。而研發人員中,演算法、軟體研發人員數量達到600人,並且軟體研發人員的增長速度是最快的。

軟硬結合,以終為始 對話地平線CTO黃暢

▲地平線位於北京的辦公樓

有了足夠的兵力,地平線逐步涉足到了自動駕駛軟體最核心的感知、規劃控制領域,相當於是有了自己的自動駕駛演算法。因而在定義征程5這顆晶片的初期,就能從自動駕駛演算法的實際場景需求出發,提出幾種不同的晶片架構方案。

緊接著,技術團隊會對不同的架構方案進行虛擬模擬測試,根據測試結果最終確定了征程5的架構設計。

說到這裡軟體的故事其實還沒完。

“1顆自動駕駛晶片的研發週期接近4年,從設計到流片需要2年多,驗證又需要1年。到最後裝車時,自動駕駛演算法可能早就迭代了,所以還得解決對未來演算法的適配問題。”黃暢補充道。

面對這一問題,黃暢的解決思路仍然是軟硬結合,只不過這裡的軟體變成了晶片底層的工具鏈、編譯器、中介軟體等底層軟體。

“硬體架構確定了就很難改變了,所以這時候要透過對底層軟體的調整來適配最新的自動駕駛演算法。”黃暢解釋道。

這個道理跟遊戲和顯示卡的關係幾乎一模一樣。

每當有重磅新遊戲出現後,英偉達這樣的顯示卡巨頭就會推出針對性的顯示卡驅動程式。在升級驅動後,新遊戲在顯示卡上的執行效率就會明顯提升。

既然是以終為始,就是說只有自動駕駛演算法足夠優秀,對自動駕駛演算法的理解足夠深,才能設計出好的晶片,那麼地平線的自動駕駛演算法到底怎麼樣呢?

黃暢舉了兩個例子來解答這一問題。

首先,在演算法層面,地平線演算法團隊使用了大量前沿技術,比如其早在三年前就開始研發網路結構搜尋。

“神經網路中有很多細節的網路結構,行業內有很多通用的,例如ResNet或者說Efficient Net,但這些都不是最適合我們晶片的。”黃暢說道,“結合晶片架構,手動加上自動化的一些最佳化,能夠讓其精度更高。從而實現了算力有效利用率提升,頻寬降低,讓模型跑得既快又好。”

其次,在實際道路測試中,地平線的AEB(自動緊急制動)誤報率在每10萬公里1次的水平,而L2級自動駕駛的MPD值則在100公里左右,這在業內都是非常不錯的水平。

考慮到地平線的能力,從某種程度上來說,地平線其實不僅是一家晶片公司,也是一家演算法公司。

“ 你確實可以這麼理解。”黃暢說道。

三、大量自研IP 從感測器採集到做出決策的計算延遲可低至60ms

晶片作為一顆軟硬結合的產物,畢竟還有物理結構存在,除了軟體部分發力,征程5在硬體上也有諸多亮點。

首先,地平線自研了大量IP核心,讓專用核心處理特定流程。

貝葉斯架構BPU(Brain Processing Unit)就是地平線自研的重要核心之一,征程5共配備了兩個BPU核心。BPU能夠實現大規模異構近存計算,讓計算更高效;同時擁有高靈活大併發資料橋,片上頻寬非常大;此外,還有脈動張量計算核心,得以實現高算力。

與此同時,地平線還擁有流式處理IP,針對常用的影象處理演算法做硬體加速, 例如CV引擎和金字塔核心,這兩個核心與ISP同屬影象處理單元。

黃暢表示,雖然DSP或者其他核心也能處理類似流程,但問題是效率低下,有開發成本,因此地平線選擇了自研這些核心來進行處理,並將DSP的算力節省下來以支援更靈活的CV演算法開發。

其次,引入統一記憶體架構。

2018年以來,蘋果把這項技術應用於自研晶片中,實現了更高的效率,給整個消費電子領域帶來了一次又一次的震驚。

“征程5的設計理念和蘋果類似,留給軟體巨大的想象空間。因為記憶體的分配可以根據每個演算法的特點分配給每個計算單元,並且能夠實現動態分配。”黃暢跟車東西仔細講起了征程5的記憶體架構。

如果不使用統一儲存架構,帶來的後果是需要更多的片上儲存以避免效能瓶頸,一些寶貴的片上儲存空間只能為某些計算核心服務,軟體調動很不靈活。實際上,一些計算核心不需要一直髮揮最大效能,固定分配的片上儲存無法充分利用。

但是利用軟體分配完全不同。軟體分配給計算核心的空間可以動態變化,當計算壓力不大的情況下,可以用較小的儲存完成整個計算過程。這樣一來,整個系統能夠在更少儲存使用的前提下,片上可以快取更多資料,減緩頻寬瓶頸,增加運算效率。

黃暢透露,得益於晶片定義初期的系統模擬能力,下一代征程晶片能夠在系統級別做更大規模、更豐富層次的統一片上儲存架構。

最後,征程5透過特有的架構和工作流,能實現極低的系統延遲。

軟硬結合,以終為始 對話地平線CTO黃暢

▲地平線征程5

征程5晶片自動駕駛計算延遲為60毫秒,這是指從攝像頭感知、目標檢測、判斷應作出加速或減速動作時的延遲。而目前,市面上絕大多數產品都只能實現150毫秒左右的延遲。

黃暢說道:“自動駕駛的延遲每下降60毫秒,可以減少1米多的剎車距離,也就意味著有可能就挽救一個人的生命。”

為了降低延遲,地平線針對自動駕駛場景,從攝像頭線上輸入、離線DDR,透過金字塔核心、拼接光流處理,能夠在預處理階段大幅降低延遲。在BPU核心中,地平線選擇針對一次高效處理一張圖片做架構最佳化,實現低延遲。

據黃暢介紹,現在大多伺服器晶片會選擇透過複用神經網路的引數,一次性批次處理十餘張圖片,這樣一來,雖然處理量有所上升,但延遲會加大。

“地平線選擇對每一張圖片進行極致的最佳化,而不是單純追求一次性的處理量,這能夠保證在實際場景應用中的速度最快,延遲最小。”黃暢說道。

總結來說,地平線對晶片的研發目標牢牢鎖定在了實際應用場景下的高效能這個關鍵目標上。

透過自研IP,打造出了更適合自動駕駛的計算核心,引入統一儲存架構,實現高效處理流程。最重要的是,軟體團隊能夠根據硬體產品,最大程度挖掘其計算潛能,最終實現高效計算。

四、自動駕駛競爭加劇 征程5將助力地平線再上新臺階

征程5是地平線的第三款車規級晶片,在此之前,征程2、征程3先後實現前裝量產,幫助地平線拿下智慧座艙、輔助駕駛的市場份額。而征程5晶片的出現,能讓地平線在高階自動駕駛領域和全場景整車智慧領域再上新臺階。

截至今年9月,地平線征程系列晶片的出貨量超過50萬片。與此同時,量產上車2021款理想ONE的征程3晶片,將在不久之後支援實現NOA(導航輔助駕駛)功能。

軟硬結合,以終為始 對話地平線CTO黃暢

▲地平線征程系列晶片

今年7月,地平線征程5正式釋出,當時已經有大陸集團、東軟睿馳、立訊集團、聯成開拓四家合作伙伴推出了基於征程5晶片的自動駕駛域控制器。

顯然,地平線的朋友圈正在擴大,面對自動駕駛行業的激烈競爭,產業生態合作將成為大勢所趨。同時,服務層面的競爭也至關重要。

黃暢提到,地平線在與客戶合作研發的過程中,會提供晶片原廠支援,包括硬體參考設計、技術諮詢,並且極速響應。在一些深度聯合開發的專案中,雙方會組成聯合團隊,並行協同開發。

面向未來,地平線與合作伙伴的協同將更加經驗化,屆時服務效率也將更高,協同共建能力,創造使用者價值。

如今,自動駕駛賽道不再是傳統汽車晶片廠商的角逐,英偉達、高通都已經加入了這一漫長的賽道中。作為國內唯一實現前裝量產的汽車智慧晶片,地平線征程系列晶片的意義不言而喻,對國內自動駕駛落地具有非常大的促進作用。在未來自動駕駛競爭中,晶片效能與效率的優勢將逐漸凸顯,地平線為代表的邊緣AI晶片企業將有更廣闊的市場。