​阿里達摩院金榕:從技術到科學,中國 AI 將何去何從?

​阿里達摩院金榕:從技術到科學,中國 AI 將何去何從?

編輯 | 陳大鑫

本文為阿里巴巴達摩院副院長、原密歇根州立大學終身教授金榕

親作

,旨在

透過這篇文章,

試圖

透過個人視角回顧AI的發展,審視我們當下所處的歷史階段,以及探索AI的未來究竟在哪裡。

以下是部分觀點:

1、AI時代序幕剛拉開,AI目前還處於初級階段,猶如法拉第剛剛發現了交流電,還未能從技術上升為科學。

2、以深度學習為代表的AI研究這幾年取得了諸多令人讚歎的進步,但部分也是運氣的結果,其真正原理迄今無人知曉。

3、在遇到瓶頸後,深度學習有三個可能突破方向:深度學習的根本理解、自監督學習和小樣本學習、知識與資料的有機融合。

4、AI在當下最大的機會:用AI解決科學重要難題(AI for Science)。

金榕:

如果從達特茅斯會議起算,AI 已經走過65年曆程,尤其是近些年深度學習興起後,AI迎來了空前未有的繁榮。不過,最近兩年中國AI 熱潮似乎有所回落,在理論突破和落地應用上都遇到了挑戰,外界不乏批評質疑的聲音,甚至連一些AI從業者也有些沮喪。

從90年代到美國卡耐基梅隆大學讀博開始,我有幸成為一名AI研究者,見證了這個領域的一些起伏。透過這篇文章,我將試圖透過個人視角回顧AI的發展,審視我們當下所處的歷史階段,以及探索AI的未來究竟在哪裡。

1

AI的歷史階段:手工作坊

雖然有人把當下歸為第三波甚至是第四波AI浪潮,樂觀地認為AI時代已經到來,但我的看法要謹慎一些:

AI無疑具有巨大潛力,但就目前我們的能力,AI尚處於比較初級的階段,是技術而非科學。這不僅是中國AI的問題,也是全球AI共同面臨的難題。

這幾年深度學習的快速發展,極大改變了AI行業的面貌,讓AI成為公眾日常使用的技術,甚至還出現了一些令公眾驚奇的AI應用案例,讓人誤以為科幻電影即將變成現實。但實際上,技術發展需要長期積累,目前只是AI的初級階段,AI時代才剛開始。

如果將AI時代和電氣時代類比,今天我們的AI技術還是法拉第時代的電。法拉第透過發現電磁感應現象,從而研製出人類第一臺交流電發電機原型,不可謂不偉大。法拉第這批先行者,實踐經驗豐富,透過大量觀察和反覆實驗,手工做出了各種新產品,但他們只是拉開了電氣時代的序幕。電氣時代的真正大發展,很大程度上受益於電磁場理論的提出。麥克斯維爾把實踐的經驗變成科學的理論,提出和證明了具有跨時代意義的麥克斯維爾方程。

如果人們對電磁的理解停留在法拉第的層次,電氣革命是不可能發生的。試想一下,如果颳風下雨打雷甚至連溫度變化都會導致斷電,電怎麼可能變成一個普惠性的產品,怎麼可能變成社會基礎設施?又怎麼可能出現各種各樣的電氣產品、電子產品、通訊產品,徹底改變我們的生活方式?

這也是AI目前面臨的問題,侷限於特定的場景、特定的資料。AI模型一旦走出實驗室,受到現實世界的干擾和挑戰就時常失效,魯棒性不夠;一旦換一個場景,我們就需要重新深度定製演算法進行適配,費時費力,難以規模化推廣,泛化能力較為有限。

這是因為今天的AI很大程度上是基於經驗。AI工程師就像當年的法拉第,能夠做出一些AI產品,但都是知其然,不知其所以然,還未能掌握其中的核心原理。

那為何 AI 迄今未能成為一門科學?

答案是,技術發展之緩慢遠超我們的想象。

回顧90年代至今這二十多年來,我們看到的更多是 AI 應用工程上的快速進步,核心技術和核心問題的突破相對有限。一些技術看起來是這幾年興起的,實際上早已存在。

以自動駕駛為例,美國卡耐基梅隆大學的研究人員進行的Alvinn專案,在80年代末已經開始用神經網路來實現自動駕駛,1995年成功自東向西穿越美國,歷時7天,行駛近3000英里。在下棋方面,1992年IBM研究人員開發的TD-Gammon,和AlphaZero相似,能夠自我學習和強化,達到了雙陸棋領域的大師水平。

​阿里達摩院金榕:從技術到科學,中國 AI 將何去何從?

(1995年穿越美國專案開始之前的團隊合照)

不過,由於資料和算力的限制,這些研究只是點狀發生,沒有形成規模,自然也沒有引起大眾的廣泛討論。今天由於商業的普及、算力的增強、資料的方便獲取、應用門檻的降低,AI開始觸手可及。

但核心思想並沒有根本性的變化。我們都是試圖用有限樣本來實現函式近似從而描述這個世界,有一個input,再有一個output,我們把AI的學習過程想象成一個函式的近似過程,包括我們的整個演算法及訓練過程,如梯度下降、梯度回傳等。

同樣的,核心問題也沒有得到有效解決。90年代學界就在問的核心問題,迄今都未得到回答,他們都和神經網路、深度學習密切相關。比如非凸函式的最佳化問題,它得到的解很可能是區域性最優解,並非全域性最優,訓練時可能都無法收斂,有限資料還會帶來泛化不足的問題。我們會不會被這個解帶偏了,忽視了更多的可能性?

2

深度學習:大繁榮後遭遇發展瓶頸

毋庸諱言,以深度學習為代表的 AI 研究這幾年取得了諸多令人讚歎的進步,比如在複雜網路的訓練方面,產生了兩個特別成功的網路結構,CNN和transformer。基於深度學習,AI研究者在語音、語義、視覺等各個領域都實現了快速的發展,解決了諸多現實難題,實現了巨大的社會價值。

但回過頭來看深度學習的發展,不得不感慨 AI 從業者非常幸運。

首先是隨機梯度下降(SGD),極大推動了深度學習的發展。

隨機梯度下降其實是一個很簡單的方法,具有較大侷限性,在最佳化裡面屬於收斂較慢的方法,但它偏偏在深度網路中表現很好,而且還是出奇的好。為什麼會這麼好?迄今研究者都沒有完美的答案。類似這樣難以理解的好運氣還包括殘差網路、知識蒸餾、Batch Normalization、Warmup、Label Smoothing、Gradient Clip、Layer Scaling…尤其是有些還具有超強的泛化能力,能用在多個場景中。

再者,在機器學習裡,研究者一直在警惕過擬合(overfitting)的問題。

當引數特別多時,一條曲線能夠把所有的點都擬合得特別好,它大機率存在問題,但在深度學習裡面這似乎不再成為一個問題…

雖然有很多研究者對此進行了探討,但目前還有沒有明確答案。更加令人驚訝的是,我們即使給資料一個隨機的標籤,它也可以完美擬合(請見下圖紅色曲線),最後得出擬合誤差為0。如果按照標準理論來說,這意味著這個模型沒有任何偏差(bias),能幫我們解釋任何結果。請想想看,任何東西都能解釋的模型,真的可靠嗎,包治百病的良藥可信嗎?

​阿里達摩院金榕:從技術到科學,中國 AI 將何去何從?

(Understanding deep learning requires rethinking generalization。 ICLR, 2017。)

說到這裡,讓我們整體回顧下機器學習的發展歷程,才能更好理解當下的深度學習。

機器學習有幾波發展浪潮,在上世紀80年代到90年代,首先是基於規則(rule based)。從90年代到2000年代,以神經網路為主,大家發現神經網路可以做一些不錯的事情,但是它有許多基礎的問題沒回答。所以2000年代以後,有一批人嘗試去解決這些基礎問題,最有名的叫SVM(support vector machine),一批數學背景出身的研究者集中去理解機器學習的過程,學習最基礎的數學問題,如何更好實現函式的近似,如何保證快速收斂,如何保證它的泛化性?

那時候,研究者非常強調理解,好的結果應該是來自於我們對它的深刻理解。研究者會非常在乎有沒有好的理論基礎,因為要對演算法做好的分析,需要先對泛函分析、最佳化理論有深刻的理解,接著還要再做泛化理論…大概這幾項都得非常好了,才可能在機器學習領域有發言權,否則連文章都看不懂。如果研究者自己要做一個大規模實驗系統,特別是分散式的,還需要有工程的豐富經驗,否則根本做不了,那時候沒有太多現成的東西,更多隻是理論,多數工程實現需要靠自己去跑。

但是深度學習時代,有人做出了非常好的框架,便利了所有的研究者,降低了門檻,這真是非常了不起的事情,促進了行業的快速發展。今天去做深度學習,有個好想法就可以幹,只要寫上幾十行、甚至十幾行程式碼就可以跑起來。成千上萬人在實驗各種各樣的新專案,驗證各種各樣新想法,經常會冒出來非常讓人驚喜的結果。

但我們可能需要意識到,時至今日,深度學習已遇到了很大的瓶頸。那些曾經幫助深度學習成功的好運氣,那些無法理解的黑盒效應,今天已成為它進一步發展的桎梏。

3

下一代AI的三個可能方向

AI 的未來究竟在哪裡?下一代 AI 將是什麼?目前很難給出明確答案,但我認為,至少有三個方向值得重點探索和突破。

第一個方向是尋求對深度學習的根本理解,破除目前的黑盒狀態,只有這樣AI才有可能成為一門科學。

具體來說,應該包括對以下關鍵問題的突破:

對基於DNN函式空間的更全面刻畫;

對SGD(或更廣義的一階最佳化演算法)的理解;

重新考慮泛化理論的基礎。

第二個方向是知識和資料的有機融合。

人類在做大量決定時,不僅使用資料,而且大量使用知識。如果我們的AI能夠把知識結構有機融入,成為重要組成部分,AI勢必有突破性的發展。研究者已經在做知識圖譜等工作,但需要進一步解決知識和資料的有機結合,探索出可用的框架。之前曾有些創新性的嘗試,比如Markov Logic,就是把邏輯和基礎理論結合起來,形成了一些有趣的結構。

第三個重要方向是自監督學習和小樣本學習。

我雖然列將這個列在第三,但卻是目前值得重點推進的方向,它可以彌補AI和人類智慧之間的差距。

今天我們經常聽說 AI 在一些能力上可以超越人類,比如語音識別、影象識別,最近達摩院 AliceMind 在視覺問答上的得分也首次超過人類,但這並不意味著 AI 比人類更智慧。谷歌2019年有篇論文 on the Measure of intelligence 非常有洞察力,核心觀點是說,真正的智慧不僅要具有高超的技能,更重要的是能否快速學習、快速適應或者快速通用?

按照這個觀點,目前AI是遠不如人類的,雖然它可能在一些方面的精度超越人類,但可用範圍非常有限。這裡的根本原因在於:人類只需要很小的學習成本就能快速達到結果,聰明的人更是如此——這也是我認為目前AI和人類的主要區別之一。

有一個很簡單的事實證明 AI 不如人類智慧,以翻譯為例,現在好的翻譯模型至少要億級的資料。如果一本書大概是十幾萬字,AI大概要讀上萬本書。我們很難想象一個人為了學習一門語言需要讀上萬本書。

另外有意思的對比是神經網路結構和人腦。目前AI非常強調深度,神經網路經常幾十層甚至上百層,但我們看人類,以視覺為例,視覺神經網路總共就四層,非常高效。而且人腦還非常低功耗,只有20瓦左右,但今天GPU基本都是數百瓦,差了一個數量級。著名的GPT-3跑一次,碳排放相當於一架747飛機從美國東海岸到西海岸往返三次。再看資訊編碼,人腦是以時間序列來編,AI是用張量和向量來表達。

也許有人說,AI發展不必一定向人腦智慧的方向發展。我也認為這個觀點不無道理,但在 AI 遇到瓶頸,也找不到其他參照物時,參考人腦智慧可能會給我們一些啟發。比如,拿人腦智慧來做對比,今天的深度神經網路是不是最合理的方向?今天的編碼方式是不是最合理的?這些都是我們今天AI的基礎,但它們是好的基礎嗎?

應該說,以GPT-3為代表的大模型,可能也是深度學習的一個突破方向,能夠在一定程度上實現自學習。大模型有些像之前惡補了所有能看到的東西,碰到一個新場景,就不需要太多新資料。但這是一個最好的解決辦法嗎?我們目前還不知道。還是以翻譯為例,很難想象一個人需要裝這麼多東西才能掌握一門外語。大模型現在都是百億、千億引數規模起步,沒有一個人類會帶著這麼多資料。

所以,也許我們還需要繼續探索。

4

AI的機會:AI for Science

說到這裡,也許有些人會失望。既然我們 AI 還未解決上面的三個難題,AI還未成為科學,那AI還有什麼價值 ?

技術本身就擁有巨大價值,像網際網路就徹底重塑了我們的工作和生活。

AI 作為一門技術,當下一個巨大的機會就是幫助解決科學重點難題(AI for Science)。AlphaFold 已經給了我們一個很好的示範,AI解決了生物學裡困擾半個世紀的蛋白質摺疊難題。

我們要學習 AlphaFold,但沒必要崇拜。

AlphaFold的示範意義在於,DeepMind 在選題上真是非常厲害,他們選擇了一些今天已經有足夠的基礎和資料積累、有可能突破的難題,然後建設一個當下最好的團隊,下決心去攻克。

我們有可能創造比 AlphaFold 更重要的成果,因為在自然科學領域,有著很多重要的open questions,AI 還有更大的機會,可以去發掘新材料、發現晶體結構,甚至去證明或發現定理… AI可顛覆傳統的研究方法,甚至改寫歷史。

比如現在一些物理學家正在思考,能否用 AI 重新發現物理定律?

過去數百年來,物理學定律的發現都是依賴天才,愛因斯坦發現了廣義相對論和狹義相對論,海森堡、薛定諤等人開創了量子力學,這些都是個人行為。如果沒有這些天才,很多領域的發展會推遲幾十年甚至上百年。但今天,隨著資料越來越多,科學規律越來越複雜,我們是不是可以依靠AI來推匯出物理定律,而不再依賴一兩個天才?

以量子力學為例,最核心的是薛定諤方程,它是由天才物理學家推匯出來的。但現在,已有物理學家透過收集到的大量資料,用 AI 自動推匯出其中規律,甚至還發現了薛定諤方程的另外一個寫法。這真的是一件非常了不起、有可能改變物理學甚至人類未來的事情。

我們正在推進的AI EARTH專案,是將AI引入氣象領域。天氣預報已有上百年曆史,是一個非常重大和複雜的科學問題,需要超級計算機才能完成複雜計算,不僅消耗大量資源而且還不是特別準確。我們今天是不是可以用AI來解決這個問題,讓天氣預報變得既高效又準確?如果能成功,將是一件非常振奮人心的事情。當然,這注定是一個非常艱難的過程,需要時間和決心。

5

AI 從業者:多一點興趣,少一點功利

AI 的當下局面,是對我們所有AI研究者的考驗。不管是AI的基礎理論突破,還是AI 去解決科學問題,都不是一蹴而就的事情,需要研究者們既聰明又堅定。如果不聰明,不可能在不確定的未來抓住機會;如果不堅定,很可能就被嚇倒了。

但更關鍵的是興趣驅動,而不是利益驅動,不能急功近利

,這些年深度學習的繁榮,使得中國大量人才和資金湧入AI領域,快速推動了行業發展,但也催生了一些不切實際的期待。像DeepMind做了AlphaGo之後,中國一些人跟進複製,但對於核心基礎創新進步來說意義相對有限。

既然 AI 還不是一門科學,我們要去探索沒人做過的事情,很有可能失敗。這意味著我們必須有真正的興趣,靠興趣和好奇心去驅動自己前行,才能扛過無數的失敗。我們也許看到了DeepMind做成了AlphaGo和AlphaFold兩個專案,但可能還有更多失敗的、無人聽聞的專案。

在興趣驅動方面,國外研究人員值得我們學習。像一些獲得圖靈獎的頂級科學家,天天還在一線做研究,親自推導理論。

還記得在CMU讀書的時候,當時學校有多個圖靈獎得主,他們平常基本都穿梭在各種seminar(研討班)。我認識其中一個叫Manuel Blum,因為密碼學研究獲得圖靈獎,有一次我參加一個seminar,發現Manuel Blum沒有座位,就坐在教室的臺階上。他自己也不介意坐哪裡,感興趣就來了,沒有座位就擠一擠。我曾有幸遇到過諾貝爾經濟學獎得主托馬斯·薩金特,作為經濟學者,他早已功成名就,但他60歲開始學習廣義相對論,70歲開始學習深度學習,76歲還和我們這些晚輩討論深度學習的進展…也許這就是對研究的真正熱愛吧。

說回國內,我們也不必妄自菲薄,中國AI在工程方面擁有全球領先的實力,承認AI還比較初級並非否定從業者的努力,而是提醒我們需要更堅定地長期努力,不必急於一時。

電氣時代如果沒有法拉第這些先行者,沒有一個又一個的點狀發現,不可能總結出理論,讓人類邁入電氣時代。

同樣,AI發展有賴於我們以重大創新為憧憬,一天天努力,不斷嘗試新想法,然後才會有一些小突破。當一些聰明的腦袋,能夠將這些點狀的突破聯結起來,總結出來理論,AI才會產生重大突破,最終上升為一門科學。

我們已經半隻腳踏入AI時代的大門,這注定是一個比電氣時代更加輝煌、激動人心的時代,但這一切的前提,都有賴於所有研究者的堅定不移的努力。

雷鋒網雷鋒網雷鋒網