人大高瓴教授為Sora吵起來了!

智東西(公眾號:zhidxcom)
編輯 | ZeR0

智東西3月25日報道,最近,中國人民大學高瓴人工智能學院十幾位老師為了Sora掐起架來了!

事情要從春節假期說起。OpenAI發布視頻生成模型Sora后,學院好多老師睡不著覺了,正巧趕上內部述職會,大家討論得愈發激烈,院長文繼榮看熱鬧不嫌事大,拍板說既然內部已經開始鬧分裂了,干脆把過程公開化。

于是在上周,高瓴人工智能學院舉辦了一場長達2個半小時的AI學術思辨系列講座,在劉勇準聘副教授主持下,學院宋睿華、魏哲巍、徐君、孫浩、許洪騰、陳旭、李崇軒、黃文炳、林衍凱、張驍、毛佳昕、沈蔚然等十余位教師激情對線,掐架互懟,各抒己見,進行了一場既好玩又能引人深思的精彩辯論。

講座包含了兩個學術報告和兩個辯論議題。兩大議題都是Sora和視頻生成模型的關鍵問題:1、智能還是偽裝,Sora到底懂不懂物理世界?2、純數據驅動路線能不能實現通用人工智能?

以下是精華整理:

一、Sora取得了什么突破?帶來哪些“?!迸c“機”?

在正式開辯前,中國人民大學高瓴人工智能學院李崇軒準聘副教授科普了Sora的前生今世。

人大高瓴教授為Sora吵起來了!

Sora是一個文到視頻生成模型,能根據輸入文本生成高質量、細節豐富的、前后一致的1分鐘視頻,并具有視頻擴展、視頻銜接等編輯功能。

之所以出圈,是因為它在時長、清晰度、一致性、理解能力上取得了非常大的突破。

視頻生成在AI學術界非?;?,特別是在2023年進展很快,國內外很多大公司和創業公司都在做,比如谷歌、百度、Runway、Stability.AI、Pika等,高瓴人工智能學院自己也孵化了一家,是盧志武教授團隊創辦的智子引擎。

Sora的底層邏輯是通過收集大量的視頻-文本數據,對其進行壓縮、分塊表示、序列化,再用使用Transformer架構生成序列塊后解碼為視頻。

其訓練方式借鑒了文生圖技術,通過去噪從隨機噪聲中生成數據;網絡結構參考了大語言模型,核心技術是面向圖像生成的擴散Transformer(DiT)。

Sora具備極強的可擴展性,并能夠刻畫世界交互行為或進行數字模擬,體現出模型的涌現性。其局限性是仍不能把握更為廣泛的物理場景。

第二個學術報告是由中國人民大學高瓴人工智能學院許洪騰長聘副教授帶來的,題目為《Sora帶來的“?!迸c“機”》。

人大高瓴教授為Sora吵起來了!

他提到由于生成式AI的加持,人們在生產和生活中將進一步實現“所思即所得”,思維成為了最核心的生產力,語言成為了最核心的生產資料。

在這一背景下,中國人民大學研究團隊在大語言模型、跨模態生成、具身智能、模擬經濟環境輔助決策等領域有著多方面的研究。從廣義的設計、生產、治理方面而言,語言成為最核心的生產資料,人們進入了“創造力平權”時代。

但這種影響也直接導致了生成的幻象對現實世界的逼近和干擾,使得人們同時進入了“后真相”時代,將使多個領域面臨新的挑戰。如新聞方面將面臨假新聞和社會矛盾激化的問題,司法層面需要新的證據形式和新的知識產權邊界。

總之,許洪騰認為,Sora帶來的科技變革會對世界秩序產生新的影響。

二、議題一:智能還是偽裝,Sora到底懂不懂物理世界?

在兩個學術報告后,高瓴人工智能學院正反雙方激情開辯,第一個議題是“智能還是偽裝,Sora到底懂不懂物理世界?”,核心觀點如下:

正方黃文炳:Sora懂物理世界!

角度一:Sora生成的視頻具有時間連續性、空間不變性,捕捉了光影變化,這些都與物理世界規律相符,因此Sora學到了基本物理規律。

角度二:不同于物理學規律,物理規律是指大多數人在現實生活中的直接感受,比如球從高處往低處掉,而非物理學家基于數據推導出的嚴謹理論??梢钥吹?,Sora生成的絕大部分的視頻都是滿足日常生活中物理規律的運動。

Sora懂不懂物理世界?這里的物理世界,不是指物理學家的世界,而是大多數人懂得且能感受到的一般物理世界。

角度三:以圖靈測試為例,如果無法區分被測試者是AI還是人,就代表這個AI系統具備了智能。那么只要Sora生成的東西,大家通過常理判斷出來是真的、沒辦法區分出是人還是AI的,我們認為它就是“懂”的。

反方孫浩:正方辯友被Sora的表象欺騙了,對物理規律的理解存在偏差。

首先糾正下對物理世界的基本定義:物理世界是指自然規律和物理定律支配的空間,如守恒、對稱等,包括能觀察到的物質及基本運動現象,是客觀存在的,如果Sora懂物理世界,那么它生成的視頻必然能夠準確模擬和刻畫相關的規律,但目前Sora并不能做到。

其次,Sora的基本運行機制是基于擴散Transformer對視頻、語言數據進行壓縮,學習期分布。但基于視頻和語言有限維數據生成的視頻,停留在視頻的表象,只能達到“逼真”的效果,離“真實”相差甚遠。傳統動畫渲染也可以達到類似的效果,這并不能代表Sora具有模擬和理解現實世界的能力。

但我們也沒法否定Sora在創作設計、視覺效果等領域的巨大潛力。

正方魏哲巍物理學家費曼說過:“What I cannot create, I cannot understand. ”提出生成即理解的觀點。從數學角度來看,這句話的逆否命題就是:我能夠理解的,我就能生成。反過來看,是不是生成的就能理解呢?我認為是。

人類對物理世界的理解并不完全依賴于物理公式。比如水浪表象背后有一系列波動方程,大多數人都理解水的物理形態、波動過程,但不會懂動力學方程,也不會通過動力學方程去理解。

牛頓抽象出重力學方程的過程,是不是真的有個蘋果砸到腦袋后就突然蹦出一個方程?其實不是的,他從很早之前的各種公式、論文中推導出來,絕對不是僅僅有視頻就能把方程推導出來。

但從人理解物理世界的角度來說,我們跟Sora一樣,所以我們認為Sora既然生成了,那么它就是理解了。

人大高瓴教授為Sora吵起來了!

反方徐君:Sora不能理解物理世界的一個重要原因是,它企圖從大量非實驗數據中發現物理規律,也就是說不做實驗,而是被動地觀察世界。

基于統計因果中的結論“非干預,不因果”,如果不能施加干預,算法就不能發現統計因果規律;如果連統計的因果規律都發現不了,就更不要說表述物理現象因果關系的物理規律了。

所以無論是Sora還是ChatGPT,如果只是被動收集數據來訓練大模型,它會被欺騙,只能學習到相關關系,而非因果關系,很難學到真正的物理規律。

人類發現物理規律的過程中,反直覺的思考和假設很重要。比如在現實生活中,按照直覺,亞里士多德的直覺觀念“物體在不受力的情況下會保持靜止”沒什么錯,但伽利略、牛頓發現了反直覺規律——物體在不受力的情況下會保持勻速直線運動。

因此,以直覺為主導的推理方法是靠不住的,基于直接觀察的直覺結論并不總是可靠。Sora如果僅僅依托直覺去擬合非實驗的觀測數據,不引入反直覺思考,不干預世界,則發現不了真正的物理規律。

正方宋睿華:我方認為這種觀點太“以人為中心”,完全錯誤地闡釋了什么叫物理世界。物理世界不應僅限于人類能理解的范疇,無論有沒有人,這個世界都是物理世界。

機器學習模型通過數據學習的過程與物理學家建立和優化模型的過程相似。機器學習有了一些模型和未知的參數,同時在現實數據上定義一個損失或者人類反饋,再進行優化;物理學家也采用類似的方式,先反直覺地發明一些公式,加入一些參數,在理想化假設條件下做一些實驗數據,再公式有多大的計算損失,接著進行充分思考,從而優化模型。

今天的神經網絡的擬合能力可以逼近任何函數,可以表示更為復雜的函數,比之前那些聰明的物理學家所知道的公式范圍還要大。如果神經網絡這樣的學習過程都不能被稱為智能,難道人就是嗎?為什么非要是人提出的公式、做的實驗才叫智能呢?

對方辯友認為做了一些理想的假設、實驗后,發現了一些所謂的放之四海而皆準、其實也并非的規律,難道不是傳統機器學習的一種特征工程嗎?你只是發現了其中一條比較管用的特征,然后再做了一些實驗來驗證它是99%或者更高的適用性,這是更為狹隘的對物理世界的刻畫。

目前Sora確實還有些反物理世界的現象存在,但“懂物理世界”不等于“精確地懂物理世界”。讓一個人閉眼腦補兩個海盜船在咖啡杯里航行的畫面,人就能精確地模擬出來畫面嗎?

反方許洪騰:首先,能生成逼真視頻與懂物理世界沒有必然聯系。比如畫家可以畫出逼真的畫作,不代表他們真的理解物理世界。原始時期人們都還不存在懂不懂物理世界這回事,就能用石頭搭房子、畫壁畫,創造相應的藝術作品或相應的客觀實體。

其次,人類對物理世界的理解和掌握有一套嚴格的方法論,會去做假設、觀測、通過實驗實現對物理現象的反演。這是Sora所不具備的,Sora的學習范式是數據驅動,這些數據還不是在一個嚴格的實驗環境下得到的,如果它能理解物理世界,也一定是用一種超出我們認知范圍內的方式在去理解。

現階段,我們還沒有看到任何AI能夠真正在通用性或者對世界的理解上能達到人的水平。Sora之所以這么強大,也許正是因為它不懂物理世界。Sora基于它的學習范式,能夠掌握統計規律,把有關聯性的事物融合起來,比如生成龜殼像水晶球一樣的烏龜,這是超現實的,跟物理世界沒有必然聯系。

再比如更早期的,以Stable Diffusion為代表的圖像生成模型,能生成太空上騎馬、火星上騎馬等違反物理世界規律的畫面。正是因為不理解物理世界,Sora才能基于統計相關性構筑自己的世界。

正方魏哲?。?/b>有種說法是ChatGPT不懂文字或語言,但OpenAI首席科學家llya依然認為能預測下一個詞就是理解了語言。llya舉過一個例子,喂給大模型一篇懸疑小說,如果它能準確預測出兇手是誰,那它到底是不是懂這篇小說?從這個例子來看,大模型其實是懂文字的。

反方徐君:圖靈測試是工程的測試,沒通過說明沒有這個能力,但通過了也不代表就具有這個能力。好比考試,沒通過說明沒學懂,但通過了有可能是死記硬背,不代表真的懂了。所以圖靈測試不具有很強的說服力。

正方宋睿華:我恰恰覺得Sora是通過了圖靈測試的。圖靈測試一是要跟人比,二是要用問答。ChatGPT還是問答形式,但Sora已經不是了,它做的是一種電影測試,通過視覺的方式讓人去判斷是否具有智能。

反方許洪騰:物理世界必須跟真實世界是一致的。Sora掌握的是統計規律,并不是物理規律。部分AI可能懂懸疑小說,但不懂物理世界。如果Sora所有數據都來自哈利·波特魔法世界,一樣能預測下一幀,它懂得不是物理,是魔法。

反方毛佳昕:我方堅持認為懂物理世界達到常人的理解即可,不需要懂物理公式。比如在生活中路上來了一輛車,你會用牛二定律算它有多長時間能到面前嗎?并不用!自己腦補一下,預測車可能撞過來,躲開就OK了。這種理解有誤差、有偏差,沒有關系。

正方李崇軒:人類對物理的理解也是片面的、逐漸進步的。不能現在穿越回去對亞里士德說你根本就不懂物理,我比你懂物理懂得多,也不能說我們現在對物理的理解就是對的。很多時候物理學家理解世界第一步也是尋找統計規律,在有限觀察下去驗證,再基于現有理解形成物理定律。

隨著時間的演化,人類對物理世界的理解也在加深,一些物理定律隨著觀察的增多而失效,不能要求Sora一出來就懂物理學公式。

三、議題二:純數據驅動路線能不能實現通用人工智能?

第二個議題圍繞“純數據驅動路線能不能實現通用人工智能?”,以下是核心觀點:

反方許洪騰:我理解的通用人工智能就是類人的人工智能,希望AI跟人一樣具有一定通用性。人是從數據學習的,從出生就開始接收數據、訓練自己,說明從數據接收信息并學習是可行的。

但我為什么反對這樣的技術路線?是因為這個路線效率低下,而且目前面臨數據和能源的瓶頸。按照OpenAI的數據消耗速度和增長趨勢,很快訓練用的視頻數據消耗速度可能會超過我們能夠產生的速度。到那時很可能需要Sora自己產生數據、自我訓練。如果要Sora自己生成視頻來自訓練,這是否還算作純數據驅動?它是否還能自我進化?我認為這是存疑的。

正方毛佳昕:數據驅動是實現通用人工智能的可行路徑。從人工智能發展的歷史來看,從感知到語言,都是用數據驅動解決問題。人類也是通過數據來學習的,比如我看很多書、做很多題目,然后參加物理考試,跟現在訓練大模型做物理題的數據驅動方式是一樣的。

Hinton說人腦是個很高效的系統,人腦用的功率比大模型小得多,但人腦的缺點是里面的神經網絡權重沒法告訴另一個人,通訊效率很差。

數據驅動的反面是理論驅動,這里的“理論”不是物理定律,而是認知理論。所以數據驅動路線對應的另一條路線是基于AI的理論驅動路徑,或是基于人類認知世界的理論來驅動的路徑。Hinton之前是這個路徑的,但他最近觀點發生了改變,認為人腦雖然在計算效率上有優勢,但在通訊效率上遠比不上數字計算機。

反方沈蔚然:通用人工智能是類似人并且超越人的人工智能?,F在很多單個任務都超過人,我們希望能做一個通用人工智能算法或者模型,在大部分任務上都能夠超過人。

我不認為學習物理通過看書做題是接收數據,從物理學的角度,數據應該是做實驗得到的數據,看書的理論是接受別人前人總結的結果?,F有的數據驅動方式無法把數據總結成一些簡潔易懂的理論,然后在此基礎上做進一步推導。我認為這是要實現通用人工智能目前回避不掉的事情。

盡管多層感知機理論上可以擬合任意函數,但部分數學函數需要無窮的數據才能擬合,卻可以有簡單的數學表達。

正方林衍凱:對方辯友一直在切換辯題,把“純數據驅動路線能夠不能使實現通用人工智能”切換成“能不能在有限/高效的能源下實現通用人工智能”,這并不是我們的辯題,還有把“通用人工智能”切換成“要達到超過人的治理水平”。

從技術角度來看,大模型無法總結規律,做的更多是記憶組合,現在很多大模型研究中做的是壓縮,壓縮的基礎一開始是記憶,在訓練過程中為了最優化函數,就是在尋找能更好擬合數據的規律。這指向數據驅動能像人一樣思考演化。

真實世界的數據是無限的,不能局限于網上的數據。大模型在壓縮的過程中可以自主探索,并從數據中學到物理規律。

反方孫浩:這個問題叫“純數據驅動路線能不能實現通用人工智能”?它的關鍵要素是“實現”和“數據驅動”。實現通用人工智能的前提是資源有限的。目前用于訓練的數據在許多方面都是缺失的,基于此訓練不能達到類人的效果。

世界是極其復雜的,我們能觀測到或能獲取到的描述世界的數據極其稀疏,甚至可能是缺失的。但是描述世界的方式應該是非常簡潔的,這樣才是通用的基本特征。例如用微分方程的形式去描述,它就有很強的通用性,同時基于的數據非常少。數據是關鍵要素,但不應該是唯一的要素。

正方黃文炳:我們并沒有強調說這個數據能不能獲取,而是說在足夠數據的條件之上,能不能實現通用人工智能。有兩個觀點我不敢茍同。一是談到人工智能的定義,我們認為通用人工智能指的是機器所能掌握的處理大多數任務的一般通用能力。通用人工智能的英文是AGI,其中G是General,代表的是一般范圍,不是Universal(萬有)能力。純數據驅動能不能實現通用人工智能?它并不一定包括能解決科學領域的方程、實驗的結果,但一定能實現大多數人在日常生活中所掌握的通用智能的能力。

我們承認數據驅動不一定能實現所有的智能,包括物理的人工智能,但這與今天的辯題不矛盾。同樣在物理場景中有很多嚴格的假設,在這些場景下純數據能不能實現通用人工智能,那種智能還不一定是人工智能,我認為是不行的。

反方徐君:假如有兩個參數不同的Sora,到底哪個是對的?可能一個對,也可能兩個都不對。目前來看,Sora在認識物理世界的時候是有很大偏差的,存在不穩定性,一旦版本更新,意味著已學到的物理規律就需要被刷新一遍,這從經驗上也不可行。

人不僅僅有認識世界數據的經驗,還有理性的處理,也就是說對這個世界數據的處理能力。從這個角度來看,Sora不僅要接收來自世界不同經驗的數據,同時它需要具備像人一樣甚至超過人的理性思維去處理數據,兩者缺一不可。

從數據的角度來看,Sora目前僅介紹了文本、視頻和圖像,還有很多領域的數據沒接觸到。從模型的角度來看,它基于擴散模型和Transformer的簡單結構,不可能產生理性的分析和想象的能力,所以從模型處理能力上也鎖死了。不管從經驗的角度來看,還是從理性分析的角度來看,我覺得AGI都被圈住了。

正方毛佳昕:Hinton為什么對人腦效率的觀念發生了變化,因為人腦非常高效,它的最大缺陷是交流能力差、傳遞信息的效率低。但是計算機傳遞信息的效率很高。理性是人腦的內在能力,是進化產生的,模型好像沒有進化出這個機制。數據也是在幫模型不斷改進,所以大模型也是可以有思考能力的。

反方許洪騰:對方辯友的觀點恰恰說明了認可需要架構上的調整,架構事實上也是一種先驗知識。除了效率和資源的限制,大模型學到的只是統計規律,外推或者說泛化的能力很差。這是統計機器學習里一直存在的困境。

不管是架構的演化,還是人大腦的演化,除了這種連續的、平滑的過程之外,很重要的一點是突變,這種突變不是通過數據來催化,是具有高度的隨機性跟偶然性的,能否用純數據方式去驅動是存疑的。

正方黃文炳:生成就是智能,生成過程可以實現反直覺思考、因果推斷。一個人難道不說話就能因果發現嗎?肯定得通過說話,說話是數據,做實驗也是數據,這些都是純數據驅動。

反方孫浩:生成即智能是一個謬論,因為生成的結果可以是虛幻的、甚至錯誤的,不能簡單地當做智能。

人大高瓴教授為Sora吵起來了!

正方宋睿華:人生成的東西就是對的嗎?不對就不是人嗎?就不是通用人工智能嗎?現在通用人工智能的標準應該是和一個普通人對齊。人也有對錯,不是說生成的東西一定要是對的,

反方許洪騰:但是人具有寬泛事物的判斷正誤的能力,突破直覺性的理解才能實現人的智能。比如每天早上都聽到公雞打鳴后太陽就升起了,我們就認為太陽是公雞叫出來的,這是一個謬論。

正方宋睿華:Sora從數據里一樣能學到太陽升起公雞才會叫。我們說到Sora一個版本跟另一個版本不一樣,人的認知也不一樣,但不代表生成結果不一樣就是不智能。大模型也有判斷能力,Sora能生成比其他算法更流暢的視頻,甚至在變換視角時保持三維一致性,一定是具有判斷能力。

反方許洪騰:有判斷能力不等于純數據驅動,還是要有一些架構和知識的。

正方林衍凱:架構跟數據不是對立的,純數據驅動不等于完全沒有架構,與數據驅動對立的是符號驅動,是理性主義跟經驗主義的對立。

反方陳旭:如果需要花了很差時間、大量數據,以至于整個地球的數據都不足以訓練模型,就是不可行的。比如密碼學中破譯一組密碼需要的時間太長,那么就可以認定是沒有破譯。因此在現實世界一定要加上限定詞,我要在多少時間、用多少資源把問題解決掉。

我認為“純”數據驅動不能解決通用人工智能問題。數據有一定作用,但是物理驅動或者因果的原理同樣發揮著非常重要的作用。架構優化如果增加了一些因果原理、物理原理,可以把數據訓練成本降低。

正方李崇軒:Sora算不算純數據驅動,有沒有用到Transformer架構?

反方孫浩:Sora的架構設計本身是有基于知識嵌入的,數據是輔助。但純數據驅動是不加知識和客觀世界理解的,這樣設計出來的模型很難實現一個通用人工智能。

正方張驍:如果Transformer架構沒有數據,怎么確定模型參數?一個架構就能做成Sora那樣嗎?人工智能三起兩落,兩落都是因為沒有走純數據驅動的方式,現在大家能坐在這里討論,正是因為有了純數據驅動帶來的發展。

人類就是通過觀察數據得到一些知識。討論這個問題,最重要的不是增強AI,而是考慮我們怎么跟AI一起去和諧共生。既然我們處理數據不如計算機,為什么不讓計算機用AI去處理?純數據驅動是實現有溫度的AI的一個最終愿景。

結語:大力出奇跡的大模型,還沒有顯露出邊界

經兩輪投票表決,兩場辯論的結果均為正方獲勝。最后學生們還補充了兩個問題:

問題1:如今大模型使用起來這么方便,是否還有必要花大量時間在學習數學和編程上?因為大模型可以幫助我們很多。

魏哲巍老師回答說:學習數學和編程這些知識的目的并不是解決那么一兩道題,而是要提升自己的“泛化能力”,能夠解決其他的問題。目前大模型還沒達到那么智能,因此為了自身更好地發展,有必要重視學習這些知識。

問題2:如何看待大模型的幻覺現象?

文繼榮院長回答道:幻覺有好處也有壞處,有時候大模型會“一本正經地胡說八道”,用戶就會認為這是錯誤的,是有缺陷的。但也正是有這種天馬行空的想法,才能生成比如“在太空中騎馬”這種反直覺的圖片。因此要辯證看待幻覺現象。

文繼榮院長對這場思辨講座作了總結發言,他認為關于ChatGPT和Sora等生成式的大模型的思辨,實則為信仰和技術路徑之辨。

人大最早于2020年著手文瀾大模型研究,當時曾被質疑是否可行,而OpenAI也曾被質疑如此巨額花費與科研理念能堅持多久,但兩者最終都做出了令人驚喜的產品。

大力出奇跡的大模型還沒有出現邊界,依然存在很多機遇。去年受到ChatGPT沖擊,學院的口號是“全院all in 大模型”。今年Sora來襲,學院的目標更加遠大,希望能夠把AI應用于人大的每一個學科中,創造智能而有溫度的未來。