智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

50多天前轟動科技圈的Sora,給全世界上了堂打開視頻創作想象力的大課。

國內類Sora創企們也活躍起來,這不,僅是過去1個月,就有多家做國內版AI視頻生成模型的創業公司發來戰報:

3月11日,愛詩科技宣布完成億級人民幣A1輪融資、愛詩視頻大模型上線內測;3月12日,生數科技宣布獲得數億元融資,智譜AI、百度風投等參投;3月18日,潞晨科技推出覆蓋所有訓練細節和模型權重的Open-Sora開源方案;3月26日,字節跳動旗下剪映Dreamina開放內測……

而且家家都有令人精神一震的“全球第一”傍身。

全球首個Diffusion Transformer架構論文來自生數科技團隊,愛詩科技的海外版產品PixVerse是全球用戶量最大的國產AI視頻生成產品,潞晨科技開源全球首個類Sora架構視頻生成模型。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲國內主要類Sora創企融資歷程(截至2024年3月,智東西制表)

根據公開融資信息,生數科技還是當前主要國內累計融資額及估值最高的類Sora創企。

其投資方陣容強大,百度風投連投多輪,大模型獨角獸智譜AI首度參投。螞蟻集團、創始成員多數來自于原字節跳動投資團隊的錦秋基金,都將投大模型公司的“第一次出手”給了生數。

這個源自清華大學人工智能研究院的創業團隊,在基礎架構上能與Sora團隊掰手腕,在3D生成模型上敢跟OpenAI、谷歌、英偉達叫板,技術成果被OpenAI、蘋果、Stability AI等應用于DALL·E 2、Stable Diffusion等模型中。

在近期的一場小型溝通會上,生數科技聯合創始人兼CEO唐家渝告訴智東西等媒體,現階段國內外AI視頻生成代際差不大,國內團隊追趕Sora要比2023年追趕GPT-4更容易,生數科技有信心今年達到Sora目前版本的效果。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO

一、清華計算機系師生創業,科研成果“撞車”Sora基礎架構

在國內AI大模型競賽中,“清華系”群星璀璨。

據智東西統計,2017年~2023年至少有29位清華教授、校友下場創業,投入大模型產業相關方向。(清華系撐起中國大模型創業半壁江山

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲清華大模型創業群英譜(智東西整理,如有錯漏歡迎指正或補充)

其中,生數科技是多模態通用大模型代表玩家,也是技術架構“最接近于Sora的中國團隊”。

故事要從其首席科學家、知名AI大牛朱軍說起。

朱軍教授是20多年的“清華人”,2001年考入清華計算機系,2009年博士畢業,師從中國AI奠基者張鈸院士,2011年起在清華計算機系任教,是清華最年輕的長聘正教授之一,也是當前CS Rankings機器學習方向亞洲排名第一的學者。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲生數科技首席科學家朱軍教授

2018年,清華大學人工智能研究院成立,83歲高齡的張鈸院士出任院長,35歲的朱軍出任副院長。同年7月,朱軍支持自己的學生田天創辦第三代AI基礎設施創企瑞萊智慧RealAI,并與張鈸院士共同擔任瑞萊智慧首席科學家。

四年后,與Sora的交集開始埋下伏筆。

2022年9月,朱軍教授課題組提交了一篇論文,提出將視覺Transformer與擴散模型結合的網絡架構U-ViT;兩個多月后,一起在Meta FAIR實驗室做研發的加州大學伯克利分校William (Bill) Peebles和華人學者謝賽寧合著并提交了一篇DiT論文,同樣探索了擴散Transformer架構,并與U-ViT在具體實驗路徑上一致。

當年計算機視覺頂會CVPR 2023收錄了U-ViT論文,卻以“缺乏創新”為由拒稿DiT論文。DiT論文入選了另一個頂會ICCV 2023。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲左為清華U-ViT論文,右為DiT論文

而在一年多后的今天,驚艷世界的視頻生成模型Sora和文生圖模型Stable Diffusion 3,都是站在DiT肩膀上結出的研究碩果。

2022年年底,Bill Peebles加入OpenAI,開始聯合帶領一支由十幾人組成的精悍團隊,在DiT架構之上嘔心研發Sora視頻生成模型項目。Bill曾告訴同為DiT論文作者的謝賽寧,Sora團隊“每天基本不睡覺高強度工作了一年”。

基于算力和對技術成熟度預判的綜合考慮,清華團隊則選擇先將U-ViT應用于2D圖像生成,再基于此拓展至3D和視頻任務。

2023年3月,朱軍教授課題組開源9.5億參數多模態擴散大模型UniDiffuser,基于U-ViT架構實現圖文跨模態生成,在采用擴散Transformer架構上比今年2月才發布的Stable Diffusion 3模型領先了接近一年。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO

開源地址:http://github.com/thu-ml/unidiffuser

同樣在3月,生數科技由瑞萊智慧RealAI、螞蟻和BV百度風投聯合孵化成立,2006級清華計算機系校友、師從清華孫茂松教授的前瑞萊智慧副總裁唐家渝出任CEO,師從朱軍教授的清華計算機系博士、U-ViT和Unidiffuser論文的作者鮑凡出任CTO,朱軍教授擔任首席科學家。

經過大半年圍繞多模態大模型的研發探索,生數科技團隊預測過2024年視頻生成會迎來爆發,但Sora的出場還是令他們感到驚訝?!氨任覀兊念A期早了將近半年?!碧萍矣寤貞浀?。

2024年1月19日,生數科技宣布其視覺創意平臺PixWeaver上線文生視頻功能,輸入簡單文字即可一鍵生成視頻,最高支持1024*1024分辨率。當時PixWeaver的畫面水準已躋身國際一流,但仍未解決時長短、畫面有卡頓感等問題。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲今年1月推出文生視頻功能時展示的生成視頻效果

一個月后,視頻生成模型Sora空降,憑借可生成信息承載力強、3D一致性、一定程度領悟物理規律的60秒長視頻,徹底引爆AI視頻生成的燎原之火,也因“降維打擊”帶來了空前壓力。

二、“大一統”的多模態底層架構,用一個模型生成復雜任務

在前沿架構研究上,清華團隊拿到先手棋。

但OpenAI是更擅長操盤全局的下棋高手,無論是頂尖的研發實力,還是堪稱教科書級的發布與營銷節奏把控,都令一眾AI團隊甘拜下風。

背靠微軟的雄厚資源,從發布ChatGPT到解決奪權事變,OpenAI一步步將其從高管到研發人員都捧成了AI領域的明星人物。

國內企業們迸發出積極的學習熱情,有的急追猛趕搞研發、推產品,有的學會講故事、造話題。

生數科技似乎沒那么有“功利心”。在與唐家渝的交流中,他沒有將生數標榜為“中國版Sora”的有力競爭者,而是將更高的優先級放在技術與研究突破上,視頻生成固然要追,但3D生成、圖像生成同樣是生數的看家本領。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲多個圖生3D模型快速拼裝搭建的3D場景

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲短視頻生成案例

OpenAI推出了很多采用不同功能的模型,比如GPT-4(文-文)、DALL·E 3(文-圖)、GPT-4V(文和圖-文)等。

生數科技走的是原生多模態大模型技術路線,用同一個U-ViT底層架構一以貫之,實現一個通用模型來實現圖像、3D、視頻等多類復雜生成任務。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO

在3D生成方向,生數科技成立3個月時就公開“叫板”業界頂級模型OpenAI Shap-E、谷歌DreamFusion、英偉達Magic3D,稱在幾何結構精度、紋理細節、分辨率等方面的3D生成效果“大幅領先”,接近產業級應用。如今其已能實現最快10秒級生成3D模型,支持文生3D、圖生3D,并在國際首發基于骨骼動畫的4D動畫生成框架。?清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲4D動畫生成框架AnimatableDreamer直接將2D視頻素材一鍵轉成動態立體模型(論文地址:https://arxiv.org/pdf/2312.03795.pdf

在視頻生成方向,生數初步具備4~5秒短視頻生成能力,可根據給定文本描述實現視頻畫面元素自動變換,比如改變物體顏色、人物著裝、面容妝發、環境季節、視頻風格等,做到可控編輯。

在文生圖方向,圖文模型從最早開源版的1B不斷擴展至3B、7B、10B及以上,去年6月發布時超過Stable Diffusion最新版基礎模型水平,在構圖、風格、畫面精準度等方面能夠更好地把握用戶意圖。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO

當前生數科技的商業化路徑是布局MaaS(模型即服務)應用級產品,同時發力To BTo C,既以API形式向B端機構直接提供模型能力,又打造垂類應用產品,以訂閱等形式收費。

這家成立剛滿一年的年輕創業公司,已經與多家游戲公司、個人終端廠商、互聯網平臺、VR企業等B端機構開展合作。

2023年9月,生數科技正式上線兩大應用產品視覺創意設計平臺PixWeaver、3D資產創建工具VoxCraft。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO▲PixWeaver AI繪畫頁面

PixWeaver地址:https://pw.shengshu-ai.com/

VoxCraft地址:https://voxcraft.ai/

圖像生成、3D生成功能均可體驗。視頻生成功能短暫開放后暫時關閉了,等技術升級和優化后重新開放。

三、半年訓練速度提升40倍,今年能追齊Sora水平

唐家渝坦言,就結果而言,現有其他視頻生成模型跟Sora相比“差得還挺遠”。

在他看來,現階段國內團隊追趕Sora要比去年追趕GPT-4更容易,因為尚未形成明顯的先發或壟斷優勢。他相信追齊Sora目前版本的水準,所需時間不會太長,今年肯定能達到,不過很難精確預估要用一兩個月還是半年時間。

唐家渝這么說,是有充分的底氣的。

多模態大模型不像大語言模型需要那么高的參數量,但成本仍是問題,需要在算法層面做很多工作來把成本打下來,因此對底層研發能力要求很高。他預計AI視頻生成賽道將收斂到幾家企業。

生數科技不僅對底層架構熟知,而且已經走過很多訓練、調優的坑,積累了完整高效的算法和工程化經驗,包括在大規模GPU集群上實現高效兼容、低成本的模型訓練。

在訓練圖像生成模型上,其團隊半年將訓練速度提升了40倍。

清華類Sora大模型黑馬!融資數億,成果被OpenAI蘋果采用,深度對話CEO

算力方面,資源是主要限制因素。Sora驗證了長視頻生成這條路走得通,消除了在這個方向砸資源的疑慮。如果一開始就從頭來做像Sora這樣的事,可能要投入上萬張A100、A800卡?,F在通過優化AI Infra,用到的算力資源和成本少了很多。

數據方面,生數科技搭建了一套完整的自動化數據管理及使用體系。其多模態大模型的訓練數據主要來自大量的互聯網公開數據和合作伙伴提供的私有數據。

人才方面,目前生數科技團隊規模逾70人,近90%為研發人員,碩士研究生占比超過50%。生數科技核心創始團隊來自的清華大學人工智能研究院,從事貝葉斯機器學習的基礎理論和高效算法研究逾20年,在國內最早開展擴散概率模型基礎研究且發表論文最多,在ICML、ICLR等AI頂會發表近30篇相關論文。

他們產出了免訓練推理框架Analytic-DPM、世界最快采樣算法DPM-Solver、多模態大模型UniDiffuser、3D生成算法ProlificDreamer、可控視頻編輯算法ControlVideo等國際領先的代表性工作。其中Analytic-DPM論文是ICLR會議首篇由中國大陸單位獨立完成的獲獎論文。

今年1月,國際人工智能促進協會(AAAI)公布了2024 AAAI Fellow名單。已經身兼清華大學計算機系Bosch AI冠名教授、計算機系人智實驗室主任、IEEE Fellow多個頭銜的朱軍教授因對機器學習理論和實踐的重大貢獻而入選。

由朱軍教授在校培養的多位學生,已成為生成式AI領域頂尖的科研力量,比如擴散模型領域的知名研究者宋飏、宋佳銘,還有ChatGPT兩位華人研究者翁家翌、趙盛佳等等。

結語:AI視頻生成競賽,序幕才剛剛拉開

在AI視頻生成模型賽道,中美頂尖技術的研發差距客觀存在,國內團隊還需持續打怪升級。

但國內團隊也并非從零起步。比美國更早提出擴散Transformer融合架構的生數科技,正在迎頭追齊Sora,近期將重點攻關長視頻生成能力,包括更好地實現不同分鏡、針對物理世界的初步理解、視頻編解碼、長視頻的連貫性等方向。

其他當前已公開的AI文生視頻模型及產品中,愛詩科技PixVerse上線88天視頻生成量達到1000萬里程碑,潞晨科技開源的Sora復現方案將成本降低46%……還有許多國內團隊正在探索可生成視頻的多模態大模型方向。

在即將于4月18日~19日舉辦的2024中國生成式AI大會上,生數科技聯合創始人兼CEO唐家渝,愛詩科技創始人兼CEO王長虎,新加坡國立大學校長青年教授、潞晨科技創始人兼董事長尤洋,萬興科技副總裁朱偉,極佳科技創始人兼CEO黃冠,VAST創始人兼CEO宋亞宸等國內類Sora模型、3D生成模型領先企業的創業者及高管們,將帶來前沿的技術與商業應用干貨分享。