智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西4月27日報道,在今日舉行的2024中關村論壇人工智能主題日未來人工智能先鋒論壇上,清華大學教授、生數科技首席科學家朱軍宣布,生數科技與清華大學聯合推出中國首個原創全自研長時長、高一致性、高動態性的視頻大模型Vidu。

根據公開融資信息,成立于去年3月的生數科技,是當前主要國內累計融資額及估值最高的類Sora創企,迄今已完成數億元融資,投資方包括百度風投、智譜AI、螞蟻集團以及創始成員多數來自于原字節跳動投資團隊的錦秋基金。

朱軍現場展示了Vidu與Pika、Gen-2、Sora等行業現有文生視頻大模型的生成視頻效果對比。他評價說,Vidu在16秒長期保持和語義理解等方面表現得非常突出。

清華系出手,推出全面對標Sora的視頻大模型

▲使用相同提示詞,Vidu與Pika、Gen-2生成視頻對比

清華系出手,推出全面對標Sora的視頻大模型▲使用相同提示詞,Vidu與Sora生成視頻對比

清華系出手,推出全面對標Sora的視頻大模型▲Vidu生成視頻的部分動圖

Vidu能根據文本描述直接生成16秒高質量視頻,且生成視頻流暢連貫,沒有明顯的插幀現象。據介紹,這是因為Vidu采用的是“一步到位”的生成方式,與Sora一樣,文本到視頻的轉換是直接且連續的,在底層算法實現上是基于單一模型完全端到端生成,無需經過多個步驟的關鍵幀生成和插幀處理。

一、一鍵生成16秒高清視頻,Vidu具有5大特色

Vidu支持一鍵生成長達16秒、1080P分辨率的高清視頻內容,具備模擬真實物理世界、富有想象力、多鏡頭語言、高時空一致性、理解中國元素等特色。

1、模擬真實物理世界。能夠生成復雜、細節豐富的場景,且符合物理規律,例如合理的光影效果、細膩的人物表情等。

清華系出手,推出全面對標Sora的視頻大模型▲在輸入復雜SUV加速行駛在陡峭土路上的場景描述后,Vidu生成的視頻

2、富有想象力。能夠生成真實世界不存在的虛構畫面,創造出具有深度和復雜性的超現實主義內容。

清華系出手,推出全面對標Sora的視頻大模型▲Vidu根據提示詞“畫室里的一艘船駛向鏡頭”生成的視頻

3、多鏡頭語言。能夠生成復雜的動態鏡頭,不再局限于簡單的推、拉、移等固定鏡頭,而是能夠圍繞統一主體在一段畫面里就實現遠景、近景、中景、特寫等不同鏡頭的切換,包括能直接生成長鏡頭、追焦、轉場等效果,給視頻注入鏡頭語言。

清華系出手,推出全面對標Sora的視頻大模型▲Vidu根據提示詞“在一個古色古香的海邊小屋里,陽光沐浴著房間,鏡頭緩慢過渡到一個陽臺,俯瞰著寧靜的大海,最后鏡頭定格在漂浮著大海、帆船和倒影般的云彩”生成的視頻

4、高時空一致性。在16秒的時長上保持連貫流暢,隨著鏡頭的移動,人物和場景在時間、空間中能夠保持一致。

清華系出手,推出全面對標Sora的視頻大模型▲Vidu根據提示詞“這是一只藍眼睛的橙色貓的肖像,慢慢地旋轉,靈感來自維米爾的《戴珍珠耳環的女孩》,畫面上帶著珍珠耳環,棕色頭發像荷蘭帽一樣,黑色背景,工作室燈光”生成的視頻

5、理解中國元素。能夠理解、生成特有的中國元素,例如熊貓、龍等。

清華系出手,推出全面對標Sora的視頻大模型

▲Vidu根據提示詞“在寧靜的湖邊,一只熊貓熱切地彈著吉他,讓整個環境變得活躍起來。晴朗天空下平靜的水面倒映著這一場景,以生動的全景鏡頭捕捉到,將現實主義與大熊貓活潑的精神融為一體,創造出活力與平靜的和諧融合”生成的視頻

二、快速突破源于多項原創成果,文生視頻能力加速成長中

朱軍稱其快速突破離不開5個要素:算法原理、模型架構、算力資源、數據治理、工程實現。

清華系出手,推出全面對標Sora的視頻大模型

他談道,Vidu的快速突破源于長期積累和多項原創成果,其技術路線與Sora高度一致。2022年9月,其團隊在全球首發U-ViT網絡架構,這是全球首個Diffusion Transformer架構,這一架構提出3個月后,Sora采用的同源基礎架構DiT的論文才發表。

清華系出手,推出全面對標Sora的視頻大模型

受限于算力限制,其團隊起初選擇做文生圖、文生3D這類計算量相對小一些的大模型研發,2023年3月在全球首發并開源基于U-ViT架構的多模態大模型UniDiffuser,在全球范圍內率先完成融合架構的大規??蓴U展性(Scaling Law)驗證。UniDiffuser是在大規模圖文數據集LAION-5B上訓練出的近10億參數量模型,支持圖文模態間的任意生成和轉換,在架構上比同樣DiT架構的Stable Diffusion 3領先了一年。

同年5月,該團隊提出文生3D新算法Prolific Dreamer,今年1月發布4D框架Animatable Dreamer并實現可生成4秒視頻的文生視頻模型。

“Sora出來之后,刺激了我們攻關的速度?!敝燔娬f,團隊第一時間緊急啟動和攻關,3月將視頻時長突破8秒,4月突破16秒,短短兩個月實現了長視頻表示與處理關鍵技術的突破,取得了今天的效果,將視頻連貫性與動態性顯著提升。

清華系出手,推出全面對標Sora的視頻大模型

結語:推出Vidu大模型合作伙伴計劃,共建生態推動視頻大模型發展

朱軍解釋說,Vidu的取名有多重含義,首先字面含義與“Video(視頻)”相近,更深層的含義還表達了三個愿景:

一是諧音“We do”,“我們第一時間決定我們應該要做,而且立即去做”;二是諧音“We did”,今天的進展雖然只是邁出一小步,但確實做到在這個方向能夠有突破性進展;三是“We do together”,現在的進展還在初步階段,希望與國內優質單位合作,共同實現技術進步。

大模型的突破是一個多維度、跨領域的綜合性過程,需要技術與產業應用的深度融合。為此,生數科技正式推出“Vidu大模型合作伙伴計劃”,發起合作伙伴申請通道,誠邀產業鏈上下游的企業和研究機構共同合作,推動視頻大模型發展。

申請鏈接:https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph