智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 心緣

智東西7月19日報道,今日下午,在字節跳動AI技術菁英論壇上,字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時主持,多位視覺大模型研究的關鍵人物集中演講,詳細解讀字節跳動在視頻生成和3D圖像生成模型的一系列創新技術。

作為國內短視頻王者,字節跳動是國內最受關注的AI視頻生成玩家之一,從去年11月發布高動態視頻生成研究成果PixelDance、今年發布AI視頻生成模型MagicVideo-V2和開啟AI創作工具即夢Dreamina視頻生成功能的測試,每次進展都吸引了大量開發者關注。

今天,字節跳動研究科學家周大權回顧了字節跳動過視頻生成模型的三年發展歷程,以及字節在連續高動態長視頻生成技術上的探索。

此外,字節研究科學家Bingyi Kang、張健鋒、廖俊豪分別分享了單目深度估計基礎模型Depth Aything、多視角條件擴散模型Magic-Boost、拖拽式圖像編輯工具InstaDrag的最新成果。

一、視頻生成一分為二,先文生圖、再圖生視頻

字節跳動研究科學家周大權的演講主題是《連續高動態的長視頻生成方案探索》,為了讓生成視頻中主要角色的運動范圍擴大,字節跳動將這一過程分為文生圖、圖生視頻兩步,使得模型生成所需的GPU資源和訓練數據減少。

2022年,字節跳動發布了視頻生成模型的第一個版本,在這之后,研究人員開始在移動算法、硬件效率等維度進行模型優化。在運動算法優化方面,研究人員需要創建長視頻數據集。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

目前,視頻生成效果中運動范圍都較小,如下圖中人物的運動軌跡實際上在整個畫面中只占很小的位置。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

想實現更加動態的視頻效果,需要繁重的GPU資源以及大量訓練數據。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

研究人員通過保持給定Token一致性,就可以確保生成不同時刻的剪輯是相同Token。

通用視頻生成模型的最終目標是希望不投入太多GPU資源以及大量數據,同時生成過程可控。把這些結合起來就是字節跳動研究人員的最終解決方案。

他們將文生視頻分為兩個過程,從文本到圖像的處理過程只需要文本和圖像數據,第二步是圖像到視頻。在文生圖的過程中讓不同圖像持有相同ID,就可以降低訓練難度。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

周大權稱,有時用戶只需要輸入一句話就可以獨立生成六個不同圖像,將這些圖像組合起來成為一段視頻就可以降低學習的復雜性以及模型實現的難度。

在這之中,研究人員修改了圖像相似度計算過程中的注意力,它們只需要計算單個圖像內的相似度。研究人員現在只將上下文擴展到相鄰圖像中,利用這種新的自注意力機制,就可以進行文生圖像以及圖像到視頻的組合。

同時,在基于獨立文本生成圖像時,其還可以保留細節。圖像轉換為視頻時,該模型可以預測這兩個圖像之間的中間幀,然后生成中間視頻,從而生成擁有無限鏡頭的視頻。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

二、DepthAything,成高質量2D轉3D圖像新思路

字節跳動研究科學家Bingyi Kang的演講主題是《DepthAnything:單目深度估計的基礎模型》,該模型可以更有效地從2D圖像中識別出深度信息圖,讓普通手機拍攝的2D影像也能快速轉3D。

基于語言和視覺的基礎模型可以提供很強的現實泛化能力,其背后的難題就是數據方案和模型方案。DepthAything提出了一種單目深度估計技術,能更有效地從2D圖像中識別出深度信息圖。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

基于此,字節跳動的研究人員進行了數據縮放,Bingyi Kang談道,首先是匯總所有的數據,研究人員集成了6個公共數據集和大約1500萬張圖片。隨后基于這些數據訓練模型。研究人員在標記圖像上單獨訓練教師模型,并通過這個教師網絡對所有圖像進行適當處理。

為了讓數據標記更有效,研究人員采取了兩種措施,第一種是將數據增強添加到未標記的圖像中,第二種是使用非知識論文損失函數。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

此外,真實數據有一定噪聲,會出現錯誤匹配的情況且成本很高。因此,他們首先在純合成圖像上訓練一個教師模型,然后使用這個教師模型對所有未標記的圖像進行工作室標記,然后只使用真實圖像的學生標簽來改變學生模型。

DepthAnything技術的應用有望使得短視頻平臺上的2D影像轉化為3D影像,或將應用于XR產業。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

三、Magc-Boost:15分鐘優化三維圖像生成,復雜紋理、幾何結構都能重現

字節跳動研究科學家張健鋒的演講主題是《Magic-Boost:通過多視圖條件擴散提升3D生成》,可以在15分鐘內優化生成結果,從而保留復雜的紋理或者幾何結構。

三維技術在電影視覺特效、AR等場景中擁有廣泛應用,人們可以自定義自己的角色、視覺效果,城市生成技術可以應用于城市規劃、工業設計等。目前,研究人員多利用二維擴散模型生成多視角圖像,然后再將這些圖像轉化為精準3D模型。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

張健鋒談道,首先可以給定文本或圖像的輸入內容,通過多個不同模型生成,然后使用快速重建模型從多個圖像中重建相應的城市對象。這一過程通??梢栽?0秒內完成。

但這一生成的圖像與原始輸入之間仍會存在明顯的性能差距,字節跳動的研究人員提出了多視角條件擴散模型Magc-Boost,可以利用多個圖像來優化成本生成結果,這一優化時間大約為15分鐘,其目的在于讓圖像中能盡可能多包含對象的細節信息。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

在與其他結果進行比較中,Magc-Boost可以實現快速精化,并保留過程中的內容特性,并能在短時間內快速改進細節。

四、InstaDrag:拖拽一下,1秒搞定照片編輯

字節跳動研究科學家廖俊豪的演講主題是《InstaDrag:從視頻數據中學習快且精準的拖拽式編輯》,InstaDrag可以使得用戶進行圖像編輯時速度最快提升百倍,在大約1秒內完成高質量拖拽式編輯圖像,還能保留無需編輯區域的特征。

目前,一些圖像編輯工具中,用戶精確控制將其移動到特定位置等基礎功能還無法實現。廖俊豪稱,因此,一個快速高效的基于拖拽的圖像編輯方案十分必要。

在圖像編輯工具中,字節跳動的四個目標就是快、未編輯區域不會產生變化、外觀不變、 將圖片信息移動到目標位置。

相比于此前的方式,InstaDrag的圖片編輯可以實現10-100倍的速度提升,同時編輯更準確。同時,自然視頻中會包含大量的運動線索,這些視頻數據就可以形成配對監督來訓練模型。

為了保證未編輯區域不發生變化,研究人員提供了一個遮罩,可以確保遮罩外的每個像素保持不變只拖動遮罩內區域。

字節跳動科學家組團演講,揭秘AI視頻生成大招!

在Demo演示中,用戶選擇遮罩區域并進行相應拖動后,會出現4個結果以便從中選擇。

結語:視頻、3D生成模型爆發機遇已來

世界模型,被認為是通往AGI的關鍵路徑之一。想要真正理解物理世界,也就意味著需要更多視覺信號,如二維、三維圖像、視頻等。

近一年來,AI視頻、3D生成領域的熱度持續攀升,多家AI公司推出了新的視頻生成模型,引發了行業內的激烈競爭,從圖像生成、圖像編輯到更為復雜的長視頻、三維信息生成等模型問世,徹底引爆了這條賽道。

在短視頻、AI領域等積累頗深的字節跳動,或許會在這條路上帶來更多的驚喜。