來(lái)源:量子位
內(nèi)容生成 AI 進(jìn)入視頻時(shí)代!
Meta 發(fā)布「用嘴做視頻」僅一周,谷歌 CEO 劈柴哥接連派出兩名選手上場(chǎng)競(jìng)爭(zhēng)。
第一位Imagen Video與 Meta 的 Make-A-Video 相比突出一個(gè)高清,能生成 1280*768 分辨率、每秒 24 幀的視頻片段。
另一位選手Phenaki,則能根據(jù) 200 個(gè)詞左右的提示語(yǔ)生成2 分鐘以上的長(zhǎng)鏡頭,講述一個(gè)完整的故事。
網(wǎng)友看過(guò)后表示,這一切進(jìn)展實(shí)在太快了。
也有網(wǎng)友認(rèn)為,這種技術(shù)一旦成熟,會(huì)沖擊短視頻行業(yè)。
那么,兩個(gè) AI 具體有什么能力和特點(diǎn),我們分別來(lái)看。
Imagen Video:理解藝術(shù)風(fēng)格與 3D 結(jié)構(gòu)
Imagen Video 同樣基于最近大火的擴(kuò)散模型,直接繼承自 5 月份的圖像生成 SOTA 模型 Imagen。
除了分辨率高以外,還展示出三種特別能力。
首先它能理解并生成不同藝術(shù)風(fēng)格的作品,如 " 水彩畫 " 或者 " 像素畫 ",或者直接 " 梵高風(fēng)格 "。
它還能理解物體的 3D 結(jié)構(gòu),在旋轉(zhuǎn)展示中不會(huì)變形。
最后它還繼承了 Imagen 準(zhǔn)確描繪文字的能力,在此基礎(chǔ)上僅靠簡(jiǎn)單描述產(chǎn)生各種創(chuàng)意動(dòng)畫,
這效果,直接當(dāng)成一個(gè)視頻的片頭不過(guò)分吧?
除了應(yīng)用效果出色以外,研究人員表示其中用到的一些優(yōu)化技巧不光對(duì)視頻生成有效,可以泛化至一般擴(kuò)散模型。
具體來(lái)說(shuō),Imagen Video 是一系列模型的集合。
語(yǔ)言模型部分是谷歌自家的T5-XXL,訓(xùn)練好后凍結(jié)住文本編碼器部分。
與負(fù)責(zé)從文本特征映射到圖像特征的 CLIP 相比,有一個(gè)關(guān)鍵不同:
語(yǔ)言模型只負(fù)責(zé)編碼文本特征,把文本到圖像轉(zhuǎn)換的工作丟給了后面的視頻擴(kuò)散模型。
基礎(chǔ)模型,在生成圖像的基礎(chǔ)上以自回歸方式不斷預(yù)測(cè)下一幀,首先生成一個(gè) 48*24、每秒 3 幀的視頻。
接下來(lái),一系列空間超分辨率(Spatial Super-Resolution)與時(shí)間超分辨率(Temporal Super-Resolution)模型接連對(duì)視頻做擴(kuò)展處理。
所有 7 種擴(kuò)散模型都使用了v-prediction parameterization方法,與傳統(tǒng)方法相比在視頻場(chǎng)景中可以避免顏色偏移。
這種方法擴(kuò)展到一般擴(kuò)散模型,還使樣本質(zhì)量指標(biāo)的收斂速度更快。
此外還有漸進(jìn)式蒸餾(Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節(jié)省顯存消耗。
這些優(yōu)化技巧加起來(lái),終于使生成高清視頻成為可能。
Phenaki:人人都能是 " 導(dǎo)演 "
Phenaki 的論文投了 ICLR 2023 會(huì)議,在一周前 Meta 發(fā)布 Make-a-video 的時(shí)候還是匿名雙盲評(píng)審狀態(tài)。
如今信息公開,原來(lái)研究團(tuán)隊(duì)同樣來(lái)自谷歌。
在公開的信息中,Phenaki 展示了它交互生成視頻的能力,可以任意切換視頻的整體風(fēng)格:高清視頻 / 卡通,還能夠切換任意場(chǎng)景。
還可以向 Phenaki 輸入一個(gè)初始幀以及一個(gè)提示,便能生成一段視頻。
這都還是開胃小菜,Phenaki 真正的大招是:講故事,它能夠生成 2 分鐘以上的長(zhǎng)視頻,通過(guò)輸入長(zhǎng)達(dá) 200 多個(gè)字符的系列提示來(lái)得到。
(那有了這個(gè)模型,豈不是人人都能當(dāng)導(dǎo)演了?手動(dòng)狗頭)
從文本提示到視頻,計(jì)算成本高、高質(zhì)量文本視頻數(shù)據(jù)數(shù)量有限以及視頻長(zhǎng)度可變一直以來(lái)都是此類模型發(fā)展的難題。
以往的大多數(shù) AI 模型都是通過(guò)單一的提示來(lái)生成視頻,但若要生成一個(gè)長(zhǎng)時(shí)間并且連貫的視頻這遠(yuǎn)遠(yuǎn)不夠。
而 Phenaki 則能生成 2 分鐘以上的視頻,并且還具備故事情節(jié),這主要?dú)w功于它能夠根據(jù)一系列的提示來(lái)生成視頻的能力。
具體來(lái)說(shuō),研究人員引入了一個(gè)新的因果模型來(lái)學(xué)習(xí)表示視頻:將視頻視作圖像的一個(gè)時(shí)間序列。
這個(gè)模型基于 transformer,可以將視頻分解成離散的小表示,而分解視頻則是按照時(shí)間的因果順序來(lái)進(jìn)行的。
再講通俗一點(diǎn),就是通過(guò)空間 transformer 將單個(gè)提示進(jìn)行編碼,隨后再用因果 transformer 將多個(gè)編碼好的提示串聯(lián)起來(lái)。
一個(gè)提示生成一段視頻,這樣一來(lái),視頻序列便可以沿著提示中描述的時(shí)間序列將整個(gè) " 故事 " 串在一起。
因?yàn)閷⒁曨l壓縮為離散的圖像序列,這樣也大大減少了 AI 處理標(biāo)記視頻的數(shù)量,在一定程度上降低了模型的訓(xùn)練成本。
提到模型訓(xùn)練,和大型圖像系統(tǒng)一樣,Phenaki 也主要使用文本 - 圖像數(shù)據(jù)進(jìn)行訓(xùn)練,此外,研究人員還用 1.4 秒,幀率 8FPS 的短視頻文本對(duì) Phenaki 進(jìn)行訓(xùn)練。
僅僅通過(guò)對(duì)大量圖像文本對(duì)以及少量視頻文本例子進(jìn)行聯(lián)合訓(xùn)練,便能達(dá)到突破視頻數(shù)據(jù)集的效果。
Imagen Video 和 Phenaki,谷歌接連放出大招,從文本到視頻的 AI 發(fā)展勢(shì)頭迅猛。
值得一提的是,Imagen Video 一作表示,兩個(gè)團(tuán)隊(duì)將合作進(jìn)行下一步研究。
嗯,有的網(wǎng)友已經(jīng)等不及了。
One More Thing
出于安全和倫理的考慮,谷歌暫時(shí)不會(huì)發(fā)布兩個(gè)視頻生成模型的代碼或 Demo。
不過(guò)既然發(fā)了論文,出現(xiàn)開源復(fù)刻版本也只是時(shí)間問(wèn)題。
畢竟當(dāng)初 Imagen 論文出來(lái)沒(méi)幾個(gè)月,GitHub 上就出現(xiàn)了 Pytorch 版本。
另外 Stable Diffusion 背后的 StabilityAI 創(chuàng)始人兼 CEO 也說(shuō)過(guò),將發(fā)布比 Meta 的 Make-A-Video 更好的模型,而且是大家都能用上的那種。
當(dāng)然,每次 AI 有了新進(jìn)展后都會(huì)不可避免地碰到那個(gè)話題—— AI 會(huì)不會(huì)取代人類。
目前來(lái)說(shuō),一位影視行業(yè)的工作者表示還不到時(shí)候:
老實(shí)說(shuō),作為一個(gè)在電影行業(yè)工作了十年的人,這個(gè)話題令人沮喪。
在他看來(lái),當(dāng)前的視頻生成 AI 在外行看起來(lái)已經(jīng)足夠驚艷,不過(guò)業(yè)內(nèi)人士會(huì)認(rèn)為 AI 還缺乏對(duì)每一個(gè)鏡頭的精細(xì)控制。
對(duì)于這個(gè)話題,StabilityAI 新任首席信息官 Daniel Jeffries 此前撰文表示,AI 最終會(huì)帶來(lái)更多的工作崗位。
如相機(jī)的發(fā)明雖然取代了大部分肖像畫家,但也創(chuàng)造了攝影師,還開辟了電影和電視這樣的全新產(chǎn)業(yè)。
5 年后再回看的話,反對(duì) AI 就像現(xiàn)在反對(duì) Photoshop 一樣奇怪,AI 只不過(guò)是另一個(gè)工具。
Jeffries 稱未來(lái)是環(huán)境人工智能(Ambient AI)的時(shí)代,各個(gè)行業(yè)、各個(gè)領(lǐng)域都會(huì)在人工智能的加持下進(jìn)行發(fā)展。
不過(guò)現(xiàn)在我們需要的是一個(gè)更開放的人工智能環(huán)境,也就是說(shuō):開源!