快手的視頻生成大模型“可靈”自面世以來,以其驚艷效果引發(fā)了國內(nèi)外的廣泛關(guān)注。 6月21日,可靈再度進(jìn)化,正式推出圖生視頻功能,支持用任意靜態(tài)圖像生成5s視頻,并且可搭配不同的文本內(nèi)容,實(shí)現(xiàn)豐富的視覺敘事 。同時,可靈還發(fā)布了業(yè)內(nèi)領(lǐng)先的視頻續(xù)寫功能,可為已生成的視頻(含文生視頻及圖生視頻)提供便捷的一鍵續(xù)寫和連續(xù)多次續(xù)寫,將視頻最長可延伸至約3分鐘,充分顯示了可靈強(qiáng)大的想象力與精細(xì)的可控性,極大地拓展了視頻大模型的創(chuàng)作邊界。
化靜為動 按需定制視覺敘事
此前,“可靈”在文生視頻方面已經(jīng)展現(xiàn)出了創(chuàng)造逼真運(yùn)動場景、精確模擬物理特性的強(qiáng)大能力,以及將復(fù)雜概念巧妙融合的高超技藝,其輸出堪比電影級畫質(zhì),并允許用戶自由調(diào)節(jié)視頻的縱橫比。而這些卓越特性,如今都被完美融入到了圖生視頻模型。用戶只需上傳一張圖片,“可靈”即能基于對圖像的深度解析,變靜為動,賦予其5秒的鮮活生命力。
上傳經(jīng)典的蒙娜麗莎,可靈能夠讓蒙娜麗莎戴上墨鏡,并賦予她靈動的眼神交流。讓名畫中的人物活靈活現(xiàn)。
蒙娜麗莎視頻
得益于其基礎(chǔ)模型架構(gòu)中的3D時空聯(lián)合注意力機(jī)制,可靈在構(gòu)建復(fù)雜時空運(yùn)動方面也展現(xiàn)了卓越能力。這使得模型在轉(zhuǎn)換靜態(tài)圖像為動態(tài)視頻時,能夠細(xì)膩而準(zhǔn)確地實(shí)現(xiàn)大幅度運(yùn)動場景。例如,只需上傳一張牧羊犬追球的靜止照片,模型就能生成一段生動的視頻:牧羊犬活靈活現(xiàn)地奔跑追逐網(wǎng)球,其耳朵輕輕晃動,毛發(fā)隨風(fēng)飄揚(yáng),而網(wǎng)球則在空中彈跳,視頻整體自然而流暢。
牧羊犬視頻
再以一張汽車飛馳的圖片為素材,可靈能創(chuàng)造出身臨其境的駕駛場景。在這段視頻中,汽車不僅在公路上展現(xiàn)出疾速前行的姿態(tài),而且巧妙地融入了對向車道上連續(xù)不斷的車流。同時,道路兩旁的樹木快速向后掠去,模擬出強(qiáng)烈的行駛速度感,而虛化處理的隔離帶進(jìn)一步增強(qiáng)了視覺上的動態(tài)效果與速度印象,整體畫面宛如出自精心策劃的廣告大片。
可靈圖生視頻模型還融入了強(qiáng)大的提示詞融合技術(shù),深化了對圖像語義與用戶指令的理解整合。這意味著,模型能夠根據(jù)用戶提供的不同文本指令,精妙地變換視頻中的動態(tài)表現(xiàn)。舉例來說,當(dāng)使用一張女孩的照片生成視頻,模型默認(rèn)生成的效果可能是輕風(fēng)中她發(fā)絲輕輕飄動,周遭花朵搖曳,水面閃爍著細(xì)膩的波紋。而如果用戶具體輸入“女孩轉(zhuǎn)身背對鏡頭”,視頻便會智能添加女孩優(yōu)雅轉(zhuǎn)身的動作,并細(xì)膩捕捉到轉(zhuǎn)身瞬間的微笑和眨眼,展現(xiàn)了自然而生動的細(xì)節(jié)處理能力。
再比如用巨龍圖片生成視頻,輸入“正在捕食的巨龍,飛揚(yáng)的沙子,奇幻風(fēng)格的電影”,視頻便呈現(xiàn)巨龍昂首展翅掀起漫天黃沙,嘴部開合仿佛在咆哮的生動效果與奇幻場景。通過這種文本與圖像意義的緊密聯(lián)動,可靈將按需定制的視覺敘事提升到了一個新高度。
此外,可靈圖生視頻模型支持不同風(fēng)格的圖像輸入,不論是自然寫實(shí)還是風(fēng)格化圖像都能輕松處理,同時兼容各種長寬比的圖像輸入,展示出強(qiáng)大的靈活性和適應(yīng)性。例如這張騎士拿劍的豎版圖片,生成視頻中騎士黑袍飛舞,亮劍仙氣環(huán)繞,拉滿氛圍感。
業(yè)內(nèi)領(lǐng)先 視頻續(xù)寫可生成最長約3分鐘視頻
可靈大模型還新推出了業(yè)內(nèi)領(lǐng)先的視頻續(xù)寫功能,用戶只需一鍵操作,即可在已生成視頻的基礎(chǔ)上延續(xù)生成約5秒內(nèi)容,該功能同時適用于文生視頻和圖生視頻。更令人矚目的是,通過連續(xù)多次續(xù)寫,能夠最長生產(chǎn)約3分鐘的連貫視頻。基于對物理運(yùn)動的深入理解,視頻續(xù)寫不僅確保新生成部分與原視頻間的運(yùn)動連貫性及物理合理性,還能巧妙融入大幅度的動作變化,提升視頻的生動性。
此次升級的一大亮點(diǎn)是集成文本控制機(jī)制于視頻續(xù)寫中,這意味著用戶能夠通過自定義提示詞,為每段視頻續(xù)寫注入個性化創(chuàng)意。得益于此,模型利用高效的提示詞融合技術(shù),平滑地在場景間過渡,響應(yīng)用戶的每一個靈感火花。舉例來說,一個關(guān)于古堡的視頻片段,用戶既可以選擇讓它先“太陽落下去,天空變暗”,繼而“太陽升起來,天空變亮”,亦可探索另一路徑:“太陽落下去,天空變暗,燈光漸亮”,隨后“燈光亮起,霧氣氤氳”,以此創(chuàng)造出各具特色的連續(xù)視覺敘事,完美貼合用戶的多樣化需求。
(注:視頻前5秒為輸入視頻,后9秒為續(xù)寫兩次后的結(jié)果)
6月6日,可靈文生視頻大模型正式亮相(可靈官網(wǎng):https://kling.kuaishou.com),不僅在效果上比肩Sora,還即時在快影App上啟動了邀測體驗(yàn),截至目前,已有累計超過14萬人排隊申請。此次進(jìn)化,可靈文生視頻基礎(chǔ)大模型的強(qiáng)大能力被無縫整合到圖生視頻和視頻續(xù)寫功能中,將為用戶帶來更為豐富、靈活的視頻創(chuàng)作體驗(yàn)。
恰逢近日CVPR2024在美國舉行,在這一國際頂級計算機(jī)視覺和模式識別領(lǐng)域?qū)W術(shù)盛會上,快手也同步發(fā)布了可靈大模型的圖生視頻和視頻續(xù)寫等最新功能,引起現(xiàn)場的強(qiáng)烈反響。公開資料顯示,今年快手共有8篇論文入選CVPR2024,彰顯了其在該領(lǐng)域的深厚研究功底。
據(jù)悉,快手還將在下月召開的2024世界人工智能大會(WAIC)上,舉辦以“新AI·新應(yīng)用·新生態(tài)”為主題的大模型技術(shù)生態(tài)論壇。屆時,快手將發(fā)布最新的大模型技術(shù)與應(yīng)用戰(zhàn)略,包括快手大模型技術(shù)矩陣全景、基座模型技術(shù)創(chuàng)新、應(yīng)用和落地情況等。