來源:機(jī)器之心
繼 OpenAI 的 Sora 連續(xù)一周霸屏后,昨晚,生成式 AI 頂級技術(shù)公司 Stability AI 也放了一個大招 —— Stable Diffusion 3。該公司表示,這是他們最強(qiáng)大的文生圖模型。
與之前的版本相比,Stable Diffusion 3 生成的圖在質(zhì)量上實(shí)現(xiàn)了很大改進(jìn),支持多主題提示,文字書寫效果也更好了。以下是一些官方示例:
提示:史詩般的動漫作品,一位巫師在夜晚的山頂上向漆黑的天空施放宇宙咒語,咒語上寫著 "Stable Diffusion 3",由五彩繽紛的能量組成(Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy)
提示:電影照片,教室的桌子上放著一個紅蘋果,黑板上用粉筆寫著 "go big or go home" 的字樣(cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk)
提示:一幅畫,畫中宇航員騎著一只穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一只戴著高帽的知更鳥,角落里有 "stable diffusion" 的字樣(a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion")
提示:黑色背景上變色龍的攝影棚特寫(studio photograph closeup of a chameleon over a black background)
此外,Stability AI 媒體主管也曬出了一些生成效果:
Stability AI 表示,Stable Diffusion 3 是一個模型系列,參數(shù)量從 800M 到 8B 不等。這個參數(shù)量意味著,它可以在很多便攜式設(shè)備上直接跑,大大降低了 AI 大模型的使用門檻。
此外,Stability AI 還透露,他們和 Sora 一樣,在新模型中采用了 diffusion transformer 架構(gòu),并在博客中鏈接了 William ( Bill ) Peebles 和謝賽寧合著的 DiT 論文。這篇論文目前的被引量是 201,今年有望大幅增長。
不過,現(xiàn)在,Stable Diffusion 3 還沒有全面開放,權(quán)重也沒有公布。團(tuán)隊(duì)提到,他們正在采取一些安全措施,防止不法分子濫用。
該公司首席執(zhí)行官 Emad Mostaque 在 X 平臺的帖子中提到,在得到反饋并進(jìn)行改進(jìn)后,他們會把該模型開源。
很多人可能會好奇,這個 Stable Diffusion 3 和 DALLE 3、Midjourney 比效果如何?有些人做了測試,看起來似乎沒有拉開明顯差距。不過,Stable Diffusion 3 是開源領(lǐng)域的希望。
值得注意的是,在 Stable Diffusion 3 發(fā)布的同一時間,外媒還傳出了 Stability AI 旗下圖像生成應(yīng)用公司 Clipdrop 被收購的消息。總部位于巴黎的 Clipdrop 成立于 2020 年 7 月,使用開源 AI 模型允許用戶生成和編輯照片。在 2023 年 3 月以未披露的金額出售給 Stability AI 之前,它已從 Air Street Capital 籌集了種子投資。當(dāng)時,Clipdrop 表示它擁有超過 1500 萬用戶。但僅僅一年之后,Stability AI 就將它賣給了美國寫作助理初創(chuàng)公司 Jasper。
有人評價說,Stable Diffusion 3 的發(fā)布就是在掩蓋這個消息。和很多 AI 創(chuàng)業(yè)公司一樣,Stability AI 面臨的困境在于其以驚人的速度燒錢,但卻沒有明確的盈利途徑。去年年底,該公司還傳出了 CEO 可能被投資者趕下臺的消息,公司本身可能也在尋求賣身。在這樣的背景下,Stability AI 迫切地需要提振投資者信心。
英國媒體評價說,這筆交易標(biāo)志著 Stability AI 戰(zhàn)略的逆轉(zhuǎn)。Emad Mostaque 在一份電子郵件聲明中表示,這筆交易將使該公司能夠繼續(xù)專注于開發(fā) " 尖端的開放模型 "。在 Stable Diffusion 3 的相關(guān)博客中,該公司也強(qiáng)調(diào)," 我們對確保生成式人工智能開放、安全和普遍可及的承諾仍然堅(jiān)定不移。" 目前看來,Stability AI 的前途仍不明朗。
Stable Diffusion 3 背后的技術(shù):Diffusion Transformer+Flow Matching
在博客中,Stability AI 公布了打造 Stable Diffusion 3 的兩項(xiàng)關(guān)鍵技術(shù):Diffusion Transformer 和 Flow Matching。
1. Diffusion Transformer
Stable Diffusion 3 使用了類似于 OpenAI Sora 的 Diffusion Transformer 框架,而此前幾代 Stable Diffusion 模型僅依賴于擴(kuò)散架構(gòu)。
Diffusion Transformer 是 Sora 研發(fā)負(fù)責(zé)人之一 Bill Peebles 與紐約大學(xué)助理教授謝賽寧最初在 2022 年底發(fā)布的研究,2023 年 3 月更新第二版。
論文探究了擴(kuò)散模型中架構(gòu)選擇的意義,研究表明 U-Net 歸納偏置對擴(kuò)散模型的性能不是至關(guān)重要的,并且可以很容易地用標(biāo)準(zhǔn)設(shè)計(jì)(如 Transformer)取代。
論文鏈接:https://arxiv.org/pdf/2212.09748.pdf
具體來說,論文提出了一種基于 Transformer 架構(gòu)的新型擴(kuò)散模型 DiT,并訓(xùn)練了潛在擴(kuò)散模型,用對潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以 Gflops 衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer(DiT)的可擴(kuò)展性,各個型號的 DiT 都取得了不錯的效果。
我們都知道,擴(kuò)散模型的成功可以歸功于它們的可擴(kuò)展性、訓(xùn)練的穩(wěn)定性和生成采樣的多樣性。在擴(kuò)散模型的范圍內(nèi),所使用的骨干架構(gòu)存在很大差異,包括基于 CNN 的、基于 Transformer 的、CNN-Transformer 混合,甚至是狀態(tài)空間模型。
用于擴(kuò)展這些模型以支持高分辨率圖像合成的方法也各不相同,現(xiàn)有方法或是增加了訓(xùn)練的復(fù)雜性,或是需要額外的模型,或是犧牲了質(zhì)量。潛在擴(kuò)散是實(shí)現(xiàn)高分辨率圖像合成的主要方法,但在實(shí)踐中無法表現(xiàn)精細(xì)細(xì)節(jié),影響了采樣質(zhì)量,限制了其在圖像編輯等應(yīng)用中的實(shí)用性。其他高分辨率圖像合成方法還有級聯(lián)超分辨率、多尺度損失、增加多分辨率的輸入和輸出,或利用自調(diào)節(jié)和適應(yīng)全新的架構(gòu)方案。
基于 DiT 的啟發(fā),Stability AI 進(jìn)一步提出了 Hourglass Diffusion Transformer ( HDiT ) 。這是一種隨像素?cái)?shù)量擴(kuò)展的圖像生成模型,支持直接在像素空間進(jìn)行高分辨率(如 1024 × 1024)訓(xùn)練。
這項(xiàng)工作通過改進(jìn)骨干網(wǎng)絡(luò)解決了高分辨率合成問題。Transformer 架構(gòu)可以擴(kuò)展到數(shù)十億個參數(shù),HDiT 在此基礎(chǔ)上,彌補(bǔ)了卷積 U-Net 的效率和 Transformer 的可擴(kuò)展性之間的差距,無需使用典型的高分辨率訓(xùn)練技術(shù)即可成功進(jìn)行訓(xùn)練。
論文鏈接:https://arxiv.org/pdf/2401.11605.pdf
研究者引入了一種 "pure transformer" 架構(gòu),獲得了一種能夠在標(biāo)準(zhǔn)擴(kuò)散設(shè)置中生成百萬像素級高質(zhì)量圖像的骨干結(jié)構(gòu)。即使在 128 × 128 等低空間分辨率下,這種架構(gòu)也比 DiT 等常見 Diffusion Transformer 骨干網(wǎng)絡(luò)(圖 2)的效率高得多,在生成質(zhì)量上也具有競爭力。另一方面,與卷積 U-Nets 相比,HDiT 在像素空間高分辨率圖像合成的計(jì)算復(fù)雜度方面同樣具備競爭力。
2. Flow Matching
使用 Flow Matching 技術(shù)的意義則在于提升采樣效率。
深度生成模型能夠?qū)ξ粗獢?shù)據(jù)分布進(jìn)行估計(jì)和采樣。然而,對簡單擴(kuò)散過程的限制導(dǎo)致采樣概率路徑的空間相當(dāng)有限,從而導(dǎo)致訓(xùn)練時間很長,需要采用專門的方法進(jìn)行高效采樣。在這項(xiàng)工作中,研究者探討了如何建立連續(xù)標(biāo)準(zhǔn)化流程的通用確定性框架。
這項(xiàng)究為基于連續(xù)歸一化流(CNF)的生成建模引入了一種新范式,實(shí)現(xiàn)了以前所未有的規(guī)模訓(xùn)練 CNF。
論文鏈接:https://arxiv.org/pdf/2210.02747.pdf
具體來說,論文提出了 "Flow Matching" 的概念,這是一種基于固定條件概率路徑向量場回歸訓(xùn)練 CNF 的免模擬方法。Flow Matching 與用于在噪聲和數(shù)據(jù)樣本之間進(jìn)行轉(zhuǎn)換的高斯概率路徑的通用族兼容(通用族將現(xiàn)有的擴(kuò)散路徑歸納為具體實(shí)例)。
研究者發(fā)現(xiàn),使用帶有擴(kuò)散路徑的 Flow Matching 可以為擴(kuò)散模型的訓(xùn)練提供更穩(wěn)健、更穩(wěn)定的替代方案。
此外,F(xiàn)low Matching 還為使用其他非擴(kuò)散概率路徑訓(xùn)練 CNF 打開了大門。其中一個特別值得關(guān)注的例子是使用最優(yōu)傳輸(OT)位移插值來定義條件概率路徑。這些路徑比擴(kuò)散路徑更有效,訓(xùn)練和采樣速度更快,泛化效果更好。在 ImageNet 上使用 Flow Matching 對 CNF 進(jìn)行訓(xùn)練,在似然性和采樣質(zhì)量方面的性能始終優(yōu)于其他基于擴(kuò)散的方法,并且可以使用現(xiàn)成的數(shù)值 ODE 求解器快速、可靠地生成采樣。