99色在线视频-99色综合-99视频精品全国免费-99视频全部免费-能在线观看的一区二区三区-嗯!啊!使劲用力在线观看

Stable Diffusion 3 來了:生成圖片文字終于不亂碼了

人工智能
2024
02/24
17:34
機(jī)器之心
分享
評論

來源:機(jī)器之心

繼 OpenAI 的 Sora 連續(xù)一周霸屏后,昨晚,生成式 AI 頂級技術(shù)公司 Stability AI 也放了一個大招 —— Stable Diffusion 3。該公司表示,這是他們最強(qiáng)大的文生圖模型。

與之前的版本相比,Stable Diffusion 3 生成的圖在質(zhì)量上實(shí)現(xiàn)了很大改進(jìn),支持多主題提示,文字書寫效果也更好了。以下是一些官方示例:

提示:史詩般的動漫作品,一位巫師在夜晚的山頂上向漆黑的天空施放宇宙咒語,咒語上寫著 "Stable Diffusion 3",由五彩繽紛的能量組成(Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy)

提示:電影照片,教室的桌子上放著一個紅蘋果,黑板上用粉筆寫著 "go big or go home" 的字樣(cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk)

提示:一幅畫,畫中宇航員騎著一只穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一只戴著高帽的知更鳥,角落里有 "stable diffusion" 的字樣(a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion")

提示:黑色背景上變色龍的攝影棚特寫(studio photograph closeup of a chameleon over a black background)

此外,Stability AI 媒體主管也曬出了一些生成效果:

Stability AI 表示,Stable Diffusion 3 是一個模型系列,參數(shù)量從 800M 到 8B 不等。這個參數(shù)量意味著,它可以在很多便攜式設(shè)備上直接跑,大大降低了 AI 大模型的使用門檻。

此外,Stability AI 還透露,他們和 Sora 一樣,在新模型中采用了 diffusion transformer 架構(gòu),并在博客中鏈接了 William ( Bill ) Peebles 和謝賽寧合著的 DiT 論文。這篇論文目前的被引量是 201,今年有望大幅增長。

不過,現(xiàn)在,Stable Diffusion 3 還沒有全面開放,權(quán)重也沒有公布。團(tuán)隊(duì)提到,他們正在采取一些安全措施,防止不法分子濫用。

該公司首席執(zhí)行官 Emad Mostaque 在 X 平臺的帖子中提到,在得到反饋并進(jìn)行改進(jìn)后,他們會把該模型開源。

很多人可能會好奇,這個 Stable Diffusion 3 和 DALLE 3、Midjourney 比效果如何?有些人做了測試,看起來似乎沒有拉開明顯差距。不過,Stable Diffusion 3 是開源領(lǐng)域的希望。

值得注意的是,在 Stable Diffusion 3 發(fā)布的同一時間,外媒還傳出了 Stability AI 旗下圖像生成應(yīng)用公司 Clipdrop 被收購的消息。總部位于巴黎的 Clipdrop 成立于 2020 年 7 月,使用開源 AI 模型允許用戶生成和編輯照片。在 2023 年 3 月以未披露的金額出售給 Stability AI 之前,它已從 Air Street Capital 籌集了種子投資。當(dāng)時,Clipdrop 表示它擁有超過 1500 萬用戶。但僅僅一年之后,Stability AI 就將它賣給了美國寫作助理初創(chuàng)公司 Jasper。

有人評價說,Stable Diffusion 3 的發(fā)布就是在掩蓋這個消息。和很多 AI 創(chuàng)業(yè)公司一樣,Stability AI 面臨的困境在于其以驚人的速度燒錢,但卻沒有明確的盈利途徑。去年年底,該公司還傳出了 CEO 可能被投資者趕下臺的消息,公司本身可能也在尋求賣身。在這樣的背景下,Stability AI 迫切地需要提振投資者信心。

英國媒體評價說,這筆交易標(biāo)志著 Stability AI 戰(zhàn)略的逆轉(zhuǎn)。Emad Mostaque 在一份電子郵件聲明中表示,這筆交易將使該公司能夠繼續(xù)專注于開發(fā) " 尖端的開放模型 "。在 Stable Diffusion 3 的相關(guān)博客中,該公司也強(qiáng)調(diào)," 我們對確保生成式人工智能開放、安全和普遍可及的承諾仍然堅(jiān)定不移。" 目前看來,Stability AI 的前途仍不明朗。

Stable Diffusion 3 背后的技術(shù):Diffusion Transformer+Flow Matching

在博客中,Stability AI 公布了打造 Stable Diffusion 3 的兩項(xiàng)關(guān)鍵技術(shù):Diffusion Transformer 和 Flow Matching。

1. Diffusion Transformer

Stable Diffusion 3 使用了類似于 OpenAI Sora 的 Diffusion Transformer 框架,而此前幾代 Stable Diffusion 模型僅依賴于擴(kuò)散架構(gòu)。

Diffusion Transformer 是 Sora 研發(fā)負(fù)責(zé)人之一 Bill Peebles 與紐約大學(xué)助理教授謝賽寧最初在 2022 年底發(fā)布的研究,2023 年 3 月更新第二版。

論文探究了擴(kuò)散模型中架構(gòu)選擇的意義,研究表明 U-Net 歸納偏置對擴(kuò)散模型的性能不是至關(guān)重要的,并且可以很容易地用標(biāo)準(zhǔn)設(shè)計(jì)(如 Transformer)取代。

論文鏈接:https://arxiv.org/pdf/2212.09748.pdf

具體來說,論文提出了一種基于 Transformer 架構(gòu)的新型擴(kuò)散模型 DiT,并訓(xùn)練了潛在擴(kuò)散模型,用對潛在 patch 進(jìn)行操作的 Transformer 替換常用的 U-Net 主干網(wǎng)絡(luò)。他們通過以 Gflops 衡量的前向傳遞復(fù)雜度來分析擴(kuò)散 Transformer(DiT)的可擴(kuò)展性,各個型號的 DiT 都取得了不錯的效果。

我們都知道,擴(kuò)散模型的成功可以歸功于它們的可擴(kuò)展性、訓(xùn)練的穩(wěn)定性和生成采樣的多樣性。在擴(kuò)散模型的范圍內(nèi),所使用的骨干架構(gòu)存在很大差異,包括基于 CNN 的、基于 Transformer 的、CNN-Transformer 混合,甚至是狀態(tài)空間模型。

用于擴(kuò)展這些模型以支持高分辨率圖像合成的方法也各不相同,現(xiàn)有方法或是增加了訓(xùn)練的復(fù)雜性,或是需要額外的模型,或是犧牲了質(zhì)量。潛在擴(kuò)散是實(shí)現(xiàn)高分辨率圖像合成的主要方法,但在實(shí)踐中無法表現(xiàn)精細(xì)細(xì)節(jié),影響了采樣質(zhì)量,限制了其在圖像編輯等應(yīng)用中的實(shí)用性。其他高分辨率圖像合成方法還有級聯(lián)超分辨率、多尺度損失、增加多分辨率的輸入和輸出,或利用自調(diào)節(jié)和適應(yīng)全新的架構(gòu)方案。

基于 DiT 的啟發(fā),Stability AI 進(jìn)一步提出了 Hourglass Diffusion Transformer ( HDiT ) 。這是一種隨像素?cái)?shù)量擴(kuò)展的圖像生成模型,支持直接在像素空間進(jìn)行高分辨率(如 1024 × 1024)訓(xùn)練。

這項(xiàng)工作通過改進(jìn)骨干網(wǎng)絡(luò)解決了高分辨率合成問題。Transformer 架構(gòu)可以擴(kuò)展到數(shù)十億個參數(shù),HDiT 在此基礎(chǔ)上,彌補(bǔ)了卷積 U-Net 的效率和 Transformer 的可擴(kuò)展性之間的差距,無需使用典型的高分辨率訓(xùn)練技術(shù)即可成功進(jìn)行訓(xùn)練。

論文鏈接:https://arxiv.org/pdf/2401.11605.pdf

研究者引入了一種 "pure transformer" 架構(gòu),獲得了一種能夠在標(biāo)準(zhǔn)擴(kuò)散設(shè)置中生成百萬像素級高質(zhì)量圖像的骨干結(jié)構(gòu)。即使在 128 × 128 等低空間分辨率下,這種架構(gòu)也比 DiT 等常見 Diffusion Transformer 骨干網(wǎng)絡(luò)(圖 2)的效率高得多,在生成質(zhì)量上也具有競爭力。另一方面,與卷積 U-Nets 相比,HDiT 在像素空間高分辨率圖像合成的計(jì)算復(fù)雜度方面同樣具備競爭力。

2. Flow Matching

使用 Flow Matching 技術(shù)的意義則在于提升采樣效率。

深度生成模型能夠?qū)ξ粗獢?shù)據(jù)分布進(jìn)行估計(jì)和采樣。然而,對簡單擴(kuò)散過程的限制導(dǎo)致采樣概率路徑的空間相當(dāng)有限,從而導(dǎo)致訓(xùn)練時間很長,需要采用專門的方法進(jìn)行高效采樣。在這項(xiàng)工作中,研究者探討了如何建立連續(xù)標(biāo)準(zhǔn)化流程的通用確定性框架。

這項(xiàng)究為基于連續(xù)歸一化流(CNF)的生成建模引入了一種新范式,實(shí)現(xiàn)了以前所未有的規(guī)模訓(xùn)練 CNF。

論文鏈接:https://arxiv.org/pdf/2210.02747.pdf

具體來說,論文提出了 "Flow Matching" 的概念,這是一種基于固定條件概率路徑向量場回歸訓(xùn)練 CNF 的免模擬方法。Flow Matching 與用于在噪聲和數(shù)據(jù)樣本之間進(jìn)行轉(zhuǎn)換的高斯概率路徑的通用族兼容(通用族將現(xiàn)有的擴(kuò)散路徑歸納為具體實(shí)例)。

研究者發(fā)現(xiàn),使用帶有擴(kuò)散路徑的 Flow Matching 可以為擴(kuò)散模型的訓(xùn)練提供更穩(wěn)健、更穩(wěn)定的替代方案。

此外,F(xiàn)low Matching 還為使用其他非擴(kuò)散概率路徑訓(xùn)練 CNF 打開了大門。其中一個特別值得關(guān)注的例子是使用最優(yōu)傳輸(OT)位移插值來定義條件概率路徑。這些路徑比擴(kuò)散路徑更有效,訓(xùn)練和采樣速度更快,泛化效果更好。在 ImageNet 上使用 Flow Matching 對 CNF 進(jìn)行訓(xùn)練,在似然性和采樣質(zhì)量方面的性能始終優(yōu)于其他基于擴(kuò)散的方法,并且可以使用現(xiàn)成的數(shù)值 ODE 求解器快速、可靠地生成采樣。

THE END
廣告、內(nèi)容合作請點(diǎn)擊這里 尋求合作
ai
免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場。

相關(guān)熱點(diǎn)

北京時間1月31日,微軟公司(NASDAQ:MSFT)今天發(fā)布了截至12月31日的2024財(cái)年第二季度財(cái)報。
業(yè)界
1月30日消息,據(jù)媒體報道,新一批的國產(chǎn)AI大模型通過了備案許可,其中小米的小愛同學(xué)AI助手位居其中。
業(yè)界
1 月 27 日消息,德勤(Deloitte)發(fā)布了《2024 年全球半導(dǎo)體行業(yè)展望》,深入分析了半導(dǎo)體行業(yè)在生成式人工智能的促進(jìn)下重新崛起的趨勢,以及面臨的諸多挑戰(zhàn)。
業(yè)界
1 月 27 日消息,歐洲企業(yè)軟件巨頭 SAP 宣布將在本年實(shí)施全公司范圍內(nèi)的轉(zhuǎn)型重組計(jì)劃,更加關(guān)注商用人工智能等領(lǐng)域。SAP 表示,約有 8000 個崗位將受到影響。
業(yè)界
1月27日訊 特斯拉(Tesla Inc. )首席執(zhí)行官埃隆·馬斯克(Elon Musk)表示,他計(jì)劃從超威半導(dǎo)體(Advanced Micro Devices Inc.,簡稱AMD)購買芯片,作為應(yīng)對人工智能的計(jì)算硬件支出狂潮的一部分。
業(yè)界

相關(guān)推薦

1
3
主站蜘蛛池模板: 日批视频在线 | 欧美日韩一区二区综合 | 欧美黄业 | 99精品欧美一区 | 麻豆国产精品有码在线观看 | 天天做天天爱天天干 | 视频一区二区在线观看 | 成人黄色一级片 | 一级做a爱片特黄在线观看免费看 | 亚洲欧美激情精品一区二区 | 国产亚洲欧美在在线人成 | 97夜夜澡人人爽人人免费 | 久草在现 | 中文字幕有码在线 | 欧美怡红院免费的视频 | 小黄鸭视频破解版 | 国产欧美精品一区二区三区 | 亚洲国产欧美91 | 一区二区三区欧美日韩国产 | 激情五月亚洲 | 一个人www免费看的视频 | 又黄又爽视频好爽视频 | 美女视频很黄很暴黄是免费的 | 亚洲视频免费播放 | 男女一进一出免费视频 | 黄色毛片免费网站 | 12345国产精品高清在线 | 天天操天天射天天插 | 成人黄色小视频 | 五月婷婷免费视频 | 中文字幕视频免费在线观看 | 国产精品亚洲w码日韩中文 国产精品小黄鸭一区二区三区 | 天天做天天爱夜夜大爽完整 | 韩国在线看| 看全色黄一级毛片 | 青青视频网 | 国产精品视频一区二区三区经 | 国产精品一区二区三区免费视频 | 亚洲影院在线 | 久久精品视频亚洲 | 日本国产在线观看 |