貝索斯又給一家 AI 創(chuàng)企 Physical Intelligence 投資了,一頓操作下來(lái),使其估值狂飆至 24 億美元。
值得一提的是,這波融資除了貝索斯外,還有風(fēng)險(xiǎn)投資公司 Thrive Capital 和 Lux Capital 同時(shí)牽頭,OpenAI、Redpoint Ventures、Bond 紛紛跟投。
讓 Robot 疊衣服,一句話的事兒
這個(gè)讓一眾大佬紛紛看好的 Physical Intelligence,它的核心產(chǎn)品是一款名為 π 0 ( pi-zero ) 的軟件,這是一個(gè)通用的機(jī)器人基礎(chǔ)模型,旨在使用戶通過(guò)簡(jiǎn)單的語(yǔ)言指令控制機(jī)器人,類似于與聊天助手互動(dòng)的方式。
在上周發(fā)布的論文中,Physical Intelligence 還展示了 π 0 如何使機(jī)器人能夠折疊衣物、清理桌子、壓平盒子的技術(shù)分析等等。
其中,π 0 機(jī)器人控制模型集成了一系列高科技手段,使其能夠靈巧地完成復(fù)雜的任務(wù)。
這個(gè)模型首先利用視覺(jué) - 語(yǔ)言模型來(lái)理解圖片和文字中的信息,然后通過(guò)一個(gè)特殊的動(dòng)作輸出系統(tǒng),以很快的速度告訴機(jī)器人該如何動(dòng)作。這種快速、連續(xù)的動(dòng)作指令對(duì)于需要精細(xì)操作的任務(wù)非常關(guān)鍵,比如疊衣服或者裝箱子。
π 0 模型的訓(xùn)練分為兩個(gè)階段:預(yù)訓(xùn)練和后訓(xùn)練。
預(yù)訓(xùn)練階段,模型會(huì)學(xué)習(xí)大量的數(shù)據(jù),這樣它就能夠掌握廣泛的技能和適應(yīng)不同的場(chǎng)景。后訓(xùn)練階段,模型會(huì)針對(duì)特定的任務(wù)進(jìn)行調(diào)整,以提高其在這些任務(wù)上的表現(xiàn)。
此外,π 0 還采用了一種叫做流匹配的技術(shù),這讓它能夠處理連續(xù)的動(dòng)作,而不是單一的、離散的步驟。這種技術(shù)的應(yīng)用,加上模型的混合專家架構(gòu),使得 π 0 在預(yù)測(cè)動(dòng)作時(shí)更加準(zhǔn)確。
總的來(lái)說(shuō),這些技術(shù)的綜合應(yīng)用讓 π 0 在多種機(jī)器人平臺(tái)上都能夠展現(xiàn)出色的表現(xiàn),無(wú)論是在預(yù)訓(xùn)練后立即執(zhí)行任務(wù),還是經(jīng)過(guò)特定任務(wù)的微調(diào)后。
網(wǎng)友直呼:我一直相信 AI 機(jī)器人的能力,現(xiàn)在它能幫我洗衣服,我就更喜歡它了!
還有網(wǎng)友化身 " 賽博乞丐 ":給我來(lái)一個(gè)!
不過(guò)也有網(wǎng)友覺(jué)得演示中的內(nèi)容在特斯拉的機(jī)器人面前有點(diǎn)太小兒科了,不過(guò)馬上遭到反駁:人家只是初創(chuàng)公司!
而這也和 Physical Intelligence 的想法一致,聯(lián)合創(chuàng)始人 Sergey Levine 就曾經(jīng)表示:" 據(jù)我們所知,我們正在訓(xùn)練的數(shù)據(jù)量比有史以來(lái)制作的任何機(jī)器人模型都要大。"
但他還補(bǔ)充道:" 它無(wú)論如何都不是 ChatGPT,但也許它接近 GPT-1",表達(dá)他們的軟件更接近于 OpenAI 為聊天機(jī)器人發(fā)布的首個(gè)模型 GPT-1,而不是那些更先進(jìn)的、為 ChatGPT 提供動(dòng)力的大腦,暗示他們?nèi)蕴幱谠缙陂_發(fā)階段。
野心勃勃,要做機(jī)器人行業(yè)中的「OpenAI」
之所以 Physical Intelligence 能夠拿到這么大的融資,可能是因?yàn)樗?OpenAI 一樣,都是企圖從模型與數(shù)據(jù)層面顛覆此前的技術(shù)慣性,或許將 Physical Intelligence 的 π 0 與 OpenAI 的 ChatGPT 進(jìn)行比較,可以更直觀地理解其創(chuàng)新和潛力。
首先,ChatGPT 的精準(zhǔn)語(yǔ)義理解能力是其核心優(yōu)勢(shì)之一,對(duì)于 π 0 而言,這種能力同樣至關(guān)重要。
π 0 必須具備理解物理世界中的交互指令和上下文的能力,這包括但不限于視覺(jué)、語(yǔ)言和觸覺(jué)等多種感官輸入。
通過(guò)接受大規(guī)模互聯(lián)網(wǎng)視覺(jué) - 語(yǔ)言預(yù)訓(xùn)練,并結(jié)合豐富的機(jī)器人操作數(shù)據(jù)集,π 0 能夠熟練地執(zhí)行一系列多樣化的任務(wù)。這不僅彰顯了 π 0 在解讀物理世界指令方面的卓越能力,也體現(xiàn)了其在多模態(tài)感知和任務(wù)執(zhí)行上的先進(jìn)性。
其次,ChatGPT 的卓越之處在于其能夠?qū)⒑暧^問(wèn)題細(xì)化為微觀問(wèn)題,并巧妙地整合答案。
對(duì)于 π 0 而言,這表示它必須將復(fù)雜的物理任務(wù)分解成一系列可操作的步驟,并根據(jù)環(huán)境的實(shí)時(shí)反饋靈活調(diào)整其行動(dòng),以確保達(dá)成預(yù)定目標(biāo)。
π 0 通過(guò)在廣泛的機(jī)器人操作數(shù)據(jù)集上進(jìn)行訓(xùn)練,已經(jīng)能夠熟練執(zhí)行從簡(jiǎn)單的物體搬運(yùn)到復(fù)雜的衣物整理等多樣化任務(wù),這充分展現(xiàn)了其在任務(wù)分解和解決方案構(gòu)建方面的強(qiáng)大能力。
關(guān)于這點(diǎn),Physical Intelligence 的創(chuàng)始人 Karol 也曾說(shuō)過(guò):" 我們有一個(gè)非常通用的方法,它可以利用來(lái)自許多不同實(shí)施例、許多不同機(jī)器人類型的數(shù)據(jù),并且類似于人們訓(xùn)練語(yǔ)言模型的方式。"
最后,ChatGPT 的通用性體現(xiàn)在其能夠?qū)⑷祟愔R(shí)遷移至語(yǔ)言交流中。相較之下,Physical Intelligence 的通用性則表現(xiàn)在將互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中學(xué)習(xí)到的深層語(yǔ)義知識(shí),成功應(yīng)用到物理世界的實(shí)際操作中。π 0 繼承了這種從大規(guī)模互聯(lián)網(wǎng)預(yù)訓(xùn)練中獲得的豐富語(yǔ)義知識(shí),并將其有效運(yùn)用于實(shí)時(shí)的靈巧機(jī)器人控制,從而在知識(shí)遷移和通用性方面展現(xiàn)了其非凡的能力。
值得一提的是,Physical Intelligence 的一個(gè)關(guān)鍵特點(diǎn)是與物理世界的直接交互。與 ChatGPT 主要處理語(yǔ)言和信息不同,Physical Intelligence 需要處理的是物理信號(hào)和實(shí)際操作,正是這一點(diǎn)可以看出,它的野心是成為機(jī)器人行業(yè)中的「OpenAI」。
總的來(lái)說(shuō),ChatGPT 的里程碑在于其對(duì)自然語(yǔ)言的理解和生成能力,而 Physical Intelligence 之所以受到投資人重視,則在于其對(duì)物理世界的理解和操作能力。
π 0 所做的,就是將構(gòu)建語(yǔ)言模型的技術(shù)與控制和指導(dǎo)機(jī)器的自有方法相結(jié)合,并通過(guò)大量的機(jī)器人數(shù)據(jù)訓(xùn)練來(lái)實(shí)現(xiàn)。為了獲得更多數(shù)據(jù),該公司使用了在圖像和文本上訓(xùn)練大腦視覺(jué)語(yǔ)言模型和從 AI 圖像生成中借鑒的擴(kuò)散建模技術(shù)。
人均 " 大咖 " 的初創(chuàng)公司
Physical Intelligence 成立于 2024 年,至今不到一年時(shí)間。它是一家專注于將通用人工智能與物理系統(tǒng)相結(jié)合的機(jī)器人初創(chuàng)公司,總部位于加利福尼亞州舊金山。公司的目標(biāo)是開發(fā)一種能夠應(yīng)用于各種機(jī)器人的基礎(chǔ)軟件,使其能夠執(zhí)行復(fù)雜的多步驟任務(wù),而不再局限于特定的功能。
公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官卡羅爾 · 豪斯曼(Karol Hausman)曾在谷歌 DeepMind 擔(dān)任機(jī)器人科學(xué)家,一直專注于深度學(xué)習(xí)和機(jī)器人技術(shù)的應(yīng)用,目前在斯坦福大學(xué)當(dāng)客座教授。
Karol 在慕尼黑工業(yè)大學(xué)獲得機(jī)器人碩士學(xué)位,在南加州大學(xué)獲得計(jì)算機(jī)科學(xué)博士學(xué)位,研究方向?yàn)楦兄?- 行動(dòng)循環(huán)的重新思考,通過(guò)交互感知和學(xué)習(xí)表征來(lái)提升機(jī)器人的智能。自 2018 年起,擔(dān)任谷歌大腦的員工研究科學(xué)家,領(lǐng)導(dǎo)機(jī)器人操作團(tuán)隊(duì),并負(fù)責(zé)多個(gè)重要項(xiàng)目。2021 年至今,擔(dān)任斯坦福大學(xué)計(jì)算機(jī)科學(xué)系的兼職教授,教授深度強(qiáng)化學(xué)習(xí)等課程。同時(shí)也在 NASA 噴氣推進(jìn)實(shí)驗(yàn)室等多個(gè)頂尖研究機(jī)構(gòu)擔(dān)任過(guò)短期訪問(wèn)研究員。
同時(shí)他也在多個(gè)國(guó)際會(huì)議和期刊上發(fā)表了大量論文,涵蓋深度學(xué)習(xí)、機(jī)器人操作、交互感知等主題。其論文《Rt-1: Robotics transformer for real-world control at scale》在 2022 年引起廣泛關(guān)注。
值得一提的是,在談及自家機(jī)器人在疊衣服方面的表現(xiàn)時(shí),Karol 還強(qiáng)調(diào):對(duì)于機(jī)器人而言,折疊衣物是一項(xiàng)特別困難的任務(wù),因?yàn)樗枰獙?duì)物理世界有更深入的一般性智能,尤其是在處理那些會(huì)不斷變化形態(tài)和產(chǎn)生褶皺的柔軟物品時(shí)。
他還提到,現(xiàn)有的算法還不夠穩(wěn)定。就像人工智能聊天機(jī)器人有時(shí)會(huì)出現(xiàn)一些 " 人類怪癖 ",例如搖晃 T 恤和短褲,讓它們平整地鋪開。并且這些家庭服務(wù)機(jī)器人有時(shí)也會(huì)突然 " 崩潰 ",然后做出一些令人難以置信的行為:例如它們可能會(huì)把雞蛋塞進(jìn)已經(jīng)裝滿的紙箱,然后強(qiáng)行關(guān)閉紙箱,甚至還有一次,在整理物品時(shí),機(jī)器人突然將盒子從桌子上扔了下去 ...
其他聯(lián)合創(chuàng)始人包括加州大學(xué)伯克利分校的教授謝爾蓋 · 萊維寧(Sergey Levine),Sergey 發(fā)表了多篇具有影響力的論文,其中《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》和《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》是其代表作,分別被引用超過(guò) 13738 次和 9441 次。
聯(lián)合創(chuàng)始人切爾西 · 芬(Chelsea Finn),2019 年至今,Chelsea 擔(dān)任斯坦福大學(xué)的助理教授,并且享有 "William George and Ida Mary Hoover Faculty Fellow" 的稱號(hào),她在機(jī)器人學(xué)和人工智能領(lǐng)域的研究工作得到了認(rèn)可和尊重。值得一提的是,在加入斯坦福之前,她曾在 Google Brain 擔(dān)任研究科學(xué)家,專注于深度學(xué)習(xí)和機(jī)器人學(xué)習(xí)算法的開發(fā)。
聯(lián)合創(chuàng)始人 布萊恩 · 伊赫特(Brian Ichter)在斯坦福大學(xué)期間獲得了航空航天與航天工程的碩士以及博士學(xué)位,在攻讀博士學(xué)位期間,他作為研究助理參與了多個(gè)項(xiàng)目,開發(fā)了基于 GPU 的算法,用于運(yùn)動(dòng)規(guī)劃和不確定性感知。自 2018 年 11 月到 2024 年 3 月,Brian 擔(dān)任谷歌大腦的研究科學(xué)家,專注于開發(fā)高效的算法和機(jī)器學(xué)習(xí)方法,使機(jī)器人能夠在復(fù)雜的現(xiàn)實(shí)環(huán)境中進(jìn)行規(guī)劃和操作。
聯(lián)合創(chuàng)始人拉基 · 格魯姆(Lachy Groom),Lachy 于 2012 年加入 Stripe,成為該公司的第 30 名員工。在 Stripe 工作期間,他參與了多個(gè)關(guān)鍵項(xiàng)目,包括支付產(chǎn)品的開發(fā)和全球擴(kuò)展。最終擔(dān)任了 Stripe Issuing 的負(fù)責(zé)人,領(lǐng)導(dǎo)團(tuán)隊(duì)開發(fā)用于創(chuàng)建、分發(fā)和管理實(shí)體及虛擬卡片的平臺(tái)。在離開 Stripe 后,Lachy 積極參與天使投資,專注于早期階段的創(chuàng)業(yè)公司。他通過(guò)自己的投資基金(LGF)支持多個(gè)行業(yè),包括金融科技、氣候科技和消費(fèi)者互聯(lián)網(wǎng)等。
" 彌補(bǔ)遺憾 " ?OpenAI 跟投兩輪
2024 年 3 月,剛剛成立的 Physical Intelligence 籌集到了 7000 萬(wàn)美元的種子輪融資,這一輪由 Thrive Capital 領(lǐng)投,參與者還包括 Khosla Ventures、Lux Capital、OpenAI 和 Sequoia Capital。其中領(lǐng)投 Thrive Capital 是一家具有強(qiáng)大影響力的風(fēng)險(xiǎn)投資公司,通過(guò)其專注于互聯(lián)網(wǎng)和軟件領(lǐng)域的投資策略,為許多初創(chuàng)企業(yè)提供了資金支持與戰(zhàn)略指導(dǎo)。
2024 年 11 月,亞馬遜創(chuàng)始人貝索斯又領(lǐng)投了 4 億美元,至此,短短8 個(gè)月的時(shí)間,這家 AI 創(chuàng)企的估值已經(jīng)飆升至24 億美元。
值得一提的是,Physical Intelligence 的這兩輪融資中 OpenAI 都有跟投,可見(jiàn)其對(duì)這家初創(chuàng)公司寄予厚望,但作為行業(yè)領(lǐng)頭的 OpenAI 為什么不去去自己做機(jī)器人,而是轉(zhuǎn)為投資其他公司呢?
這也許是 OpenAI 的一些 " 遺憾 "。
2018 年 OpenAI 推出了 Dactyl,一個(gè)類人機(jī)械手,通過(guò)強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了對(duì)物理物體的靈巧操控。Dactyl 能夠在沒(méi)有特定編程的情況下,自主學(xué)習(xí)完成各種任務(wù)。
2019 年,OpenAI 展示了一款單手解魔方的機(jī)器人。這款機(jī)器人經(jīng)過(guò) 13000 小時(shí)的訓(xùn)練,能夠在一定干擾下高效地還原魔方。同年,OpenAI 發(fā)布了 Roboschool,這是一個(gè)用于模擬環(huán)境中控制機(jī)器人的開源軟件,旨在為研究者提供一個(gè)平臺(tái)來(lái)測(cè)試和開發(fā)強(qiáng)化學(xué)習(xí)算法。
但在兩年后,OpenAI 于 2021 年夏天宣布解散其機(jī)器人團(tuán)隊(duì)。
對(duì)于解散的原因,OpenAI 聯(lián)合創(chuàng)始人 Wojciech Zaremba 解釋說(shuō):機(jī)器人研究面臨的數(shù)據(jù)稀缺問(wèn)題使得研發(fā)受阻。相比之下,其他領(lǐng)域(如自然語(yǔ)言處理)能夠獲得更豐富的數(shù)據(jù),從而促進(jìn)更快的進(jìn)展。并且隨著 OpenAI 逐漸轉(zhuǎn)向商業(yè)化,其資源和精力更多地集中于大語(yǔ)言模型的開發(fā),而不是高成本的機(jī)器人研發(fā)。因此團(tuán)隊(duì)內(nèi)部出現(xiàn)了對(duì)公司方向的不滿和分歧,最終團(tuán)隊(duì)解散。
除此之外,一些分析人士指出,相比于機(jī)器人技術(shù),研究語(yǔ)言模型被認(rèn)為具有更高的投資回報(bào)率和更低的風(fēng)險(xiǎn),這使得 OpenAI 更傾向于將資源投入到語(yǔ)言模型上。
盡管解散了機(jī)器人團(tuán)隊(duì),OpenAI 并未完全放棄其在機(jī)器人領(lǐng)域的夢(mèng)想,近年來(lái),OpenAI 開始投資與其技術(shù)路線相符的初創(chuàng)公司,如人形機(jī)器人公司 Figure 和 1X Technologies,以及剛剛跟投的 Physical Intelligence。
具身智能大模型,還有更多
除了 Physical Intelligence,雷峰網(wǎng)總結(jié)國(guó)內(nèi)外還有很多專注于具身智能大模型領(lǐng)域的初創(chuàng)公司。
例如由卡內(nèi)基梅隆大學(xué)的兩位教授 Deepak Pathak 和 Abhinav Gupta 在 2023 年聯(lián)合創(chuàng)立的 Skild AI,其核心競(jìng)爭(zhēng)力在于其構(gòu)建的 " 可擴(kuò)展的機(jī)器人基礎(chǔ)模型 "。
這一模型采用了基于 Transformer 的自適應(yīng)架構(gòu),通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練,使其能夠適應(yīng)多種機(jī)器人形式和任務(wù)。與傳統(tǒng)機(jī)器人技術(shù)不同,Skild AI 不再局限于特定任務(wù)的數(shù)據(jù)收集,而是追求一種能夠泛化應(yīng)用于多種場(chǎng)景與任務(wù)的通用智能。
而它也在成立不到一年的時(shí)間內(nèi)便獲得了 3 億美元的 A 輪融資,估值迅速攀升至 15 億美元,吸引了包括杰夫 · 貝佐斯、軟銀集團(tuán)和紅杉資本等知名投資者的關(guān)注。
再例如由 Ivan Poupyrev 在在 2023 年創(chuàng)建的 Archetype AI,在種子輪融資中就籌集了 1300 萬(wàn)美元,主要投資者包括 Venrock、亞馬遜工業(yè)創(chuàng)新基金和日立風(fēng)險(xiǎn)投資等。
Archetype AI 的核心技術(shù)是其創(chuàng)新的物理 AI 模型 Newton,這是一個(gè)大行為模型(LBM),能夠捕捉人類難以察覺(jué)的復(fù)雜和快速變化的隱藏行為模式。Newton 模型融合了多模態(tài)傳感器數(shù)據(jù)和自然語(yǔ)言,實(shí)現(xiàn)了對(duì)物理世界的實(shí)時(shí)感知與推理。其核心技術(shù)能力包括時(shí)間序列理解、多模態(tài)輸出、實(shí)時(shí)描述和多模態(tài)摘要等,這些能力使得 Newton 可以廣泛應(yīng)用于安全、城市管理、工程和零售等領(lǐng)域
除此之外還有由 Brett Adcock 在 2022 年創(chuàng)辦的 Figure AI,這家在 2024 年完成了一輪 6750 萬(wàn)美元的融資,公司的估值達(dá)到了 26 億美元。主要投資者包括 NVIDIA、微軟、亞馬遜創(chuàng)始人杰夫 · 貝索斯的 Explore Investments 基金等。
其核心技術(shù)在于它端到端的神經(jīng)網(wǎng)絡(luò)框架,該框架能夠處理多模態(tài)數(shù)據(jù)并生成語(yǔ)言響應(yīng)和執(zhí)行策略,以及視覺(jué)到行動(dòng)的 Transformer 網(wǎng)絡(luò),它直接將視覺(jué)信息轉(zhuǎn)換為動(dòng)作指令。此外,F(xiàn)igure AI 還專注于解決雙足機(jī)器人的平衡與接觸問(wèn)題,這些技術(shù)的綜合應(yīng)用推動(dòng)了人形機(jī)器人技術(shù)的發(fā)展,使其能夠執(zhí)行復(fù)雜動(dòng)作,并在商業(yè)領(lǐng)域得到應(yīng)用。
不光是國(guó)外,而國(guó)內(nèi)也有不少涉足機(jī)器人行業(yè)的初創(chuàng)公司。
例如由前 Robotics Learning 研究員王潛與北大計(jì)算物理博士王昊于 2023 年 12 月聯(lián)合創(chuàng)建的自變量機(jī)器人,已經(jīng)完成 Pre-A 與 Pre-A+ 輪融資,總金額達(dá)到億元級(jí)。投資方包括德聯(lián)資本、基石資本、啟賦資本、南山戰(zhàn)新投,老股東九合創(chuàng)投持續(xù)加注。
其核心技術(shù)是 " 統(tǒng)一具身智能大模型 ",它通過(guò)端到端的完全縱向統(tǒng)一和任務(wù)泛化性,使得機(jī)器人能夠直接從原始輸入處理到最終動(dòng)作輸出,無(wú)需中間步驟,并能夠跨任務(wù)學(xué)習(xí)通用架構(gòu),從而實(shí)現(xiàn)更廣泛的應(yīng)用和更高的適應(yīng)性。
還有由前珞石機(jī)器人聯(lián)合創(chuàng)始人兼 CTO 韓峰濤與清華大學(xué)交叉信息學(xué)院助理教授高陽(yáng)于 2024 年 2 月聯(lián)合創(chuàng)建的千尋智能(Spirit AI),在成立后的短短幾個(gè)月內(nèi)完成了近 2 億元人民幣的種子輪和天使輪融資,主要由弘暉基金領(lǐng)投,其他投資者包括達(dá)晨創(chuàng)投、千乘資本、順為資本和綠洲資本等。
千尋智能的技術(shù)核心在于其全棧的具身智能數(shù)據(jù)利用能力,使其能夠高效地從多種數(shù)據(jù)源中學(xué)習(xí)并應(yīng)用到機(jī)器人技術(shù)中。團(tuán)隊(duì)還開發(fā)了 EfficientImitate 高性能模仿學(xué)習(xí)算法,大幅提升了模仿學(xué)習(xí)的效率和泛化能力。
此外,千尋智能的 EfficientZero 算法在強(qiáng)化學(xué)習(xí)領(lǐng)域也展現(xiàn)出高樣本效率。在硬件方面,千尋智能擁有強(qiáng)大的機(jī)器人運(yùn)動(dòng)控制系統(tǒng)和硬件開發(fā)能力,特別是在模型預(yù)測(cè)控制、仿生柔順控制、動(dòng)態(tài)環(huán)境操作等方面積累了深厚的經(jīng)驗(yàn)。
來(lái)源:雷鋒網(wǎng)