文丨鋅財經,作者丨陳伊婷,編輯丨大風
DeepMind 推出最新泛用型游戲 XLand,冷不丁丟出一個重磅炸彈。這意味著,在零樣本且不需要事先知道規則的情況下,就可以打造出一個全新的、堪比 AlphaGo 的人工智能。
一直以來,AI 強化學習苦于泛化能力差,只能針對單個任務來從頭開始學習。
5 年前,AlphaGo 打敗世界圍棋冠軍李世石,舉世驚呼。自 AlphaGo 之后,Deepmind 又推出能通學西洋棋、將棋、圍棋的 AlphaZero。
AlphaZero 非常強大,在三大棋領域中「打遍天下無敵手」。但問題在于,AlphaZero 若想能夠在不同游戲中「稱霸天下」,還得在每個游戲「從零訓練」后才能夠實現。
XLand 的出現則彌補了這個缺陷。如果說 AlphaZero 是「下棋的手」,那么 XLand 則創造出了「一個人」。
它的強大之處,在于它高度泛化的能力。簡單的說就是觸類旁通,好比人類學會用筷子夾米飯,就能學會用筷子夾菜。而 DeepMind 打造 XLand 的目的,則是為了讓自家通過強化學習訓練的 AI,能夠玩遍「全宇宙的游戲」。
這個世界的任務由游戲、世界、玩家構成。根據三要素的不同關系,來決定任務的復雜度。復雜度則由競爭性,平衡性,可選項,探索難度這 4 個維度評判。
從簡單到復雜的游戲,AI 智能體通過第一人稱視角去感知游戲中環境,并且不斷嘗試、碰撞游戲規則,從中累積龐大數據來訓練自己完成游戲目標。
簡單的比如「靠近紫色立方體」,復雜一點的比如「靠近紫色立方體或將黃色球體放在紅色地板上」。長此以往,AI 智能體從新手小白成長為屠龍勇士,吃雞、捉迷藏都難不倒它們。
基于此,一個由任務空間組成的、超大規模的「元宇宙」XLand 就誕生了,幾何地球只是其中的一個小角落。我們或許可以提出這樣一個設想,人類是外星人創造的 AI,而地球是外星人創造的 XLand。
經過 5 代訓練,AI 智能體在 XLand 的 4000 個獨立世界中玩大約 70 萬個獨立游戲,涉及 340 萬個獨立任務的結果,最后一代的每個智能體都經歷了 2000 億次訓練步驟。
目前,AI 智能體已經能夠順利參與幾乎每個評估任務,除了少數連人類也無法完成的任務。
從 AlphaGo 走到現在 XLand,DeepMind 展示了無監督式機器學習的高度潛力,也向世界證明未來訓練 AI 的成本跟門檻將會越來越低,直至普及全球。
未來的某一天,當 AI 也能夠在「元宇宙」中自己學習演化,賽博朋克的世界是否會真的到來?