AI 的游戲方式大大出乎研究人員的意料。
多年以前,當(dāng)我第一次見識到朋友們是如何在《超級馬里奧》中通過卡一個龜殼無限刷分,在《魂斗羅》中用一種奇怪的方式獲得額外生命的時候,拯救世界和公主就再也不是我想做的事了。
在我看來,游戲里發(fā)掘各種奇怪的 Bug 明顯比拯救公主更有趣。
▲ 在《惡魔城:月下》里研究各種各樣的出城 Bug 一直是我樂此不疲的一件事
但是現(xiàn)在,關(guān)于 「利用 Bug 快速完成游戲目標(biāo)」 這件事情上,AI 似乎比我還要擅長。
今年四月,曾經(jīng)開發(fā)出擊敗 Dota2 職業(yè)選手的 OpenAI 公司,舉辦了首屆針對 AI 的強化學(xué)習(xí)競賽。這個比賽的目標(biāo),旨在評估強化學(xué)習(xí)算法從以往經(jīng)驗中泛化的能力。這聽起來很拗口,具體地說,就是讓 AI 來玩單機游戲,而且玩的是 NES 平臺上的《刺猬索尼克》。
▲ 世嘉公司在多年前開發(fā)的初代索尼克游戲成了 AI 的實驗對象
每個參賽團隊需要讓自己研發(fā)的 AI 在不同的訓(xùn)練關(guān)卡上運行,通過短時間的機器學(xué)習(xí),讓 AI 掌握這款游戲的規(guī)則和操作方法,并在游戲設(shè)計師重新設(shè)計的地圖上迅速找到最優(yōu)的通關(guān)策略。
OpenAI 舉辦這次比賽的目的,是想驗證這樣一個觀點:強化學(xué)習(xí)的強泛化性是通往通用人工智能的關(guān)鍵路徑之一。舉個例子,如果你在《CS:GO》中是一個百發(fā)百中的神槍手,那么其他的 FPS 游戲你可能也會很輕松的上手。但如果你把一個針對《CS:GO》訓(xùn)練的 AI 直接扔到《守望先鋒》里,那么它估計會直接崩潰。
因此,參賽選手需要讓 AI 自己學(xué)習(xí)游戲的策略和技巧,以便在陌生的地圖上自己找到最優(yōu)的通關(guān)方法。
不過這一次,AI 們好像聰明過了頭。
在研究人員的調(diào)試下,AI 被告知要優(yōu)先獲得更高的分?jǐn)?shù)(一般通過擊殺敵人和拾取金環(huán)獲得),同時在僅可能短的時間內(nèi)到達(dá)終點。這樣的條件導(dǎo)致了一個奇怪但有趣的結(jié)果:AI 開始通過尋找游戲內(nèi)的 Bug 來更好的完成目標(biāo)。
就像上面演示的這樣,AI 控制的索尼克在游戲中找到了一些特殊的 「捷徑」 來讓自己更快的達(dá)成目標(biāo),這些捷徑都是通過類似于 「卡 Bug」 的方式實現(xiàn)的。
這樣的方式大大出乎研究人員的意料。最開始,研究人員希望 AI 能通過所提供的人類玩家數(shù)據(jù)來模仿人類的操作和行為,最終完成游戲目標(biāo)。
但通過機器學(xué)習(xí)的人工智能對游戲顯然有自己的一套理解,除了在游戲中尋找能讓自己快速通關(guān)的 Bug 以外,它們還會做許多在研究人員眼里匪夷所思的事情。
谷歌 Deepmind AI 項目的研究人員維多利亞 · 克拉科夫納就搜集了大量像索尼克這樣的例子。
比如在一個《海岸賽艇》的小游戲里,AI 操縱的船只沉迷于利用 Bug 不斷地撞擊獎勵目標(biāo)以達(dá)到更高的分?jǐn)?shù),順利到達(dá)終點這件事已經(jīng)不在它的計劃之內(nèi)了。
另一個研究人員試圖讓 AI 玩一款經(jīng)典的像素游戲《Q 伯特》,同樣,AI 在游戲里找到了一個無限刷分的嚴(yán)重 Bug 并在時間結(jié)束之前達(dá)到了最高分。不僅如此,當(dāng)它發(fā)現(xiàn)敵人會跟著 Q 伯特一起掉下懸崖后,AI 甚至采取了自殺的方式來獲得更高的分?jǐn)?shù)。
就連《俄羅斯方塊》這樣的游戲,AI 也能找到自己的另類玩法。由于每增加一個掉落的方塊都會使 AI 的評分略微升高,所以它采取了完全錯誤的游戲方式 ——盡可能快的落下每一個方塊并在快要 Game Over 時暫停游戲以確保自己不會輸。
好像聽上去還蠻智能的 ……
雖然在比賽的最后,使用特殊方法獲得勝利的 AI 并沒有得到研究人員的認(rèn)可,但他們還是表示:
「AI 展示了它如何在沒有人類介入的情況下贏得游戲勝利,出乎意料其富有創(chuàng)造性,可能會完全顛覆人類對游戲如何運行的理解。」
人工智能無意間找到了獲取游戲勝利更好的方法,雖然暴露了目前人類對于機器學(xué)習(xí)仍無法完全控制的的缺陷,但也顯露出了 AI 異于人類的創(chuàng)造性火花。正是這種創(chuàng)造性的潛力讓 Deepmind 投入大量的資金來讓人工智能學(xué)習(xí)像《星際爭霸 2》這樣復(fù)雜的競技游戲。
在 2017 年的暴雪嘉年華上,Deepmind 宣布將讓自己的 AI 嘗試《星際爭霸 2》這樣的游戲,雖然讓它和世界頂尖選手交戰(zhàn)還為時尚早,但在今年,暴雪表示它已經(jīng)可以應(yīng)對其他 AI 的前期速攻戰(zhàn)術(shù)。
在《星際爭霸》2 中,有人曾經(jīng)設(shè)計出一種名為 「悍馬 2000」 的腳本,雖然它能憑借操作以極少的兵力戰(zhàn)勝遠(yuǎn)多于自己部隊(比如 100 條狗沖破坦克陣),但這是在后臺讀取游戲內(nèi)部數(shù)據(jù)的結(jié)果,算是真正的作弊,而不是能夠自己學(xué)習(xí)和進化的 AI。
2 年前,AlphaGo 帶給人類關(guān)于圍棋的新理解,也許再過不久,AI 也能用全新的戰(zhàn)術(shù)體系來顛覆人類在星際爭霸上的統(tǒng)治。
當(dāng)然就算失敗了,當(dāng)一個專門找 Bug 的游戲測試員也是個不錯的選擇嘛。
【來源:愛范兒】