王小川再談AlphaGo:如果機器的目的是存活下去,就是在創造生命了觀點
注:當AlphaGo贏了李世石,在圍棋界和科技界引起巨大轟動效應,而在這場棋局開始之前,搜狗CEO王小川就在知乎上預測AlphaGo將完勝李世石,在比賽的過程中他也擔當嘉賓現場解說棋局,甚至任性地宣布,只要AlphaGo贏了,就放假一天,甚至將那天定為搜狗的“狗勝節”,這樣一個對人工智能和技術狂熱的CEO在3月24日博鰲論壇《人工智能——探索生命疆界》圓桌上跟我們進一步復盤了這場圍棋比賽,通俗易懂地揭示了AlphaGo的工作原理,并引申到大生命和哲學的高度……
“(沒能在深度學習上做起來)這是我覺得最近幾年最懊悔的一次”
梁冬(正安中醫創始人):前段時間有個很熱門的話題就是 AlphaGo 和李世石的對抗,很多人認為這是一場關乎機器和人類的對決。我們應該怎么看待這件事情?小川兄應該是中國最有資格對這件事情進行解讀和評價的人,我聽說前段時間小川兄在更早之前,其實就想在搜狗內部啟動一個類似于 AlphaGo 的一個研發,去做跟圍棋的博弈和對抗,當時怎么樣?
王小川:去年初,我們已經開始意識到了深度學習這樣一個技術有機會應用于下圍棋,所以我就希望在內部、外部找到適合的人一塊做這個事,但是很可惜,限于資源、精力沒有湊起來。但是我對圍棋非常感興趣,所以今年一月底谷歌的論文一登出來,我立刻說谷歌會完勝李世石,原因是看了論文之后,我發現里面的內容跟我們之前對于人工智能,對于深度學習理解的模式是非常一致的,所以一方面是自己本身有這樣一個信仰,然后一看谷歌已經走在前面了,我也相信它的技術實力,也就是 80% 是對技術的理解,20% 是對谷歌和人工智能情懷的認同,所以我們認為它們有能力做好這個事情。
梁冬:你發現另外一個高手做出來了,而且做得還很好,你不覺得這是一件人生的遺憾嗎?
王小川:這是我覺得最近幾年最懊悔的一次,所以再后來我做了很多彌補工作,所以在后期我深度參與進了這件事,包括對技術的解讀、參加現場直播等等,可能彌補了 10%,但還是有很大的遺憾。
梁冬:這幾年在全球中深度學習最新的方式是什么,為什么深度學習這幾年會突飛猛進,它和以前深藍戰勝國際象棋冠軍的那一種學習有什么不一樣,這種深度學習的模式是不是可以自生長,長到有一天完全失控?
王小川:這是一個挺技術化的問題。深藍是 IBM 當年推出的 RS6000 型號的像超級計算機一樣的機器,1997 年,在第二場比賽中把卡斯帕羅夫打敗了。但是深藍與今天谷歌的 AlphaGo 的計算力還差了三萬倍,時代變化,接近 20 年的時間里,計算力是突飛猛進的變化。但事實上,AlphaGo 并不簡單的只是贏在計算力的提升,否則就不會有圍棋選手一邊倒的認為人類一定能贏,即便是科技圈的人,對于深度學習有理解的人,大多數的評價也都認為機器以后會贏,但這次贏不了,所以在這里面到底發生了什么樣的事情呢?
自深藍之后,技術有了三次跨越,深藍的技術其實就是靠人寫的一些規則來指導機器做搜索,你下一步棋,我下一步棋,然后下了十幾二十步之后,它開始判定棋局上誰占優。機器搜索的方法其實是依靠人在里面做的很多的設定,“每一步該怎么走”這樣輸入到機器里面去,所以其實除了開局有棋局以外,大體上是暴力的搜索。我算過一次,大概搜索十三到十四層,每次展開三到四個頁為節點。
今天我們用一個臺式機,甚至一個筆記本就已經可以贏頂尖的國際象棋選手,計算力的提升已經使得象棋問題徹底被解決了,甚至能夠讓頂尖的國際選手一個兵,甚至兩個兵,然后再做開局也能贏。人類在國際象棋里面已經被碾壓了,只剩下一個底線——圍棋。圍棋沒法突破,因為國際象棋和圍棋在搜索空間的大小上有巨大的差距。國際象棋搜索空間其實不夠大,現在的筆記本就夠用了,而圍棋的變化數比宇宙間的原子總數還要多,所以如果只是用窮舉這種暴力方法是不可能的,用原來的搜索方法就不行了。
我們往下就開始向人去學習,把人的思考方法交給計算機,進行了三步變化,第一件事情就是我們把人已經懂得的規則交給機器,這是原來的方法。所以以前的工程師不管是做下棋還是做醫療的,或者寫電飯鍋控制程序的,都是把我們懂得的規則寫成一個代碼交給機器,或者把數據給它,然后人在里面做指引“什么數據要怎么處理”,來教會計算機對當前的真實物體建模型,把它變成一種特征,然后在里面去做一些分類算法之類的工作。人需要像教小孩一樣,把數據的特征描述出來,告訴機器求解的方法,這是傳統的機器學習教會機器的第一件事。
但很多時候,我們自己都不知道方法是什么。比如我們說梁冬,你看見他的時候知道他是梁冬,但是你要如何告訴別人你是怎么知道他就是梁冬的?這就難了,是眉毛粗還是臉方?所有的描述其實不支持通過建立模型把他識別出來,所以在有些問題里面發現我們人已經很難把方法告訴機器,甚至自己都沒有一個方法的理解。這件事困惑了我們非常久,即便到 2006 年之前,我們都很難應對這種說不清道不明的事,怎么辦呢?
2006 年出現了一篇論文:《深度學習》,它提倡使我們的計算機去仿照人的大腦皮層的工作——當人的視覺看到一個圖像之后,在大腦皮層從第一層里面變成刺激你的神經元,然后神經元把這個信號傳給下一層,然后它就很廣泛的連接。下一層如果一部分被點亮了它就往下傳遞,傳遞幾層之后就能做這樣的識別。神經元是有參數的,什么樣的刺激你有什么樣的反應,這是人識別的基本工作的原理。機器開始仿照人之后,我不用告訴機器這個方法,我的神經元模型里面只輸入梁冬的頭像,告訴他這個頭像叫梁冬,就有答案了。
在這之后,深度學習變成了一個方法,是不告訴機器方法,只告訴機器輸入條件和答案是什么,讓機器進行學習。代價是需要更多的數據,結果是人變得更加輕松了。我們的工程師對于醫療、對一些圖像、語音,原來這些領域里面沒有足夠多 knowhow 的地方,現在我們都敢于進去,只要告訴機器答案是什么,機器就可以自己去思考怎樣求解。
“谷歌把 KGS 的服務器上人類棋手六段以上對弈的 30 萬盤棋放在機器面前,就讓它去學習”
梁冬:我前幾天碰到過一個老和尚,我說什么叫“我執”?他說我執就是“堅定手段、變換目標”的人;“堅定”就是“堅定目標,變換手段”的人。所以我們要做的事情就是一個堅定的人,而不是一個“我執”的人。手段其實是基于道的,就是像水一樣,哪里有空間哪里流,總之我流到哪里都是可以的。
王小川:谷歌就是我不告訴你這個方法了,我也不知道方法是什么,像人下圍棋也是棋感,跟人臉識別一樣的。所以谷歌就把 KGS 的服務器上人類棋手六段以上對弈的 30 萬盤棋放在機器面前。在什么局勢下,人是怎么落子的,30 萬盤棋大概有接近三千萬棋局和答案,就讓它去學習,學習之后機器不僅把這 30 萬盤棋學會了,它自己這個過程里面會產生對類似問題的分析能力。所以棋局變了之后,它也能夠根據以前的經驗,它能夠去做判斷。不是記住這 30 萬盤棋,而是 30 萬盤棋有個泛化能力,一下子就變成了人下棋的方法。數據表明,給它一個棋局,它往下怎么走子的仿人能力達到了 57%,就是每一百個子下下去,其中 57 個子跟人的直覺的下法是一樣的,這件事情已經有巨大的突破了。這件事情做完之后,剩下 43% 跟人不一樣的,不代表它不好,所以它具備了很高的棋力。
根據評判,AlphaGo 已經達到了五六段的水平,學習了棋感的過程,以前教它靠搜索或者規則開始建立棋感。但這并不是谷歌能力能贏人的地方,畢竟 30 萬棋下去只是六段,它跟人的思考能力還是有距離。
然后谷歌覺得還不夠,就進入了第三個階段。谷歌就把 AlphaGo 變成了神經分裂的兩臺機器,按照剛才人下棋的方法,它自己可以做少量隨機的變換去下,就像金庸小說里的老頑童“左右互博”,有可能這局贏了,那局輸了,就是自己跟自己打,然后讓機器倒著去推,這步棋怎么沒走好?
這個階段的做法,不是給答案,也不是給方法,只是在最終告訴它在目標上是更接近還是更遠了。贏了,讓它倒著推,輸了,自己回去算怎么輸掉的。
這也像是我們跟人互相之間的學習,比如小孩子被燙了,不是我告訴他不要碰,而是他自己感到痛苦,知道以后不能碰——這種學習我們叫做鞏固學習或者增強學習,既不給方法也不給你答案,而是只是讓機器自己找到答案之后,我去評價你這個答案是讓你更好了還是更差了。這個時候機器就追逐贏的目標,而不是追求每一步棋怎么走。我認為這是跟人學習一樣的,給你方法、給你答案,還是最終只是評價你。
但我們覺得機器在贏棋這件事情上,AlphaGo 是非常局限的,它的勝利有兩個條件:第一個,只是下棋贏,贏棋是唯一的目標;第二個,它只能在 19×19 的棋盤上,我們如果把棋盤從 19×19 變成 20×20,機器就傻了,因為它的環境發生變化,如果是人下棋,變換棋盤其實對水平影響不大。
另外,人還有種能力,能夠把學到的經驗轉移到其他事情上去。我們知道圍棋選手思維會很縝密,下棋會教會他做一種利益交換,下棋不是光把別人打掉,他是在想到底走先手還是走后手,局勢里面互相之間能夠得到一種平衡。人的思考會把一個經驗轉移到其他領域里面去,他有這樣的變化,而今天的機器還遠不到,所以你叫它有意識有智能,它只是在一個局限的環境里下棋的一個機器。
“如果機器的目的不是贏棋或者輸棋,而是能夠存活下去,我覺得它們就在創造生命了”
梁冬:現在很多人都在討論 AlphaGo 會下棋之后,它會不會去學習別的東西,因為會下棋只是樂趣,但如果它深度學習的能力到另外的領域,比如說醫療、律師,會不會影響我們?這些學習的方法一旦被打開,會不會像潘多拉的盒子?
王小川:你剛剛題目叫轉移學習,就是把一個領域學習的知識運用到其他領域去,這是 DeepMind 在做的一件事情。這個團隊是英國的,谷歌大概花了 4 億英鎊全資做的收購,當時 20 人,現在 200 多人了。我們剛剛看到這個機器通過用監督學習,把人類歷史的 30 萬盤棋先學會了,然后再自己跟自己下去超越人,通過這樣一個路徑,把人類四千年來的經驗提升,然后再去超越、進化。
這個時候,谷歌還干了另外一件事情,它想——我如果不要去學習人之前下棋的方法,或者下棋的答案,我就讓這個機器自己跟自己下,一開始可能很傻,這兩個機器隨機落子,但是最后也能有輸贏,讓它從一個白癡去進化,是否它最后也能變成一個下棋的高手?現在已經在做這件事情了。這時候這樣的一臺機器,以下棋為目標的時候,它已經脫離了人之前的經驗,有可能會進化出來一臺跟人走棋風格完全不同的機器。
如果未來谷歌能夠把這個計劃做成,宣布跟柯潔再打一仗,那人類壓力就更大了,他面對的不是有人類經驗的棋手,而是完全進化出來的一個棋手,它的目的不只是贏棋了,而是好奇當智慧和經驗從零開始進化的時候,是否只有人類這一條道路。
從這個延伸下去我們再想另外一個問題,如果機器的目的不是贏棋或者輸棋,它的目的是這個機器能夠存活下去,甚至能夠產生自己的繁衍,把這個當成目標,不只停留在 19×19 的棋盤上,而是變成你要生存的地球,或者一個實驗室里面,我覺得它們就在創造生命了。生命的本質無外乎在這幾千萬年里面自己存在下去,所以人開始進化,發展出兩條腿兩條手,發展出眼睛鼻子,開始有智力,甚至有了情感,有了社會的道德。
梁冬:你剛才帶出了很有趣的觀點,你認為廣義上的機器會衍生出自己的情緒、意志,甚至好惡?
王小川:有可能,現在國外科學家在做這樣的試驗,所以從 AlphaGo 里面,我們看到的不只是一個會下棋的機器,不只是看到一個智能這個詞,而是看到怎樣推動一種進化,而這種進化有目標。我一旦設立了目標、設立了環境,如果我有合適的算法,我最后在這個環境或者目標下,就能培養出來一種能生存的能力。AlphaGo 是贏棋的能力。但如果它是生存的能力,它就變成一種我們認為生命,生命其實就是生存和繁衍,所以在 AlphaGo 的道路上,我們在國內只關心機器打敗人,但是確實在技術里面它們做得更遠。
“我在《復雜性》這本書里面找到了到迄今為止對生命解釋最好的定義”
梁冬:你剛才提到“生命”,一直以來人類有一種驕傲,認為我們始終是一個獨特的 something,我們是有生命的,它們是沒有生命的。站在你的角度來看,什么是生命?人工智能是否會演化出它自己的生命?
王小川:這是很大的問題,我已經想了十五六年了,然后也有自己的一些答案。我先講一個我讀研究生時候的事,我當時的工作是搞計算機和生物信息,就搞基因的,所以我的畢業論文做的是基因測序。那會兒我就開始理解到,發現基因的一個變化,從 DNA 變成人的過程,是一個機器復雜的過程。我們說蘋果落地是特別簡單的一件事情,或者說公司倒閉,所有的現象里都能預測它的未來怎么變。但是基因核心是能夠把自己變成一個蛋白質,DNA 上有很多基因,變成蛋白質,蛋白質后面就變成你身體的一個組成部分,或者是一種催化劑,稱為有機催化,它比無機催化速度會快一萬倍,大家還記得嗎?這是中學里講的知識。
我們知道,人的身體處在無時不刻的變化之中,這種變化我們是否通過計算得出結果:給你一個 DNA,然后計算這個 DNA 最后長成什么樣的生命?我就好奇這個問題,無論以我十幾年前的技術,或者今天的技術,一樣是不可解的,甚至 AlphaGo 的能力也做不到。我們其實給了你 DNA 之后,很難去預測它未來長成什么的樣子。我們聽過蝴蝶效應,蝴蝶效應就是指在一個混沌的復雜的系統里面,一點微弱的變化,誤差就開始產生積累,最后就完全不一樣了,就是這種情況。
但是這種情況下,我認為在基因里面也應該有蝴蝶效應,原始點出現變化,最后結果就會不一樣。每天上億次的變化,我覺得不可思議的是,我們今天覺得特別自然一件事情,但是我們用計算機的變化去模擬的時候,計算力是完全無法支撐的。我們通常認為只要一點變化,人最后就長“沒”了。就好像做“天氣預報”,我們今天能預測大概兩天,還比較準,預測七天就很難了,預測十天基本不可能。
這種情況下我們要用多少數據?第一個,我們要把整個地球的數據都采集到。第二個,計算力極大,我們要把空間分成小格子,每個小格子里有溫度、濕度、氣壓,用微分方程做迭代,預測后續的變化,即便這種計算下,我們也只能計算幾天后的情況,不會太久的,但是你要知道,人類體內的基因變化或者帶來人體的化學反應,可能比地球的大氣還要復雜,而且這種基因驅動我們不止七天后的穩定性,它甚至注定你六十年后你會長成什么樣子。所以這樣一種力量讓我產生了想去理解這種現象和變化的想法。生命其實蠻奇跡的,它能夠繞過世間很多的不確定性,所以我開始相信宇宙里有很多事物,是能夠去對抗環境的變化的。
你看到 DNA 的時候,不用管周圍環境、家庭、國家,就能明確知道能長成什么樣的結果,一個局部的因在很長的時間里面帶來一個確定性的結果,這是我當時對生命特別好奇的地方。科學是什么?它有個定義——是我們用來解釋過去或者我們用來預測未來。
在我們人類所謂的智慧里面,核心的一個工作就是能了解過去的原因,對未來能產生預見。以蝴蝶效應看,我們其實很悲觀,我們世間萬物有太多的不確定性,但是以生命的視角看,很多事情冥冥之中就會走到那個結果里去。未來如果它變成一個能確定事情的時候,我才有研究的基礎,所以我就開始在想,宇宙中間到底什么事情時候是能夠被確定的?
先回到這個問題,最先變成一種不是偶然現象,變成一種必然,甚至越來越確定,確定的概率變高。“確定”如果換成專業詞的話就叫“有序”,有序是跟混亂和無序相是對應的。有序和無序,物理學里叫熵。定義熵之后,我們有一個很悲觀的想法,叫熱力學第二定律,講到封閉系統,熵值是單增的,也就是說一個封閉系統一定會走向無序的。但是事實上我們今天看到的還好,我們這個系統是開放的,它是不斷有能量的注入,甚至有物質的交換,不是一個封閉系統,就能開始產生有序,而且有些有序的系統或者子系統,它還能影響周邊,讓自己的有序變得更多,這種現象我們怎么定義?
后來我看一本叫做《復雜性》的書,這本書是諾貝爾物理學家、生物學家、經濟學家一起寫的。我在這里面我找到了到迄今為止對生命解釋最好的定義,用了兩句話——第一句話是叫做“性狀相對穩定”,它是四條腿不會突然變成六條腿,如果我砍了你一下,你可能流了血,但是你會開始愈合,就是你要在環境面前讓自己回到原來的狀態里,回到原來有序的確定性里面;第二句話叫做“能夠自我復制”,就是能把自己的這種狀態,這樣一種確定性變得更多——滿足這兩條叫做生命,到目前為止,我認為這樣定義是不錯的。
梁冬:這是個蠻燒腦的話題,這么說,一個組織是有生命的,因為我們會發現很多公司有自我排異性,不適應這個組織文化的人就會離開,當這個公司出現問題出現危機的時候,這個公司有一種冥冥的力量,能把這些人團結起來讓公司繼續發展。當我們用有序性這個邏輯來重新衡量對生命看法的時候,我們發現生命不僅僅是在動物或植物身上,而是擴展到更寬泛的地方,如果這樣的話,就會得出一個特別有趣的結論——當人工智能開始意識到他需要自己建模,自己有序化所有行為的時候,它就開始演化出它的生命力了。
王小川:如果一個機器能夠讓自己存在,而且讓自己產生復制,那就開始進入到生命的領地了。生命的本質我們看上去是奇跡,但是在宇宙里面是很廣泛的,在地球上任何角落都有生物,即使在特別寒冷的地方也能夠繁衍。
生命怎么產生的?有一個諾貝爾化學獎的人,他提出了好善結構理論,核心講的就是在無序中間怎么能夠產生有序,他甚至用數學方程式去證明這件事情。他認為滿足三個條件:
這是個開放系統,它需要跟外界做物質和能量的交換;
這個系統本身里面的反應是非線性的,它的變化是能被放大和積累的;
這個系統當前是不平衡的。
只要滿足這三條,在無序當中就能夠產生有序,這個事情成為二十世紀最后一個重大的一個哲學思想,無序和有序其實代表了無機和有機兩個世界,以前我們認為無機跟有機世界是隔離開來的,但是他在理論上證明了在無序的世界里面是能夠變得有序的。
梁冬:無機物可以變成有機物?
王小川:可以做這種轉換的,這就打破了我們很多固有的思想。在數學層面,在科學層面,它已經有一些對應的解答,從無到有的過程是自然的一個過程。
梁冬:《裸猿》是 1960 年代特別有意思的一本書,這個作者說,如果你真正的研究了人類這種靈長類動物變化的過程的話,你就會不得不承認,它只不過是眾多動物當中的一個,沒有你想想的那么了不起。在你的視角里面,你也認為人類似乎沒有我們想象的那么與眾不同。
王小川:沒錯,這件事情是我在研究生時期的一個重大的思想轉變。生命是能夠性狀相對穩定,就是有序,還能自我復制,那么你體內的細胞是什么?體內每個細胞也是相對穩定性狀的,它有細胞膜,有線粒體,有細胞核,細胞進行分裂,我們身體的 DNA 是什么,雙螺旋結構,這個雙螺旋結構有非常清晰的有序性和性狀穩定,然后在適當的酶的刺激下會產生 PCR 的過程,會變成兩條 DNA,然后把其他的核糖核酸放上去產生復制。這太可怕了,我體內的細胞或者我的 DNA 也是一種生命!要去接受這樣一個現實,那么就改定義,定義改來改去改不出來一個恰當的描述。
往上走,一個公司其實有它自己穩定的性狀,而且很多公司也很相象,公司也要維持自己的穩定,如果這個市場發現收入減少了,那這公司就一定會說我去另外開拓一個市場活下去,就像人,今天沒有面包那就吃饅頭。在這種情況下,我就更沒有讓自己特別自大的理由,不斷想,我就是在大環境中的一部分。
所以在這樣一種思想里面,我們會打破很多的執念。我們其實很痛苦的,像早年間我們開始有了哥白尼,他發現了地球不是宇宙中心,已經引起了一次恐慌,大家知道我們人的存在意義變小了,但大航海時代到來了。這次 AlphaGo 里面,我發現最受打擊的一個群體是圍棋專業選手,我第一場比賽的時候是跟余斌總教練在一塊,最后他整個人處于一種精神恍惚的狀態,他作為棋手自己的尊嚴和自己的一種使命感,這種恐慌對于我們每個人可能都會有一些。
“邊界越大,你輸出的解答越開放,沒有固定的答案,那會更難被取代”
梁冬:這個話題最后要討論的一個問題,再過五年十年,以你的預測,你認為什么樣的人是有價值?如果你有一個孩子,應該如何培養,讓他在十五年以后還有價值?
王小川:這個時候我們就回到機器學習的本質,雖然它很多事情做不到,比如語言機器沒有掌握,在有限時間里機器做翻譯是蠻困難的,因為它沒有概念沒有推理,但是拉回來我們怎么來思考這個問題,機器能干什么?
以現在的方式,機器是有兩個限制條件的,第一個限制條件是它的工作環境是相對封閉的,只是在棋盤上或者它輸入的信息是有限制的,所以如果我們干的活,我們處的環境讓我們做決策做解答的時候,我們輸入信息是一些固定限制的信息,比如做審計師,如果你看的都是財務報表,你輸入的數據都是在一個封閉的環境里面的數據,然后你的答案都是標準化有解答的,這種崗位就最有可能被機器取代,答案越標準,而你所要應對的問題越是這種單一,越集中在一個有限的數據驅動你做事情,這種崗位就更有可能被機器干掉,一旦機器干的話就比人干得好。比如司機,司機其實面對的環境數據是有限的,無外乎你就看看窗戶外面的數據,你的最終目的就是別撞了,把車開到目的地。環境越簡單,你最后的動作越標準,這樣的工作崗位最容易被取代。
你可能要了解整個世界,整個人文,了解所有發生過的事,探索更大邊界,不僅你們村的事,美國的事情中國的事情你都知道,邊界越大,你輸出的解答越開放,沒有固定的答案,那會更難被取代。
1.砍柴網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為砍柴網或將追究責任;3.作者投稿可能會經砍柴網編輯修改或補充。