人工智能:這么近,那么遠(yuǎn)觀點
今天要還原的現(xiàn)場是剛剛在杭州舉辦的 “2016「IDG VIEW」大會”。人工智能、消費升級、泛娛樂是 IDG 資本今年看好的 TMT 行業(yè)三大方向。以下內(nèi)容來自大會人工智能圓桌討論——人工智能,這么近,那么遠(yuǎn)。本文首發(fā)于 IDG 資本微信號(idg_capital),更多「IDG VIEW」內(nèi)容請關(guān)注此號。
圓桌主持:IDG 資本合伙人 李驍軍
圓桌嘉賓:Rokid CEO Dan;SenseTime 聯(lián)合創(chuàng)始人 徐冰;浙江大學(xué) CAD 實驗室 教授 張宏鑫
Part 1 圓桌熱身
李驍軍:
?各位先介紹一下自己和公司吧?
徐冰:
我是 SenseTime 的徐冰,我們專注于深度學(xué)習(xí),是一家非常嚴(yán)肅的技術(shù)型驅(qū)動企業(yè),團(tuán)隊里 50 多位同事都是有博士學(xué)歷的,因此很多人說我們像一個大型的研究院。
深度學(xué)習(xí)是驅(qū)動人工智能產(chǎn)業(yè)里現(xiàn)象級產(chǎn)品爆發(fā)的核心引擎,包括 AlphaGo 打敗圍棋世界冠軍,還有比較火的人臉識別、圖像分類、語音識別,機(jī)器能力超過人類,本質(zhì)和的驅(qū)動引擎都是深度學(xué)習(xí)。這項技術(shù)需要大量的博士投入研發(fā),以保持在中國市場與世界同量級團(tuán)隊的技術(shù)領(lǐng)先性。所以我們是聚集了華人當(dāng)中最優(yōu)秀的一批研究深度學(xué)習(xí)的科學(xué)家,一起實現(xiàn)技術(shù)上的突破。
這項技術(shù)如何落地呢?一是跟各個大型行業(yè)的領(lǐng)軍企業(yè)合作,以 B2B2C 的模式升級他們的產(chǎn)品;二是通過資本運作,通過投資并購,技術(shù)入股一些企業(yè),或是收購初創(chuàng)型公司,與各個行業(yè)巨頭成立合資公司。
張宏鑫:
大家好,我來自浙江大學(xué) CAD 實驗室,主要注重于圖形學(xué)和計算機(jī)視覺、人工智能領(lǐng)域的交叉。我所在的組主要研究的重點在于如何把大規(guī)模城市里的各種數(shù)據(jù)進(jìn)行宏微觀的可視化分析。
Dan:
我是 Rokid 的 CEO Dan,剛剛各位看到的開場主持人就是我們的產(chǎn)品,是一個全新定義的家庭機(jī)器人。用戶可以很簡單地進(jìn)行控制,不僅是設(shè)備本身,比如燈光效果、音樂效果,讓家里有一個舒服的氛圍;而且,它是聯(lián)網(wǎng)的智能產(chǎn)品,你有什么問題可以直接問它,不需要打開手機(jī)。另外還有很多內(nèi)容方面的服務(wù),比如附近有什么餐館,比如學(xué)習(xí)英文等。
機(jī)器人這個領(lǐng)域發(fā)展了很多年,但很長時間里,機(jī)器人和人工智能并沒有進(jìn)入到家庭場景。有很多工業(yè)化機(jī)器人做得相當(dāng)好,我們用到的很多產(chǎn)品其實就是機(jī)器人做出來的。但當(dāng)我們把人工智能帶進(jìn)人們家中,這就是一個全新的探索。
為什么這么說?因為這不是純技術(shù)問題,當(dāng)然需要的技術(shù)是很深的,包括語音識別、圖像識別等。更關(guān)鍵的是,當(dāng)你把產(chǎn)品放在家里,對它要求會很高。家里有愛人、小孩,你會特別在意產(chǎn)品放在家里給你帶來的體驗。它不純粹是只有功能的設(shè)備,一定要有溫度、有個性。
為此,我們用大量時間在很多細(xì)節(jié)上花了心思,尤其是在非技術(shù)層面,產(chǎn)品的設(shè)計完全沒有直線,我們希望它更有生命感,更有溫度。從材質(zhì)到質(zhì)感,各個方面將是整個產(chǎn)品的融合體驗。所以我們是非常專注在用戶體驗的一家公司。
李驍軍:
?我好奇的是,Rokid 機(jī)器人有性別嗎?還是根據(jù)每個人的需求可以變成男的或是女的?
Dan:
若琪(Rokid)現(xiàn)在是一個女孩子,以后可以根據(jù)你的要求、喜好,包括家庭環(huán)境去自己定義。比如聲音或者是個性,都有拓展的空間。我們內(nèi)部討論很多的一個問題是,到底是什么產(chǎn)品?我們一直認(rèn)為Rokid 不是一個機(jī)器人,而是適合家庭的一個人工智能全新品類。
Part 2 人工智能的多年以后
李驍軍:
?人工智能、深度學(xué)習(xí)的熱度已經(jīng)很高,有哪些是今天的技術(shù)可以做到的,哪些是未來 5-10年 可以做到的,或者是根本不可能做到的?
徐冰:
深度學(xué)習(xí)這個方向有了極大的發(fā)展。所以 2014年、2015年 出現(xiàn)了幾個現(xiàn)象級產(chǎn)品。深度學(xué)習(xí)實際上是在模仿人的大腦,用數(shù)學(xué)模擬人腦結(jié)構(gòu)。人腦有接近 3000 億量級的神經(jīng)元,沒有任何的計算機(jī)設(shè)備存儲和數(shù)據(jù)處理能力可以到達(dá)這樣的量級,現(xiàn)在可以落地的技術(shù)以及 10年 內(nèi)可以落地的技術(shù),主要局限是在硬件層面和計算機(jī)的計算速度,數(shù)據(jù)正在多個維度不斷往上走。
哪些是真正看到已經(jīng)落地的呢?我們拿機(jī)器、算法去模擬人腦的時候,并不需要模擬整個大腦出來,往往是去逼近某一項的特有功能,比如說人臉識別、語音識別、圖像分類和理解等。比如下圍棋這種單項任務(wù),通過機(jī)器分析大量圍棋棋譜以后,在圍棋這類非常復(fù)雜,需要戰(zhàn)略思維,甚至需要有人的直覺的高智商游戲上,機(jī)器都能夠擊敗人。所以當(dāng)前,在單項應(yīng)用上,技術(shù)可以做到非常好,并且有超過人的能力。
在中國,如何去落地這個東西呢?中國勞動力豐盛,因此雖然深度學(xué)習(xí)很強(qiáng),機(jī)器學(xué)習(xí)算法好,但是只要一個技術(shù)沒有超過人,很多行業(yè)還是傾向于利用中國的人口紅利。拿文字識別來說,現(xiàn)在快遞單、銀行單據(jù)基本是人手輸入到計算機(jī),為什么不是計算機(jī)自己認(rèn)識文字進(jìn)行結(jié)構(gòu)化管理?還是機(jī)器識別的準(zhǔn)確率不如人眼,但是一旦到了這樣一個臨界點,就是技術(shù)落地的關(guān)口。這個時候很多技術(shù)超過人,取代人口紅利,進(jìn)行勞動力解放的事情就變成現(xiàn)實了。目前隨著人口紅利不斷下降,國內(nèi)老齡化問題出現(xiàn)的時候,在成熟的單項技術(shù)上的需求會越來越多。
張宏鑫:
人工智能、深度學(xué)習(xí)目前達(dá)到的狀態(tài),我們稱之為 “感知”。我們看到一個圖像,聽到一段聲音,機(jī)器能告訴你這是什么;但是人在做什么樣的行為,講的這句話到底是什么意思,這是 “認(rèn)知” 層面的。實際情況更為復(fù)雜,比如說視覺,在正常情況下,光照充足的時候識別率特別高,但是陰暗角落有很多就失效了。所以在提高可用性方面還可以做很多事。
還有一個問題很有意思,以前研究都是各歸各的,視覺做視覺的,聽覺做聽覺的。但是人在和世界進(jìn)行交流的時候,其實是五種感知在一起。所以如果把各種因素疊加融合來做識別,可能出現(xiàn)新東西,新產(chǎn)品。
我剛剛提到了 “認(rèn)知” 層面,斯坦福大學(xué)的李菲菲教授,最近他們在搜集更大的數(shù)據(jù)庫,里面有將近 10 萬圖像。但除了 10 萬張圖像以外。他們做了大量的語義標(biāo)注,想知道圖像和語義之間的關(guān)聯(lián)是什么。可以想象,一旦把這個事情推動起來,在工業(yè)界也會看到類似的應(yīng)用。這是從簡單的感知 “是什么”,到認(rèn)知背后語義的事情。這個在 5-10年 以后會有突破。
再想遠(yuǎn)一點,人工智能現(xiàn)在大多應(yīng)用還是在生活當(dāng)中,以后人工智能可以和人一起合作太空探索。這些探索任務(wù)人是不可及的,可能有危險性、可能時間很長,這個部分很適合機(jī)器去做,甚至機(jī)器和人協(xié)同來完成,這是遠(yuǎn)期可以干的事情。
做了很多研究以后,我經(jīng)常和心理學(xué)老師聊天。有一次老師問了一個問題,把我問住了。他說你研究這么多,知道什么是意識嗎?一臺機(jī)器有沒有意識?一輛車有沒有意識?我說這個我回答不了。“意識” 到底是什么,這個不好研究。即使過 20年、30年,當(dāng)中還是有很多需要探索的。
Dan:
一談到人工智能或者機(jī)器人的想象空間,夢想是極大的。很多人認(rèn)為以后的機(jī)器人、人工智能應(yīng)該能夠自由交談,甚至讓人察覺不出。很多人希望人工智能能夠懂我,感知我的情緒。很多大學(xué)、公司在做這方面的嘗試,但是難度很高。其實你想,這即使對于人來說也很難。有的時候我也看不懂人家的情緒,我常常被我愛人抱怨說,我生氣你都看不出來。所以像這些事情,我覺得還是蠻遠(yuǎn)的。
Part 3 人工智能可怕嗎?
李驍軍:
?我們剛才都是從技術(shù)、產(chǎn)品、科學(xué)這些角度去看,有沒有思考過人文和社會方面?比如人工智能可能存在的風(fēng)險?發(fā)展到一定程度上,人類沒有事情干了,接下去干嘛?如果人跟機(jī)器發(fā)生糾紛,是不是要上法庭?長遠(yuǎn)來看,人工智能對人類社會產(chǎn)生的影響或者風(fēng)險在哪里?
徐冰:
這是一個非常有挑戰(zhàn)性的問題。但這件事情也是顯而易見的,當(dāng)人工智能發(fā)展到遠(yuǎn)期的時候,我們必然面對這樣的問題。
確實當(dāng)前的人工智能和前幾年有極大的不同。之前人工智能基本是我們設(shè)定一個程序,讓它按照程序重復(fù)性地做,一定程度上取代人。但是在 2012年,谷歌做了一個著名的 “認(rèn)貓臉” 實驗:拿著他們一套超級計算機(jī)處理大量的視頻圖片,然后機(jī)器聰明地 “領(lǐng)悟” 了什么是 “貓”。相當(dāng)于人類并沒有給機(jī)器指定目標(biāo),但是通過大量的數(shù)據(jù)訓(xùn)練,機(jī)器自動得出了這個結(jié)論,并且在其他沒有看過的視頻里能夠找到 “貓” 在哪里。因此,當(dāng)機(jī)器可以自適應(yīng)地進(jìn)行學(xué)習(xí)、迭代,并且開始處理一些復(fù)雜問題的時候,就會引發(fā)人類的恐慌。
張宏鑫:
最近看到報道,已經(jīng)有方法可以把人的部分記憶給錄下來了,以后是不是可以把 “你” 直接弄到一個設(shè)備上去?既然可以錄下來,能不能傳輸給別人?是不是可以轉(zhuǎn)移到別的容器?也許是機(jī)器人,也許是人。這里存在極大的倫理問題。萬一以后機(jī)器整天和人在一起,時間長了后產(chǎn)生感情,如何進(jìn)行管理?這個算是公司的資產(chǎn),還是個人的隱私信息?
另一方面是安全性的威脅。現(xiàn)在越來越多東西會通過物聯(lián)網(wǎng)、通過傳感器連成一體。最近我們調(diào)研發(fā)現(xiàn),那些安全性極差,經(jīng)常采用一些私有協(xié)議的,黑客的攻擊性極強(qiáng),稍微一下就攻破了。智能設(shè)備本身能力很強(qiáng),但安全方面要立法,現(xiàn)在包括政府已經(jīng)在想把監(jiān)控連在一起,它的背后是一個大的云處理平臺,再往下走,可能變成城市級別的 “大腦”。如果不經(jīng)過監(jiān)控、管理,很可能變成一個系統(tǒng),對人的自由就構(gòu)成了威脅。我看到一些公司缺少對這樣的數(shù)據(jù)、技術(shù)的敬畏,沒有顧慮太多就直接做這個事情。
Dan:
我常常發(fā)現(xiàn)談人工智能,慢慢就變成了哲學(xué)性的討論。當(dāng)然這個也對,到了哲學(xué)問題后,整個高度就不一樣了。我相信人工智能一定會到我們身邊,當(dāng)發(fā)生的時候,對于方方面面都會有很大的改變。同時,我也相信人類社會要跟得上,比如新的法律、道德問題,新的對與錯,但這是必經(jīng)之路。
Part 4 中國跟 AlphaGo 差多遠(yuǎn)?
李驍軍:
?剛才張教授提到 “意識”,我之前看過一篇文章,說到狗怎么認(rèn)出來對面是一條狗。還有人說,美國年輕人都在研究怎么把人送到火星上,或者怎么改變?nèi)祟悾覀兌荚谟懻撏赓u,怎么補(bǔ)貼用戶。那么在人工智能上,我們和國外有什么差距?
徐冰:
這也是我們在考慮的問題。谷歌有機(jī)器人,有無人駕駛汽車,還去收購人工智能團(tuán)隊、訓(xùn)練 AlphaGo 下圍棋等,對比國內(nèi)巨頭來看,我們討論的都是外賣,這就是意識觀的差距。
技術(shù)角度來看,中國的企業(yè)里很少有顛覆性的技術(shù)出來,但是其實在全世界范圍,做到技術(shù)突破的團(tuán)隊里基本都有中國人的身影,說明智商層面,中國人是不落后于世界的,甚至很多時候是領(lǐng)先于世界平均水平的。所以更多是我們?nèi)绾伟褔鴥?nèi),把非本土做技術(shù)突破的中國人聚集起來,把這些技術(shù)上的突破盡快地落地到中國。
其實中國相比于國外有兩個明顯優(yōu)勢:
第一,中國人口非常多,這使我們在國內(nèi)擁有的數(shù)據(jù)量非常龐大。比如我們做人臉識別單項技術(shù)訓(xùn)練的時候,用的是 7000 萬人的照片。我們有這么大的照片數(shù)量,用一個領(lǐng)先的引擎,設(shè)計一個領(lǐng)先的腦子,再加上大數(shù)據(jù)、加上超算能力,到最后在技術(shù)上甚至是領(lǐng)先國外的。事實上,包括蘋果、三星這類公司,都在向我們采購相關(guān)技術(shù)。
第二,中國有非常強(qiáng)的意識。在制度、政府層面做一些改變,想在智能時代彎道超車,驅(qū)動行業(yè)使用新技術(shù)的意向非常強(qiáng)。一個例子是互聯(lián)網(wǎng)金融,這也是中國比較獨特的現(xiàn)象。上千家的互聯(lián)網(wǎng)金融公司出現(xiàn),普惠金融,大家在手機(jī)端、在網(wǎng)上可以享受金融服務(wù),這樣的現(xiàn)象在國外看到并不那么明顯。比如在日本等發(fā)達(dá)國家,并沒有非常強(qiáng)的推動互聯(lián)網(wǎng)金融往前走的意識,因為基礎(chǔ)設(shè)施方面,人們?nèi)ャy行辦業(yè)務(wù)已經(jīng)非常方便了。所以這反而也是改造的優(yōu)勢。
以上兩個優(yōu)勢結(jié)合,再加上技術(shù)上的不落后性,至少能夠和國外頂尖團(tuán)隊打成平手。我們實際上有非常大的機(jī)會在這個時代做一些改變。
張宏鑫:
我是比較悲觀的,我覺得國內(nèi)的技術(shù)和國外技術(shù)、特別是和谷歌比,在整體實力對比上至少有 5-10年 的差距。有兩個方面:
第一,國內(nèi)研究者我接觸很多,他們在一個點上做的非常好,但是缺乏長期目標(biāo)或者說哲學(xué)上的思考。哲學(xué)層面的思考少了以后,東西就在眼前,沒有后勁。
第二,因為人工智能是理論方面的研究,背后需要大量的工程力量支持,在這個方面我們落后的更加多。比如說大規(guī)模計算的底層技術(shù),云計算方面我們和國外差距仍然很大。硬件的芯片技術(shù),包括硬件的系統(tǒng)設(shè)計、操作系統(tǒng)等,沒有完全掌握核心。當(dāng)這些技術(shù)沒有達(dá)到優(yōu)化的時候,做上層應(yīng)用就會很吃虧。
以上兩點是悲觀的。樂觀的是,我們看到很多華裔都出現(xiàn)在那些優(yōu)秀產(chǎn)品的背后,包括最近的 AlphaGo 也是,三個主創(chuàng)中有一個就是華裔。所以這方面是很好的消息,我們也有機(jī)會超到前面去。
Dan:
我比張教授樂觀,說兩點:
第一,全球最出名的人工智能大會,我有一個朋友去了,他說里邊一半人是華裔,而且大多數(shù)都是中國人。所以我們在各個領(lǐng)域里的經(jīng)驗是有的,把這些領(lǐng)域串起來會有新的突破;第二,針對語音識別領(lǐng)域,我們知道數(shù)據(jù)越多、越精,效果越好。這個技術(shù)是針對個人的,當(dāng)你和機(jī)器人聊天,他會記得你以前講的什么,進(jìn)而可以預(yù)判。所以交流很順暢,但是這會產(chǎn)生隱私方面的疑慮。很多美國公司沒有做,反而在國內(nèi)可以做。比如說微軟,他們的這項技術(shù)就是在中國做的,所以在國內(nèi)有有一些領(lǐng)域有機(jī)會取得領(lǐng)先。
原創(chuàng)文章,作者:IDG資本,如若轉(zhuǎn)載,請注明出處
1.砍柴網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;2.砍柴網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:砍柴網(wǎng)",不尊重原創(chuàng)的行為砍柴網(wǎng)或?qū)⒆肪控?zé)任;3.作者投稿可能會經(jīng)砍柴網(wǎng)編輯修改或補(bǔ)充。