6月7日17點,2017年第一日高考結(jié)束,數(shù)學(xué)學(xué)科停筆交卷的鈴聲劃破長空。
北京第八十中學(xué)望京校區(qū)人潮涌動,結(jié)束數(shù)學(xué)廝殺的考生正陸續(xù)走出考場,有歡有悲,神色各異。
也在此時,相隔5公里外的麗都皇冠假日酒店,另一場同樣試題的考試已經(jīng)展開,名為Aidam的人工智能程序,據(jù)稱在200技術(shù)工程師、經(jīng)歷3年研發(fā)、吃下50萬道考題后,開始正式嘗試2017年新課標文科數(shù)學(xué)卷。
為了對照,主辦方教育科技公司學(xué)霸君,還邀請了去年6位各省高考狀元,兩兩組隊組合作為人族代表——又是一場人機大戰(zhàn)吶。
同一時間,相隔千里之外的四川省成都市高新區(qū),另一場機器答題的活動也已經(jīng)開始。
比起Aidam,這家名為準星云學(xué)科技的成都公司取名更為直接:AI-MATHS,據(jù)說已經(jīng)是一位平均分達90的數(shù)學(xué)答題機手。
唯一不同的是,兩場千里相隔的“機器高考”,學(xué)霸君讓Aidam選擇了聯(lián)網(wǎng),準星云學(xué)讓AI-MATHS選擇了單機。
人工智能太熱鬧,但凡掏出來搞個“人機大戰(zhàn)”,或許都能搞個大事情。
就在一周前,人類最頂尖的圍棋選手柯潔九段在烏鎮(zhèn)被AlphaGo完敗,所有吃瓜群眾都在問:下一個被完全擊敗的智力領(lǐng)域,在哪里?
全民關(guān)注的高考,成為了學(xué)霸君、成都準星云學(xué)瞄準的熱點。當然,他們還不是全部。
中國范圍內(nèi),還有更為知名的玩家科大訊飛,這家總部位于合肥的AI公司,之前最為著名的口號是2020年讓AI考上一本。
而且從現(xiàn)在研發(fā)的進展來說,科大訊飛研發(fā)的將是一個“高考文科AI”,他們將進行語文、數(shù)學(xué)、地理和歷史等四門學(xué)科的集中研發(fā)。
更早之前,訊飛還通過論文發(fā)表的形式對外公布,聯(lián)合哈工大進行的英語完形填空和閱讀理解有不錯進展,準確率達70%以上。
值得注意的是,這些高考AI的進展背后,雖有商業(yè)目的的熱點行為,但更關(guān)鍵的是,這也是一次“國家計劃”。
時間回到兩年前。
2015年7月21日,全名為“基于大數(shù)據(jù)的類人智能關(guān)鍵技術(shù)與系統(tǒng)”(簡稱“類人智能”)的國家863計劃項目正式啟動。
項目以科大訊飛為牽頭單位,聯(lián)合清華大學(xué)、中科院自動化所、北京大學(xué)、北京理工大學(xué)等超過30家科研院校和企業(yè)共同負責項目的研發(fā)與實施,主要針對大數(shù)據(jù)所帶來的新的技術(shù)與挑戰(zhàn),研究相關(guān)類腦計算關(guān)鍵技術(shù)和類人答題系統(tǒng),希望通過這個項目的實施,研制出能夠參加高考并考取大學(xué)的智能機器人。
明確來說,“高考機器人”是國家863計劃“類人智能”的重要研究目標之一。
而在技術(shù)目標上,這個國家計劃希望能夠在可預(yù)見的將來,通過強化學(xué)習(xí)能力,“高考機器人”不僅可以儲存知識和高考題型,還將具有邏輯推理能力。
此外通過建立模型和算法,可以讓機器在大數(shù)據(jù)中找到數(shù)據(jù)之間的關(guān)系和差異,讓這個模型的結(jié)果和人的表現(xiàn)很接近,甚至在最終結(jié)果上超過人的表現(xiàn)。
實際上,量子位還獲悉,科大訊飛在該計劃中主攻語文、數(shù)學(xué)、歷史和地理四門學(xué)科,而本次在成都開考的“AI-MATHS”也是計劃組成員,只是專攻數(shù)學(xué)而已。
高考AI背后的技術(shù)
不過,或許更加直接的問題是,通過讓機器參加高考,到底可以解決哪些方面的AI問題?又會遭遇哪些技術(shù)挑戰(zhàn)?
量子位得到了科大訊飛輪值總裁吳曉如的回答,他說,人工智能本身就是對人類智能的一種模擬、擴展和延伸,所以拿它去參加測試,也就是要看看機器能達到一個什么樣的人工智能水平。
并且在具體攻關(guān)中,讓機器高考,還具體包括了題目理解、知識表現(xiàn)、邏輯推理等,涉及怎樣用人機互助的方式獲得知識,還有在符號邏輯方面,讓機器來學(xué)會表達。比如作文、閱讀理解,就既需要讀懂文章、去理解題目的意思,同時還需要去理解相應(yīng)的常識。
△ 學(xué)霸君首席科學(xué)家談考試機器人原理
那背后的具體人工智能如何發(fā)揮技術(shù)之力?
學(xué)霸君方面給出的答案是:深度學(xué)習(xí)、專家系統(tǒng)和自然語言理解為核心的復(fù)雜系統(tǒng)。
首先是基于深度神經(jīng)網(wǎng)絡(luò)的句法和語義分析器,實現(xiàn)在大數(shù)據(jù)——海量題庫中不斷強化和擴充訓(xùn)練集。
其次是構(gòu)建模擬器,用來模擬人類世界中的知識圖譜和常識。對于學(xué)霸君來說,具體就是利用K12中數(shù)學(xué)應(yīng)用題數(shù)據(jù),讓機器模擬“習(xí)”得知識圖譜和常識,逐步提升其對于真實世界的接近程度。
第三是為解題準備的精準推理算法,主要是基于人工智能的專家系統(tǒng)。在該方面,學(xué)霸君的做法是利用資深老師和工程師在7000萬題目之上構(gòu)建了推理引擎和龐雜的知識元——還稱這是機器在所有的解題路徑中探索出的最簡明的一種。
最終,直接展現(xiàn)上來說,就是要模仿人腦的感知、記憶、認知、分析、建立經(jīng)驗知識庫、聯(lián)想、判斷、決策整個過程,可以挑戰(zhàn)中學(xué)框架范圍內(nèi)的所有題目,就是找到數(shù)千萬人類學(xué)霸的解體經(jīng)驗——如同AlphaGo在學(xué)習(xí)人類棋譜后成為圍棋高手。
不過,這其中最大的挑戰(zhàn)來自形式化語言是自動解題,這對于機器是挑戰(zhàn)極大,關(guān)鍵在于“簡明完備”。尤其是涉及到概率等應(yīng)用題,挑戰(zhàn)又上升了幾個數(shù)量級,在知識圖譜基礎(chǔ)上,需要探索出一種兼容句法和語義轉(zhuǎn)化的表示方法,能夠支持代數(shù)、幾何、概率題等。
微軟亞洲研究院還非常具體地解釋過機器在考數(shù)學(xué)方面會遭遇的挑戰(zhàn):
首先涉及自然語言理解。一方面,對于一道題目的文字描述,計算機需要知道并理解其中包含的概念,對于人類很簡單的概念,對機器卻需要自然語言理解方面的“造詣”。
舉例來說,“一加一等于幾”以及“小明有一個蘋果和一個梨,問小明有幾個水果”,同樣本質(zhì)是“1+1=?”的兩道題,在題型概念上是一樣的,表達方式卻截然不同。計算機需要知道如何把以上兩道問題都抽象成兩個對象相加。
另一方面,機器抽取題目中各個概念變量的關(guān)系也十分具有難度。其次,在一定程度上理解文字之后,數(shù)學(xué)解題需要通過邏輯推理生成解題公式。最后,計算機需要具有一定有關(guān)現(xiàn)實世界的常識去理解自然語言里面一些隱式的指代。
他山之石:AI2
讓人工智能考試這件事,并不只有中國人在研究。
位于美國西雅圖的艾倫人工智能研究所(AI2)成立于2014年,創(chuàng)辦者是微軟的聯(lián)合創(chuàng)始人保羅·艾倫,CEO是知名的人工智能專家Oren Etzioni博士。
目前AI2主要進行四個項目研究。
Aristo(亞里士多):這是一個結(jié)合了機器閱讀和NLP、文字蘊含和推論、不確定推理、大型語料庫的統(tǒng)計技術(shù)、圖表理解等多項人工智能技術(shù),開發(fā)而成的第一個有關(guān)科學(xué)的“知識機器”。
Semantic Scholar(語義學(xué)者):基于NLP、數(shù)據(jù)挖掘、計算機視覺等技術(shù),構(gòu)建而成的搜索引擎,能幫助科學(xué)家更有效的發(fā)現(xiàn)和回顧研究論文。
Plato(柏拉圖):聚焦于從圖像和視頻中提取視覺知識,用以豐富傳統(tǒng)上基于文本資源形成的知識庫。
Euclid(歐幾里得):這個系統(tǒng)試圖在標準化測試(如SAT)中,回答數(shù)學(xué)、幾何方面的問題。幾何問題需要文本和圖表能力的創(chuàng)新及組合。
這其中,Aristo和Euclid跟高考AI有點像,舉例說明。
比方你問Aristo:一年的哪個季節(jié),兔子的毛皮最厚?
A.秋季 B.春季 C.夏季 D.冬季
Aristo回答:D。如果你查看詳情,Aristo會進一步解釋說,回答的依據(jù)來自Barrons四年級學(xué)習(xí)指南,指南里提到熊的毛皮在冬天最為厚實。所以Aristo推斷兔子也一樣,這個回答的置信度是60.14%。
如果你問Euclid:如果從-5到x的連續(xù)整數(shù)和是13,那么x等于幾?
Euclid回答:7。它對這個題目的拆解思考如下圖所示。
之前獨家采訪圖靈獎得主Raj Reddy時,這位人工智能先驅(qū)曾經(jīng)對量子位談起AI2的研究,因為Etzioni是他的學(xué)生之一。
Reddy說AI2用了生物學(xué)AP(美國大學(xué)預(yù)修課程)教材,構(gòu)建了一套知識系統(tǒng),準備讓電腦通過AP考試。花了好多時間,還有好多錢,最后發(fā)現(xiàn)行不通。
“在我看來,這個方法根本就是錯的。在搞AP生物知識之前,應(yīng)該先搞明白高中生物;搞中學(xué)生物之前,應(yīng)該先搞明白小學(xué)科學(xué)。Oren去了之后就是這么做的,他們先研究中學(xué)的生物課程,現(xiàn)在已經(jīng)能回答60%的問題。”Reddy說。
關(guān)于Reddy這次采訪,這里是傳送門:《對話圖靈獎得主Raj Reddy》。
爭議:一場炒作?
不過,要做高考答題方面的AlphaGo,聽起來簡單做起來難,不少從業(yè)者覺得當前技術(shù)達不到。
同樣在研發(fā)“高考機器人”的科大訊飛就表示,對于目前的展示方式的權(quán)威性有疑惑,因為就科大訊飛牽頭的863課題來說,人工智能能力通過高考去實現(xiàn),是有硬指標的。
按照科研的通常做法,以及科技部的要求,需要按照一種完全沒有任何疑義和漏洞的測試方法進行,即這個測試要在完全斷網(wǎng)的狀態(tài)下進行。
其次,要確保在測試之前機器是沒有辦法獲取任何題目相關(guān)內(nèi)容,也就是說需要“同步”進行,而不是考試試題已然公開的情況下。
第三,在整個處理過程中,要有完全可監(jiān)督的第三方,符合公正性。
并且在實際操作中,還必須把整個測試過程的日志,即機器上所輸出的、詳細的中間處理過程全部要輸出來,以便來確認,這是一個完全由機器自動、一步一步求解過來的過程。
質(zhì)疑不只限于操作方式。
相對其他學(xué)科,機器考高考數(shù)學(xué)要“相對”容易一些。一方面,數(shù)學(xué)更多的是依據(jù)符號邏輯,數(shù)學(xué)題目的語言理解相對比較容易,因為相對而言都是一些比較標準化、結(jié)構(gòu)化的描述語言或出題語言,所以機器較好理解。
另一方面,數(shù)學(xué)中很少有“一千個讀者有一千個哈姆雷特”的現(xiàn)象,很多定理、公理和自動證明等,在幾十年前就已經(jīng)有了一系列研究成功,所以目前數(shù)學(xué)方面的進展還算不錯。
但是,最大的難點在于“應(yīng)用題”,因為涉及到常識理解,目前還有較為明顯的短板。
科大訊飛方面還解釋稱,同屬863計劃中“高考機器人”研發(fā)的“AI-MATHS”,除了自身研發(fā)能力,也和電子科技大學(xué)數(shù)學(xué)攻關(guān)組保持對接,目前機器解答數(shù)學(xué)應(yīng)用題方面,因為涉及常識理解的問題,仍是最大挑戰(zhàn)所在。
此外,創(chuàng)新工場人工智能工程院副院長王詠剛,也認為目前的技術(shù)遠未達到可以應(yīng)對高考試卷中各類試題的水平。
這位前Google工程師表示,“高考機器人”需要將機器視覺、自然語言處理、知識圖譜、機器推理、機器閱讀理解等AI方法綜合起來,可以部分解決少數(shù)類型的文科、理科試卷中的試題,但要說能夠應(yīng)對各類試題,甚至還要跟高考狀元等PK,并不現(xiàn)實。
甚至目前的技術(shù)水平,科研層面的檢驗也沒有看到有所突破。
王詠剛介紹稱,在科研領(lǐng)域,一些單獨的計算機解題類任務(wù),比如閱讀理解,求解代數(shù)題,完形填空,知識問答等,目前都有相對客觀的測試標準,相對完善的數(shù)據(jù)集,比較成熟的評估體系。
所以他認為,如果這一類“高考機器人”采用的AI技術(shù)真的有科研突破層面的意義,那首先應(yīng)該做的不是參加高考,而是在權(quán)威期刊或權(quán)威會議上發(fā)表論文,接受同行評議。
對于類似項目對標AlphaGo,王詠剛覺得應(yīng)該先發(fā)或者同時發(fā)布學(xué)術(shù)論文,通過科研同行評測認可,不然會有商業(yè)炒作嫌疑。
這位創(chuàng)新工場人工智能工程院副院長還認為即便“直播”也不能完全令人信服,比如現(xiàn)在因為保密的原因,機器是在高考結(jié)束后才開始答卷的,而且機器運行時是否有網(wǎng)絡(luò)和物理層面的隔離,也難以證實。
最后,對于機器做出來的試卷如何評判,也需要有相關(guān)標準先定義。
當然,也有人更加直接地表示,這樣的“高考機器人”商業(yè)炒作意義大于實際。
一位人工智能領(lǐng)域的知名CEO告訴量子位,不看好高考機器人,因為讓機器理解題目并不是一件容易的事兒,即便是可能相對有希望的數(shù)學(xué),在很多題型上讀題難解題更難。
新時代的圖靈測試
當然,雖然吹得有點過,但現(xiàn)在的“機器人高考”也并非全無價值。
首先,最直觀方面肯定是客觀上加速了人工智能的民主化,可以讓更多人了解人工智能在教育領(lǐng)域的應(yīng)用和變革,對于更多機構(gòu)、學(xué)校、老師、家長和學(xué)生,也能夠利用最新進展,幫助提升應(yīng)試能力和效率。
△ 衡水中學(xué)學(xué)生曬練習(xí)題 如果借助AI可能不再會有這么多
比如使機器判卷、個性化指導(dǎo)、個性化作業(yè)、教案改進等變成可能,老師的教學(xué)效率和學(xué)生的學(xué)習(xí)效果都可以得到大幅度提升,從孔子以來就開始追求的教育終極問題——因材施教,將不斷趨近現(xiàn)實。
其次,如牽頭參與“高考機器人”項目的科大訊飛所言,根本目標不是為了這個高考,而是聚集科學(xué)家對一些人工智能問題進行攻關(guān),產(chǎn)生一批成果,然后在更多領(lǐng)域,比如像機器翻譯這樣涉及語言理解的任務(wù)當中,去應(yīng)用這些成果。
比如同樣的成果就能遷移應(yīng)用到客服系統(tǒng)中,以及車載人機交互系統(tǒng)里。類似的領(lǐng)域都需要讓機器預(yù)先對一些行業(yè)知識擁有理解,同時基于這個理解的結(jié)果,能夠做一些決策判斷、一些相關(guān)問題的回復(fù)。
當然,訊飛方面還向量子位提供了一種此前鮮被提及的意義——圖靈測試。
訊飛研究院院長胡國平介紹說,在傳統(tǒng)歷史上,大家比較多的是以通過“圖靈測試”的方式來進行,讓一個機器和一個參加測試的人坐在一個外部不可見的空間里,然后測試人提出一些問題,由機器和被測試人分別來作答。
作答以后,如果這個提問的人分不清哪個答案是機器作答的、哪個是人作答的時候,我們就覺得這個機器通過了圖靈測試。
但是現(xiàn)在有了新情況,隨著后臺海量數(shù)據(jù)庫的增長,以及一些簡單的規(guī)則和方法運用,傳統(tǒng)的圖靈測試可能正在“過時”。
比如2014年6月,就有報道稱俄羅斯有一些人工智能的軟件已經(jīng)通過了圖靈測試,機器擁有了相當于13歲少年的智力。另外,也有一些其他的人工智能軟件,也在現(xiàn)在數(shù)據(jù)和技術(shù)進展中通過了圖靈測試。
所以圖靈測試之外,該用怎樣的標準衡量最新的人工智能發(fā)展水平?高考是不是有資格?
如果把高考看作衡量人的知識水平、理解能力、推理能力等相關(guān)智能能力水平的測試工具,那顯然借此衡量人工智能的能力,也可以接受。
更何況在“機器學(xué)習(xí)”大行其道的當下,高考作為人類學(xué)校幾十年學(xué)習(xí)之后的選拔,也能對學(xué)習(xí)過程形成參照。
高考人機大戰(zhàn)結(jié)果
最終,從17點開始答題的人工智能Aidam,在聯(lián)網(wǎng)的基礎(chǔ)上,通過云計算,在400臺主服務(wù)器和1000臺輔助服務(wù)器支持下,耗時9分47秒交卷,選做題23題12分得0分,壓軸題得6分,選擇錯2個丟10分,總得分134分。
另外兩兩合力的狀元也在1小時計時后全部交卷,最高分146,最低分119,還有一組得分140,三組平均得分135分,象征性贏得了“人機大戰(zhàn)”勝利。
另一場位于成都高新區(qū)進行的比賽,準星云學(xué)的AI-MATHS,斷網(wǎng)單機,使用了11臺服務(wù)器,對2017年高考北京文科數(shù)學(xué)卷耗時22分鐘,得分105分,對2017年高考文科全國卷II用時10分鐘,得分100分。
來源: 量子位