從“知音”看搜狗人工智能之道:深耕智能語音交互專欄
在日新月異的移動互聯網,AI、AR/VR、機器人、無人駕駛等高大上的“黑科技”層出不窮,其中AI(人工智能)被譽為“皇冠上的寶石”,也是全球頂級科技公司和科學家們孜孜以求共同探索的“神秘之境”。
人工智能是對人的意識、思維的信息過程的模擬,來賦予計算機系統或者機器像人類一般思考的能力,甚至可能在某些方面超越人類。正因為人工智能的巨大潛力和實用價值,近年來,谷歌、微軟、Facebook 、IBM、BAT、搜狗等國內外科技公司不約而同斥巨資加碼人工智能產業,希望為未來提早布局。
人工智能不應沉溺在技術的美感里
不過,盡管風頭正勁的人工智能吸引著大量資本和資源的流入,產業上游的公司也不斷描繪出各種充滿想象力的技術構想、產業愿景,但實際創造的應用和服務卻與理想存在著巨大的鴻溝。
比如,深度學習作為人工智能的重要分支,更多的存在于科學家、工程師們的實驗室,普通人對此幾乎一無所知,也難以知曉其在日常生活的具體應用;而諸如無人駕駛、無人機等被熱炒的人工智能概念,國內一些公司喊出“五年內要讓無人汽車開上路”、“改變交通和出行”的豪言壯語,卻有意無意的忽略了在實際交通出行場景的諸多難點。
在我看來,一些產業公司的自嗨是為了更好的吸引資本,用戶卻更期待人工智能可以不止于技術噱頭,能帶來真正接地氣、改變生活的服務。
“不要沉溺在技術的美感里。”作為人工智能領域的一名探索者,搜狗CEO王小川的話揭示了當前人工智能產業現狀背后的主因。他認為,很多人工智能公司秀出的產品好像很聰明了,但演示和實戰起來還是很大的區別,因此要給過熱的人工智能產業去掉一些光環,而要思考它的技術和市場瓶頸在哪里。
“現在的趨勢是,越是專業化的東西,機器就越有取代人類的趨勢,反而是那些看似稀松平常的東西,像日常的服務、對話,機器就搞不定。”人工智能的發展規律也的確如此。
今年3月,谷歌AlphaGo在與世界圍棋高手李世石的“人機大戰”中,出人意料以4:1的懸殊比分取勝,令人人咋舌,還有人將此解讀為“機器人將超越人類的開端”。但事實上,在“人機大戰”開始前,搜狗CEO王小川曾預測:不僅僅是圍棋,人工智能在其他博弈類的封閉游戲里,也會橫掃一切,完勝人類。這是因為AlphaGo可以通過不斷的深度學習和進化,無時無刻的進行自升級,最后經過幾十萬次的訓練后在下棋時幾乎不會出錯;而人是情感動物,有心理波動,有狀態好壞,因此總會露出破綻。
李世石這樣評價AlphaGo和人工智能——首先對手不是人類。新鮮的感覺有很多,我要去適應他,首先就是心理方面,非常的專注。我繼續和他下不一定能贏,因為無法比他更專注,這些方面是贏不了他的。”
不過,AlphaGo給中國帶來的震撼畢竟是巨大的,它給人們進行了一次人工智能的啟蒙運動。谷歌執行董事長施密特這樣評價人機大戰——“無論最終結果是什么,贏家都是人類。”
搜狗知音突破智能語音交互“關口”
在我看來,人工智能在國內的發展,首先要思考清楚“應用場景”的問題。比如對于交通出行,現有的人工智能對于叫車服務中的大數據分析以及運力調配有明顯的提升作用,但應用于無人駕駛,不僅現有技術不夠成熟,國內的交通體系、配套設施都難以支持。
搜狗作為國內科技公司中“技術派”代表,此前也一直在人工智能領域低調深耕,其重點突破的就是在用戶場景和技術創新兩者之間找到最佳平衡點。王小川自己給搜狗人工智能的定下一個未來目標——要讓技術使得生活變得更加自然。
“說了那么多人臉識別、語音識別、人機交互,但你換位從用戶角度想,用戶能夠得到什么?他會怎么理解這些看似高大上的東西呢?這個技術能否帶給他們幸福感?這才是從技術跨越到產品的關鍵。”
隨著移動互聯網的深入應用和AI概念興起,智能語音日益成為移動互聯網用戶的痛點,廠商們紛紛將各自的語音交互技術應用于各大智能終端——語音輸入、語音撥號、語音導航、語音拍照……不過,盡管智能語音應用方興未艾,但并沒有哪兒家科技公司推出最成熟的、一站式解決方案,用戶體驗語音交互服務的體驗并不理想。
搜狗多年來深耕的恰恰是智能語音交互這一重要的人工智能應用場景,其領先的語音交互技術在搜狗輸入法、地圖導航等移動產品上得到成熟的應用。為了幫助用戶擺脫傳統語音交互過于機械的操作方式、過高的出錯率和和低效的服務體驗,今年8月,搜狗推出全新語音交互引擎“知音”。
據介紹,知音引擎的語音識別使用了目前業界最先進的“端到端”模型,技術上更好地解決了用戶在說話快過程中的吞音問題,同時在訓練方法上使用了一種“主動學習”方法。通過“端到端”模型以及硬件加速,搜狗語音的識別速度提升了3倍,識別錯誤率降低30%,大大降低了由于口音以及嘈雜環境帶來的錯誤率。作為搜狗在自然交互方面的重要成果,知音能夠提供人機交互的完整解決方案,目前已經具備了從聽(語音識別)到理解思考(語義理解)再到說(語音合成)的完整閉環能力。
據搜狗CTO楊洪濤介紹,搜狗從12年開始研發智能語音技術,并在13年開始進行深度學習,目前搜狗輸入法語音識別準確率已超過97%,輸入頻次達到每天1.4億次,較去年同期增長了55%。除了在搜索和輸入法方面的應用,搜狗未來還將把智能語音交互應用到物聯網、車聯網和人工智能等各個方面,并嘗試接入更多的終端。
可以說在人工智能時代,智能語音交互不僅愈發成為連接用戶與服務的重要“媒介”,也逐漸成為廠商們掘金AI產業的好生意。打鐵還需自身硬,隨著搜狗知音、搜狗輸入法等語音產品開花結果,搜狗也在探尋人工智能的道路上底氣變的更足、步子也邁的更大。今年4月,搜狗宣布捐贈清華大學1.8億元人民幣,共同成立“天工智能計算研究院”,重點開展人工智能領域的前沿技術研發,研發成果將應用于搜狗下一代產品中。
業內人士認為,目前科技公司探索人工智能存在一個盲點——總是在找“風口”而不是“關口”,風口往往聚集了大批的競爭者,容易出現泡沫;而關口才是解決當前人工智能發展瓶頸之所在,突破那個瓶頸,就可能開創一個新天地。
以搜狗“知音”為例,其從語音交互產品的體驗瓶頸出發,發揮互聯網最大輸入法的語音數據優勢,把數據和用戶優勢資源轉化為人工智能技術優勢,最后深化人工智能技術推廣應用,做大做強整個語音交互的相關智能產業。在我看來,這才是完成了人工智能的一個正循環。
展望
正如搜狗CEO王小川所言:“搜狗目前已在語音識別領域取得了重大突破,未來一方面將通過與清華合作進行人工智能領域前沿技術研發,另一方面也將在自然交互與知識計算上不斷完善自身產品與服務,成為后搜索時代行業的引領者。”
從聯姻清華加碼產業研發投入,再到相繼誕生明醫搜索、知音引擎等應用服務,搜狗人工智能之道也更加清晰——從技術美感向真實服務進階,回歸“技術讓生活變得更加自然”的初心。而放眼整個移動互聯網,人工智能在電商、社交、出行、醫療、教育等領域的應用價值也日益凸顯,幸運的是各個領域的巨頭也都沒有固步自封,紛紛以擁抱姿態加入布局人工智能的產業浪潮。或許在未來我們可以說,智能手機開啟了移動互聯網的第一個10年,而人工智能則主導了移動互聯網的第二個10年。
1.砍柴網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;2.砍柴網的原創文章,請轉載時務必注明文章作者和"來源:砍柴網",不尊重原創的行為砍柴網或將追究責任;3.作者投稿可能會經砍柴網編輯修改或補充。