核心源頭技術(shù)持續(xù)突破，“訊飛超腦2030”階段性成果出爐

每日快訊

2022

11/19

17:57

評(píng)論

無需穿戴設(shè)備，“AI時(shí)空導(dǎo)游”安安“說走就走”，帶你“瞬移”旅游景點(diǎn)，目及之處皆是美景、遠(yuǎn)觀近瞧隨心所欲，開啟身臨其境的沉浸式“云旅游”。根據(jù)不同場(chǎng)景，安安還能在甜美、端莊、酷辣造型中“無縫切換”，表情豐富、情感細(xì)膩、理解力強(qiáng)，是個(gè)很專業(yè)的AI導(dǎo)游。

圖形用戶界面中度可信度描述已自動(dòng)生成

這個(gè)AI能力“硬核”的虛擬導(dǎo)游，集成了“訊飛超腦2030計(jì)劃”的多模感知、多維表達(dá)、深度理解等多項(xiàng)前沿技術(shù)，給人機(jī)交互帶來全新的沉浸式體驗(yàn)，真人和虛擬人可以非常自然地“穿越”不同場(chǎng)景對(duì)話，在安徽合肥體育中心就能現(xiàn)場(chǎng)體驗(yàn)。

男人站在舞臺(tái)上中度可信度描述已自動(dòng)生成

11月18日，2022科大訊飛全球1024開發(fā)者節(jié)正式啟幕，下午的發(fā)布會(huì)上，科大訊飛AI研究院副院長(zhǎng)高建清以“AI新紀(jì)元，訊飛超腦2030”為主題，解密“訊飛超腦2030計(jì)劃”階段性技術(shù)突破，一大波“預(yù)演未來”的創(chuàng)新應(yīng)用將走入生活，讓AI惠及每個(gè)人。

“無監(jiān)督學(xué)習(xí)”新突破，“AI超腦”更懂知識(shí)

“支撐‘訊飛超腦2030計(jì)劃’的發(fā)展，有兩個(gè)關(guān)鍵算法亟待突破，無監(jiān)督學(xué)習(xí)和知識(shí)推理。”高建清說，前者要實(shí)現(xiàn)實(shí)用化、場(chǎng)景化的預(yù)訓(xùn)練技術(shù)，后者要構(gòu)建基于知識(shí)檢索、決策以及融合的推理系統(tǒng)。

科大訊飛設(shè)計(jì)了基于無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練框架，并創(chuàng)新使用了少量有監(jiān)督數(shù)據(jù)進(jìn)行優(yōu)化，大幅提升訓(xùn)練效率。

針對(duì)多模語(yǔ)音識(shí)別、情感識(shí)別等多模態(tài)任務(wù)，全新的預(yù)訓(xùn)練框架對(duì)音頻、人臉等不同模態(tài)的輸入“一視同仁”，利用其中內(nèi)容、表情及身份等信息的關(guān)聯(lián)性進(jìn)行融合，可設(shè)計(jì)出不同的訓(xùn)練目標(biāo)。而少量有監(jiān)督數(shù)據(jù)構(gòu)建碼本，讓訓(xùn)練機(jī)時(shí)下降八成，實(shí)現(xiàn)了實(shí)用化預(yù)訓(xùn)練。在無監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練算法框架下，訊飛開放了輕量化的中文語(yǔ)音、中英文多模態(tài)預(yù)訓(xùn)練模型，高建清說，“預(yù)訓(xùn)練模型支持語(yǔ)音識(shí)別、聲紋識(shí)別、情感識(shí)別、多模態(tài)語(yǔ)音識(shí)別等多個(gè)任務(wù)，參數(shù)量遠(yuǎn)遠(yuǎn)少于業(yè)界公開的模型，但效果卻達(dá)到了業(yè)界最優(yōu)。”

在知識(shí)推理方面，以回答“面包在低溫下會(huì)馬上發(fā)霉嗎”為例，機(jī)器要理解“低溫變質(zhì)慢”等常識(shí)，在引入海量知識(shí)的基礎(chǔ)上，要用預(yù)訓(xùn)練模型進(jìn)行知識(shí)重要性排序，也要融合知識(shí)與問題進(jìn)行推理，才能與人暢聊“面包變質(zhì)的二三事”。同時(shí)，提出了知識(shí)與問題融合的Across attention model，實(shí)現(xiàn)問題和知識(shí)之間的充分交互，從而實(shí)現(xiàn)更有效的知識(shí)推理。

此外，科大訊飛還探索將神經(jīng)網(wǎng)絡(luò)與符號(hào)推理相結(jié)合，實(shí)現(xiàn)了推理過程的可解釋性。應(yīng)用于小學(xué)平面幾何題上，這個(gè)推理系統(tǒng)讓AI答題的正確率從完全不可用，提升到了90%的水平，顯著優(yōu)于傳統(tǒng)推理系統(tǒng)。

“唇形+語(yǔ)音”多模態(tài)感知，“喚醒”人機(jī)交互新模式

圖形用戶界面, 網(wǎng)站描述已自動(dòng)生成

環(huán)境太吵、人聲太多，語(yǔ)音交互怎么辦？在“訊飛超腦2030計(jì)劃”中，科大訊飛用“唇形+語(yǔ)音”的多模態(tài)語(yǔ)音增強(qiáng)技術(shù)，喚醒智能語(yǔ)音交互新模式。

“機(jī)器想更自然地與人類進(jìn)行交互，需要通過聽覺、視覺、語(yǔ)義以及各種傳感器的組合去獲取更多的有用信息，AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài)，逐步擬人化。”高建清表示。

繼“語(yǔ)音識(shí)別在多人討論場(chǎng)景下效果做到70%”“多點(diǎn)噪聲干擾場(chǎng)景做到了可用”之后，今年，科大訊飛挑戰(zhàn)商場(chǎng)、醫(yī)院、地鐵等復(fù)雜場(chǎng)景，提出了全新的多模態(tài)語(yǔ)音增強(qiáng)與識(shí)別框架。結(jié)合視頻信息輸入，新技術(shù)可以利用人臉、唇形、語(yǔ)音等多模態(tài)信息的互補(bǔ)，將主說話人的干凈人聲從嘈雜背景環(huán)境中分離出來，顯著提升開放場(chǎng)景的識(shí)別效果。

一個(gè)典型的場(chǎng)景是，當(dāng)你在嘈雜的環(huán)境中通話，旁邊其他人也在說話，搭載了多模感知技術(shù)的應(yīng)用系統(tǒng)只“聽”到你的聲音，不受旁邊嘈雜音干擾，從而非常順利地完成溝通。

此外，科大訊飛還提出基于多元語(yǔ)義評(píng)價(jià)的“語(yǔ)音識(shí)別一體化”框架，在語(yǔ)音輸入過程中，通過“語(yǔ)義糾錯(cuò)+語(yǔ)音識(shí)別”聯(lián)合優(yōu)化來提升語(yǔ)音識(shí)別的可懂度。“這一方案，從用戶主觀理解度層面有了極大改善，是真正站在用戶體驗(yàn)的角度優(yōu)化系統(tǒng)的一種方法”，高建清表示，這個(gè)算法主要解決“語(yǔ)音識(shí)別準(zhǔn)確率高，但用戶體驗(yàn)不好”的現(xiàn)實(shí)問題。

多情感多風(fēng)格語(yǔ)音合成，虛擬人有溫度有個(gè)性

如何讓機(jī)器的聲音媲美人類？這是AIGC領(lǐng)域需求量大、技術(shù)門檻高的難題。

圖形用戶界面, 網(wǎng)站描述已自動(dòng)生成高建清分享了科大訊飛在語(yǔ)音合成技術(shù)領(lǐng)域的新突破——多風(fēng)格多情感合成系統(tǒng)SMART-TTS，語(yǔ)音合成從簡(jiǎn)單的信息播報(bào)“變身”具備喜怒哀樂情感的語(yǔ)音助手。

“系統(tǒng)充分利用了文本和語(yǔ)音的‘無監(jiān)督預(yù)訓(xùn)練’，實(shí)現(xiàn)了從文本到聲學(xué)特征、再到語(yǔ)音的端到端建模。”高建清介紹，SMART-TTS系統(tǒng)可提供“高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵(lì)、生氣、安慰、寵溺”等11種情感，每種情感有20檔強(qiáng)弱度不同的調(diào)節(jié)能力；也能提供聲音的創(chuàng)造能力，如停頓、重音、語(yǔ)速等，可以根據(jù)自己喜好調(diào)節(jié)，真正實(shí)現(xiàn)了合成系統(tǒng)媲屏幕上有字描述已自動(dòng)生成

美具備個(gè)性化特點(diǎn)的真人表達(dá)能力。

這是什么意思？現(xiàn)場(chǎng)播放的視頻展示了SMART-TTS的多風(fēng)格多情感語(yǔ)音合成能力：當(dāng)你漫步林蔭路，TA可以用字正腔圓的“播音腔”為你讀新聞；當(dāng)你結(jié)束一天工作準(zhǔn)備入睡，TA可以輕聲細(xì)語(yǔ)讀為你散文；當(dāng)你驅(qū)車去公司上班，TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車；當(dāng)你和家人一起觀看紀(jì)錄片，TA可以為紀(jì)錄片不同人物配音。人機(jī)交互表達(dá)自然、情感飽滿。目前，訊飛有聲APP和訊飛開放平臺(tái)都開放了SMART-TTS語(yǔ)音合成系統(tǒng)，開發(fā)者可以在訊飛有聲直接下載體驗(yàn)，或在開放平臺(tái)進(jìn)行調(diào)用。

同樣隸屬于AIGC范疇，在聲音和虛擬形象生成技術(shù)方面，科大訊飛實(shí)現(xiàn)了語(yǔ)義可控的聲音、形象生成，語(yǔ)義驅(qū)動(dòng)的情感、動(dòng)作表達(dá)。比如：你輸入“一頭長(zhǎng)發(fā)”，系統(tǒng)智能生成溫柔大方的女性形象，聲音端莊又不失甜美；輸入“英俊瀟灑”，生成有一些商務(wù)范的男生形象，聲音略帶磁性。高建清透露，訊飛開放平臺(tái)將開放500個(gè)虛擬合成的聲音。

此外，訊飛還實(shí)現(xiàn)了語(yǔ)音語(yǔ)義驅(qū)動(dòng)的動(dòng)作合成，通過對(duì)語(yǔ)音節(jié)奏、韻律體會(huì)和語(yǔ)義理解，虛擬人可以隨時(shí)、流暢地切換動(dòng)作，擁有更加自然的肢體語(yǔ)言。“與傳統(tǒng)動(dòng)作庫(kù)相比，這套語(yǔ)義驅(qū)動(dòng)的系統(tǒng)在動(dòng)作擬人度及契合度方面，有明顯的效果提升。”高建清表示。

創(chuàng)新交互系統(tǒng)認(rèn)知技術(shù)，AI對(duì)話“滔滔不絕”

想讓AI告訴你《獨(dú)行月球》這部電影講什么？沒問題！今年，科大訊飛在交互系統(tǒng)的認(rèn)知關(guān)鍵技術(shù)取得突破性進(jìn)展，今年以來，依托科大訊飛建設(shè)的認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室相關(guān)團(tuán)隊(duì)在認(rèn)知智能技術(shù)突破方面奪得3項(xiàng)國(guó)際冠軍——在常識(shí)推理挑戰(zhàn)賽CommonsenseQA 2.0中刷新機(jī)器常識(shí)推理水平世界紀(jì)錄，在科學(xué)常識(shí)推理挑戰(zhàn)賽OpenBookQA中以準(zhǔn)確率94.2%的絕對(duì)優(yōu)勢(shì)奪冠，在常識(shí)推理挑戰(zhàn)賽QASC中以多模型準(zhǔn)確率93.48%、單模型準(zhǔn)確圖片包含電路, 游戲機(jī)描述已自動(dòng)生成

率92.07%奪冠，后兩項(xiàng)比賽更是超越人類平均水平。

隨著核心源頭技術(shù)創(chuàng)新和系統(tǒng)性創(chuàng)新的持續(xù)突破，AI擁有更加“智慧”的語(yǔ)義理解和對(duì)話生成能力。“好的人機(jī)交互系統(tǒng)，在開放式的場(chǎng)景下要具備深度理解能力，并能了解交互對(duì)象從而發(fā)起主動(dòng)的對(duì)話。”高建清說，圍繞認(rèn)知智能技術(shù)，訊飛實(shí)現(xiàn)了于語(yǔ)義圖網(wǎng)絡(luò)的開放場(chǎng)景語(yǔ)義理解，基于事理圖譜的對(duì)話管理，基于知識(shí)學(xué)習(xí)的可控對(duì)話生成。

其中，面向開放世界的基于圖表示的深度語(yǔ)義理解體系，增加了關(guān)系預(yù)測(cè)模塊，形成信息豐富的語(yǔ)義完備的語(yǔ)義表示圖，并將要素和關(guān)系都進(jìn)行具體化，可以更精準(zhǔn)的理解用戶的意圖，從而更準(zhǔn)確回答用戶問題，解決了AI對(duì)開放問題無能為力的痛點(diǎn)。目前，訊飛定義了1517個(gè)意圖、近2000個(gè)事件，“通過這個(gè)框架的提出，我們?cè)谏疃日Z(yǔ)義理解技術(shù)上又邁進(jìn)了一大步。”

基于知識(shí)學(xué)習(xí)的可控對(duì)話生成框架，包括知識(shí)學(xué)習(xí)、大規(guī)模對(duì)話生成兩個(gè)模塊，可根據(jù)對(duì)話上下文，從知識(shí)庫(kù)中檢索到對(duì)話涉及的相關(guān)知識(shí)，結(jié)合外部知識(shí)及對(duì)話內(nèi)容，生成更可控、更合理的回復(fù)。根據(jù)評(píng)估，基于知識(shí)學(xué)習(xí)的對(duì)話生成，相對(duì)于通用對(duì)話生成，平均得分從2.8提升到3.7分。

AI與運(yùn)動(dòng)“碰撞”，機(jī)器狗能上樓爬坡

圖片包含紫色, 躺, 對(duì), 鞋描述已自動(dòng)生成

在AI科技館，四足機(jī)器狗“小黑”是妥妥的“流量”擔(dān)當(dāng)，不僅能走路、跑步、上臺(tái)階、攀爬、穿越復(fù)雜地形，還能握手、作揖，運(yùn)動(dòng)能力超強(qiáng)。這只機(jī)器狗，是“訊飛超腦2030計(jì)劃”在運(yùn)動(dòng)智能方面的階段性成果。

近年來，世界各大科技公司積極投身機(jī)器狗研發(fā)浪潮，但受限于算法技術(shù)，現(xiàn)階段機(jī)器狗大部分仍處于“模仿動(dòng)作”的初級(jí)仿生階段，只具備基礎(chǔ)的平地行走功能，在跨越臺(tái)階和爬坡場(chǎng)景下表現(xiàn)并不理想，為解決行業(yè)痛點(diǎn)，科大訊飛提出了基于多模態(tài)強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制算法。

“這一算法的重點(diǎn)是，通過無偏差信息輸入的評(píng)價(jià)網(wǎng)絡(luò)，指導(dǎo)帶噪信息輸入的動(dòng)作網(wǎng)絡(luò)訓(xùn)練，最終實(shí)現(xiàn)可預(yù)測(cè)目標(biāo)關(guān)節(jié)位置和真實(shí)關(guān)節(jié)位置。”高建清介紹，得益于這些技術(shù)創(chuàng)新，訊飛機(jī)器狗在上樓、爬坡等方面的能力取得了顯著提升，草地、沙地、石子路、枕木、圓盤等復(fù)雜地形也無所畏懼。

技術(shù)“立地”專業(yè)領(lǐng)域，用AI解決社會(huì)剛需命題

會(huì)上，高建清還分享了“訊飛超腦2030計(jì)劃”的技術(shù)應(yīng)用。

除了文章開頭提到的沉浸式虛擬導(dǎo)游外，訊飛基于多模態(tài)交互、以及醫(yī)療認(rèn)知技術(shù)，研發(fā)了一套抑郁癥定量篩查系統(tǒng)。“可模擬心理醫(yī)生的問診思路進(jìn)行交互設(shè)計(jì)，用戶通過與機(jī)器聊天的方式即可初步實(shí)現(xiàn)病情的定量評(píng)估，篩查效果達(dá)到91.2%，超過業(yè)界最好的水平。”

目前，這一系統(tǒng)已經(jīng)在北京安定醫(yī)院等醫(yī)療機(jī)構(gòu)進(jìn)行了試點(diǎn)應(yīng)用。“未來，基于定量篩查基礎(chǔ)能力，我們將研發(fā)抑郁癥篩查平臺(tái)，向更多的學(xué)校推廣，助力青少年的心理成長(zhǎng)。”高建清表示。

作為“訊飛超腦2030計(jì)劃”的階段性成果，今年訊飛打造了多款專業(yè)虛擬人，分別用于客服、助理、招聘、財(cái)務(wù)、法務(wù)等行業(yè)的工作，他們都具有一個(gè)共同的特點(diǎn)——豐富的專業(yè)知識(shí)。通過深入學(xué)習(xí)行業(yè)知識(shí)，訊飛定制研發(fā)了多行業(yè)交互大腦，目前已為金融、電信、媒體等多行業(yè)提供專業(yè)虛擬人解決方案，為“數(shù)字經(jīng)濟(jì)”服務(wù)。

“在‘訊飛超腦2030計(jì)劃’遠(yuǎn)景目標(biāo)的牽引下，我們的AI科技樹正不斷發(fā)展壯大，既有以基礎(chǔ)算法為代表的主干的發(fā)展，也有各技術(shù)體系的不斷拓展。未來，我們會(huì)繼續(xù)堅(jiān)持以源頭創(chuàng)新引領(lǐng)技術(shù)突破，以產(chǎn)業(yè)目標(biāo)牽引技術(shù)發(fā)展，用開放的生態(tài)促進(jìn)行業(yè)繁榮，和大家一起用人工智能建設(shè)美好世界。”高建清說。

THE END

廣告、內(nèi)容合作請(qǐng)點(diǎn)擊這里尋求合作

免責(zé)聲明：本文系轉(zhuǎn)載，版權(quán)歸原作者所有；旨在傳遞信息，不代表砍柴網(wǎng)的觀點(diǎn)和立場(chǎng)。

99色在线视频-99色综合-99视频精品全国免费-99视频全部免费-能在线观看的一区二区三区-嗯!啊!使劲用力在线观看

核心源頭技術(shù)持續(xù)突破，“訊飛超腦2030”階段性成果出爐

相關(guān)熱點(diǎn)

最新文章

相關(guān)推薦

“特斯拉又割了我 7 萬(wàn)塊”

用 eSIM 取代手機(jī)卡，究竟難在哪里？

這就是 iPhone 13 的“殺手級(jí)新功能”？網(wǎng)友：炒華為冷飯！

谷歌Pixel 6真機(jī)曝光：最美安卓屏幕沒跑了！

iPhone 13機(jī)模曝光：值得等！

蘋果計(jì)劃在美國(guó)生產(chǎn) Apple Car 汽車電池

關(guān)注我們