無(wú)需穿戴設(shè)備,“AI時(shí)空導(dǎo)游”安安“說(shuō)走就走”,帶你“瞬移”旅游景點(diǎn),目及之處皆是美景、遠(yuǎn)觀近瞧隨心所欲,開啟身臨其境的沉浸式“云旅游”。根據(jù)不同場(chǎng)景,安安還能在甜美、端莊、酷辣造型中“無(wú)縫切換”,表情豐富、情感細(xì)膩、理解力強(qiáng),是個(gè)很專業(yè)的AI導(dǎo)游。
這個(gè)AI能力“硬核”的虛擬導(dǎo)游,集成了“訊飛超腦2030計(jì)劃”的多模感知、多維表達(dá)、深度理解等多項(xiàng)前沿技術(shù),給人機(jī)交互帶來(lái)全新的沉浸式體驗(yàn),真人和虛擬人可以非常自然地“穿越”不同場(chǎng)景對(duì)話,在安徽合肥體育中心就能現(xiàn)場(chǎng)體驗(yàn)。
11月18日,2022科大訊飛全球1024開發(fā)者節(jié)正式啟幕,下午的發(fā)布會(huì)上,科大訊飛AI研究院副院長(zhǎng)高建清以“AI新紀(jì)元,訊飛超腦2030”為主題,解密“訊飛超腦2030計(jì)劃”階段性技術(shù)突破,一大波“預(yù)演未來(lái)”的創(chuàng)新應(yīng)用將走入生活,讓AI惠及每個(gè)人。
“無(wú)監(jiān)督學(xué)習(xí)”新突破,“AI超腦”更懂知識(shí)
“支撐‘訊飛超腦2030計(jì)劃’的發(fā)展,有兩個(gè)關(guān)鍵算法亟待突破,無(wú)監(jiān)督學(xué)習(xí)和知識(shí)推理。”高建清說(shuō),前者要實(shí)現(xiàn)實(shí)用化、場(chǎng)景化的預(yù)訓(xùn)練技術(shù),后者要構(gòu)建基于知識(shí)檢索、決策以及融合的推理系統(tǒng)。
科大訊飛設(shè)計(jì)了基于無(wú)監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練框架,并創(chuàng)新使用了少量有監(jiān)督數(shù)據(jù)進(jìn)行優(yōu)化,大幅提升訓(xùn)練效率。
針對(duì)多模語(yǔ)音識(shí)別、情感識(shí)別等多模態(tài)任務(wù),全新的預(yù)訓(xùn)練框架對(duì)音頻、人臉等不同模態(tài)的輸入“一視同仁”,利用其中內(nèi)容、表情及身份等信息的關(guān)聯(lián)性進(jìn)行融合,可設(shè)計(jì)出不同的訓(xùn)練目標(biāo)。而少量有監(jiān)督數(shù)據(jù)構(gòu)建碼本,讓訓(xùn)練機(jī)時(shí)下降八成,實(shí)現(xiàn)了實(shí)用化預(yù)訓(xùn)練。 在無(wú)監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練算法框架下,訊飛開放了輕量化的中文語(yǔ)音、中英文多模態(tài)預(yù)訓(xùn)練模型,高建清說(shuō),“預(yù)訓(xùn)練模型支持語(yǔ)音識(shí)別、聲紋識(shí)別、情感識(shí)別、多模態(tài)語(yǔ)音識(shí)別等多個(gè)任務(wù),參數(shù)量遠(yuǎn)遠(yuǎn)少于業(yè)界公開的模型,但效果卻達(dá)到了業(yè)界最優(yōu)。”
在知識(shí)推理方面,以回答“面包在低溫下會(huì)馬上發(fā)霉嗎”為例,機(jī)器要理解“低溫變質(zhì)慢”等常識(shí),在引入海量知識(shí)的基礎(chǔ)上,要用預(yù)訓(xùn)練模型進(jìn)行知識(shí)重要性排序,也要融合知識(shí)與問題進(jìn)行推理,才能與人暢聊“面包變質(zhì)的二三事”。同時(shí),提出了知識(shí)與問題融合的Across attention model,實(shí)現(xiàn)問題和知識(shí)之間的充分交互,從而實(shí)現(xiàn)更有效的知識(shí)推理。
此外,科大訊飛還探索將神經(jīng)網(wǎng)絡(luò)與符號(hào)推理相結(jié)合,實(shí)現(xiàn)了推理過程的可解釋性。應(yīng)用于小學(xué)平面幾何題上,這個(gè)推理系統(tǒng)讓AI答題的正確率從完全不可用,提升到了90%的水平,顯著優(yōu)于傳統(tǒng)推理系統(tǒng)。
“唇形+語(yǔ)音”多模態(tài)感知,“喚醒”人機(jī)交互新模式
環(huán)境太吵、人聲太多,語(yǔ)音交互怎么辦?在“訊飛超腦2030計(jì)劃”中,科大訊飛用“唇形+語(yǔ)音”的多模態(tài)語(yǔ)音增強(qiáng)技術(shù),喚醒智能語(yǔ)音交互新模式。
“機(jī)器想更自然地與人類進(jìn)行交互,需要通過聽覺、視覺、語(yǔ)義以及各種傳感器的組合去獲取更多的有用信息,AI感知方式必然要從單模態(tài)發(fā)展到多模態(tài),逐步擬人化。”高建清表示。
繼“語(yǔ)音識(shí)別在多人討論場(chǎng)景下效果做到70%”“多點(diǎn)噪聲干擾場(chǎng)景做到了可用”之后,今年,科大訊飛挑戰(zhàn)商場(chǎng)、醫(yī)院、地鐵等復(fù)雜場(chǎng)景,提出了全新的多模態(tài)語(yǔ)音增強(qiáng)與識(shí)別框架。結(jié)合視頻信息輸入,新技術(shù)可以利用人臉、唇形、語(yǔ)音等多模態(tài)信息的互補(bǔ),將主說(shuō)話人的干凈人聲從嘈雜背景環(huán)境中分離出來(lái),顯著提升開放場(chǎng)景的識(shí)別效果。
一個(gè)典型的場(chǎng)景是,當(dāng)你在嘈雜的環(huán)境中通話,旁邊其他人也在說(shuō)話,搭載了多模感知技術(shù)的應(yīng)用系統(tǒng)只“聽”到你的聲音,不受旁邊嘈雜音干擾,從而非常順利地完成溝通。
此外,科大訊飛還提出基于多元語(yǔ)義評(píng)價(jià)的“語(yǔ)音識(shí)別一體化”框架,在語(yǔ)音輸入過程中,通過“語(yǔ)義糾錯(cuò)+語(yǔ)音識(shí)別”聯(lián)合優(yōu)化來(lái)提升語(yǔ)音識(shí)別的可懂度。“這一方案,從用戶主觀理解度層面有了極大改善,是真正站在用戶體驗(yàn)的角度優(yōu)化系統(tǒng)的一種方法”,高建清表示,這個(gè)算法主要解決“語(yǔ)音識(shí)別準(zhǔn)確率高,但用戶體驗(yàn)不好”的現(xiàn)實(shí)問題。
多情感多風(fēng)格語(yǔ)音合成,虛擬人有溫度有個(gè)性
如何讓機(jī)器的聲音媲美人類?這是AIGC領(lǐng)域需求量大、技術(shù)門檻高的難題。
高建清分享了科大訊飛在語(yǔ)音合成技術(shù)領(lǐng)域的新突破——多風(fēng)格多情感合成系統(tǒng)SMART-TTS,語(yǔ)音合成從簡(jiǎn)單的信息播報(bào)“變身”具備喜怒哀樂情感的語(yǔ)音助手。
“系統(tǒng)充分利用了文本和語(yǔ)音的‘無(wú)監(jiān)督預(yù)訓(xùn)練’,實(shí)現(xiàn)了從文本到聲學(xué)特征、再到語(yǔ)音的端到端建模。”高建清介紹,SMART-TTS系統(tǒng)可提供“高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵(lì)、生氣、安慰、寵溺”等11種情感,每種情感有20檔強(qiáng)弱度不同的調(diào)節(jié)能力;也能提供聲音的創(chuàng)造能力,如停頓、重音、語(yǔ)速等,可以根據(jù)自己喜好調(diào)節(jié),真正實(shí)現(xiàn)了合成系統(tǒng)媲
美具備個(gè)性化特點(diǎn)的真人表達(dá)能力。
這是什么意思?現(xiàn)場(chǎng)播放的視頻展示了SMART-TTS的多風(fēng)格多情感語(yǔ)音合成能力:當(dāng)你漫步林蔭路,TA可以用字正腔圓的“播音腔”為你讀新聞;當(dāng)你結(jié)束一天工作準(zhǔn)備入睡,TA可以輕聲細(xì)語(yǔ)讀為你散文;當(dāng)你驅(qū)車去公司上班,TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車;當(dāng)你和家人一起觀看紀(jì)錄片,TA可以為紀(jì)錄片不同人物配音。人機(jī)交互表達(dá)自然、情感飽滿。目前,訊飛有聲APP和訊飛開放平臺(tái)都開放了SMART-TTS語(yǔ)音合成系統(tǒng),開發(fā)者可以在訊飛有聲直接下載體驗(yàn),或在開放平臺(tái)進(jìn)行調(diào)用。
同樣隸屬于AIGC范疇,在聲音和虛擬形象生成技術(shù)方面,科大訊飛實(shí)現(xiàn)了語(yǔ)義可控的聲音、形象生成,語(yǔ)義驅(qū)動(dòng)的情感、動(dòng)作表達(dá)。比如:你輸入“一頭長(zhǎng)發(fā)”,系統(tǒng)智能生成溫柔大方的女性形象,聲音端莊又不失甜美;輸入“英俊瀟灑”,生成有一些商務(wù)范的男生形象,聲音略帶磁性。高建清透露,訊飛開放平臺(tái)將開放500個(gè)虛擬合成的聲音。
此外,訊飛還實(shí)現(xiàn)了語(yǔ)音語(yǔ)義驅(qū)動(dòng)的動(dòng)作合成,通過對(duì)語(yǔ)音節(jié)奏、韻律體會(huì)和語(yǔ)義理解,虛擬人可以隨時(shí)、流暢地切換動(dòng)作,擁有更加自然的肢體語(yǔ)言。“與傳統(tǒng)動(dòng)作庫(kù)相比,這套語(yǔ)義驅(qū)動(dòng)的系統(tǒng)在動(dòng)作擬人度及契合度方面,有明顯的效果提升。”高建清表示。
創(chuàng)新交互系統(tǒng)認(rèn)知技術(shù),AI對(duì)話“滔滔不絕”
想讓AI告訴你《獨(dú)行月球》這部電影講什么?沒問題!今年,科大訊飛在交互系統(tǒng)的認(rèn)知關(guān)鍵技術(shù)取得突破性進(jìn)展,今年以來(lái),依托科大訊飛建設(shè)的認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室相關(guān)團(tuán)隊(duì)在認(rèn)知智能技術(shù)突破方面奪得3項(xiàng)國(guó)際冠軍——在常識(shí)推理挑戰(zhàn)賽CommonsenseQA 2.0中刷新機(jī)器常識(shí)推理水平世界紀(jì)錄,在科學(xué)常識(shí)推理挑戰(zhàn)賽OpenBookQA中以準(zhǔn)確率94.2%的絕對(duì)優(yōu)勢(shì)奪冠,在常識(shí)推理挑戰(zhàn)賽QASC中以多模型準(zhǔn)確率93.48%、單模型準(zhǔn)確
率92.07%奪冠,后兩項(xiàng)比賽更是超越人類平均水平。
隨著核心源頭技術(shù)創(chuàng)新和系統(tǒng)性創(chuàng)新的持續(xù)突破,AI擁有更加“智慧”的語(yǔ)義理解和對(duì)話生成能力。“好的人機(jī)交互系統(tǒng),在開放式的場(chǎng)景下要具備深度理解能力,并能了解交互對(duì)象從而發(fā)起主動(dòng)的對(duì)話。”高建清說(shuō),圍繞認(rèn)知智能技術(shù),訊飛實(shí)現(xiàn)了于語(yǔ)義圖網(wǎng)絡(luò)的開放場(chǎng)景語(yǔ)義理解,基于事理圖譜的對(duì)話管理,基于知識(shí)學(xué)習(xí)的可控對(duì)話生成。
其中,面向開放世界的基于圖表示的深度語(yǔ)義理解體系,增加了關(guān)系預(yù)測(cè)模塊,形成信息豐富的語(yǔ)義完備的語(yǔ)義表示圖,并將要素和關(guān)系都進(jìn)行具體化,可以更精準(zhǔn)的理解用戶的意圖,從而更準(zhǔn)確回答用戶問題,解決了AI對(duì)開放問題無(wú)能為力的痛點(diǎn)。目前,訊飛定義了1517個(gè)意圖、近2000個(gè)事件,“通過這個(gè)框架的提出,我們?cè)谏疃日Z(yǔ)義理解技術(shù)上又邁進(jìn)了一大步。”
基于知識(shí)學(xué)習(xí)的可控對(duì)話生成框架,包括知識(shí)學(xué)習(xí)、大規(guī)模對(duì)話生成兩個(gè)模塊,可根據(jù)對(duì)話上下文,從知識(shí)庫(kù)中檢索到對(duì)話涉及的相關(guān)知識(shí),結(jié)合外部知識(shí)及對(duì)話內(nèi)容,生成更可控、更合理的回復(fù)。根據(jù)評(píng)估,基于知識(shí)學(xué)習(xí)的對(duì)話生成,相對(duì)于通用對(duì)話生成,平均得分從2.8提升到3.7分。
AI與運(yùn)動(dòng)“碰撞”,機(jī)器狗能上樓爬坡
在AI科技館,四足機(jī)器狗“小黑”是妥妥的“流量”擔(dān)當(dāng),不僅能走路、跑步、上臺(tái)階、攀爬、穿越復(fù)雜地形,還能握手、作揖,運(yùn)動(dòng)能力超強(qiáng)。這只機(jī)器狗,是“訊飛超腦2030計(jì)劃”在運(yùn)動(dòng)智能方面的階段性成果。
近年來(lái),世界各大科技公司積極投身機(jī)器狗研發(fā)浪潮,但受限于算法技術(shù),現(xiàn)階段機(jī)器狗大部分仍處于“模仿動(dòng)作”的初級(jí)仿生階段,只具備基礎(chǔ)的平地行走功能,在跨越臺(tái)階和爬坡場(chǎng)景下表現(xiàn)并不理想,為解決行業(yè)痛點(diǎn),科大訊飛提出了基于多模態(tài)強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制算法。
“這一算法的重點(diǎn)是,通過無(wú)偏差信息輸入的評(píng)價(jià)網(wǎng)絡(luò),指導(dǎo)帶噪信息輸入的動(dòng)作網(wǎng)絡(luò)訓(xùn)練,最終實(shí)現(xiàn)可預(yù)測(cè)目標(biāo)關(guān)節(jié)位置和真實(shí)關(guān)節(jié)位置。”高建清介紹,得益于這些技術(shù)創(chuàng)新,訊飛機(jī)器狗在上樓、爬坡等方面的能力取得了顯著提升,草地、沙地、石子路、枕木、圓盤等復(fù)雜地形也無(wú)所畏懼。
技術(shù)“立地”專業(yè)領(lǐng)域,用AI解決社會(huì)剛需命題
會(huì)上,高建清還分享了“訊飛超腦2030計(jì)劃”的技術(shù)應(yīng)用。
除了文章開頭提到的沉浸式虛擬導(dǎo)游外,訊飛基于多模態(tài)交互、以及醫(yī)療認(rèn)知技術(shù),研發(fā)了一套抑郁癥定量篩查系統(tǒng)。“可模擬心理醫(yī)生的問診思路進(jìn)行交互設(shè)計(jì),用戶通過與機(jī)器聊天的方式即可初步實(shí)現(xiàn)病情的定量評(píng)估,篩查效果達(dá)到91.2%,超過業(yè)界最好的水平。”
目前,這一系統(tǒng)已經(jīng)在北京安定醫(yī)院等醫(yī)療機(jī)構(gòu)進(jìn)行了試點(diǎn)應(yīng)用。“未來(lái),基于定量篩查基礎(chǔ)能力,我們將研發(fā)抑郁癥篩查平臺(tái),向更多的學(xué)校推廣,助力青少年的心理成長(zhǎng)。”高建清表示。
作為“訊飛超腦2030計(jì)劃”的階段性成果,今年訊飛打造了多款專業(yè)虛擬人,分別用于客服、助理、招聘、財(cái)務(wù)、法務(wù)等行業(yè)的工作,他們都具有一個(gè)共同的特點(diǎn)——豐富的專業(yè)知識(shí)。通過深入學(xué)習(xí)行業(yè)知識(shí),訊飛定制研發(fā)了多行業(yè)交互大腦,目前已為金融、電信、媒體等多行業(yè)提供專業(yè)虛擬人解決方案,為“數(shù)字經(jīng)濟(jì)”服務(wù)。
“在‘訊飛超腦2030計(jì)劃’遠(yuǎn)景目標(biāo)的牽引下,我們的AI科技樹正不斷發(fā)展壯大,既有以基礎(chǔ)算法為代表的主干的發(fā)展,也有各技術(shù)體系的不斷拓展。未來(lái),我們會(huì)繼續(xù)堅(jiān)持以源頭創(chuàng)新引領(lǐng)技術(shù)突破,以產(chǎn)業(yè)目標(biāo)牽引技術(shù)發(fā)展,用開放的生態(tài)促進(jìn)行業(yè)繁榮,和大家一起用人工智能建設(shè)美好世界。”高建清說(shuō)。