亞馬遜的Alexa可根據(jù)語(yǔ)音判斷你需要的選擇,但是人工智能(AI)卻可以感知你是否生氣。麻省理工學(xué)院媒體實(shí)驗(yàn)室的分支機(jī)構(gòu)Affectiva的聲聯(lián)網(wǎng)系統(tǒng),可在短短1.2秒內(nèi)從音頻數(shù)據(jù)中分辨出你的憤怒。無(wú)論是什么語(yǔ)言,這個(gè)時(shí)間剛好超過(guò)人類感知憤怒所需的時(shí)間。
AI可分辨人類的憤怒
Affectiva的研究人員在Arxiv.org上最新發(fā)表的一篇論文中描述了這一現(xiàn)象(“從聲音表征中轉(zhuǎn)移學(xué)習(xí),用于語(yǔ)音中的憤怒檢測(cè)”)。它建立在語(yǔ)音和面部數(shù)據(jù)的基礎(chǔ)上,并建立相關(guān)的情感檔案。今年,該公司與Nuance合作開(kāi)發(fā)了一種車載人工智能系統(tǒng),可以從攝像頭的反饋中檢測(cè)駕駛員疲勞的跡象。在2017年12月,它推出了語(yǔ)音API,該API使用語(yǔ)音識(shí)別功能,諸如大笑、憤怒等情緒,以及音量、音調(diào)、速度和停頓。
論文的共同作者寫(xiě)道:“利用深度學(xué)習(xí)網(wǎng)絡(luò)的力量進(jìn)行情感識(shí)別的一個(gè)重要問(wèn)題是,深度網(wǎng)絡(luò)所需的大量數(shù)據(jù),與小規(guī)模的語(yǔ)音數(shù)據(jù)之間的不匹配。經(jīng)過(guò)訓(xùn)練的憤怒檢測(cè)模型提高了性能,并能很好地概括各種行為,從而引發(fā)情緒言語(yǔ)的數(shù)據(jù)集。此外,我們提出的系統(tǒng)具有較低的延遲,適用于實(shí)時(shí)應(yīng)用。”
什么是聲聯(lián)網(wǎng)?
SoundNet(聲聯(lián)網(wǎng))由一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(一種通常用于分析視覺(jué)圖像的神經(jīng)網(wǎng)絡(luò))組成,它在視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。為了讓它識(shí)別言語(yǔ)中的憤怒情緒,研究小組首先搜集了大量的普通音頻數(shù)據(jù)——200萬(wàn)段視頻,或者僅僅相當(dāng)于一年多的時(shí)間——使用另一種模型生成的ground truth。然后,他們使用一個(gè)更小的數(shù)據(jù)集IEMOCAP對(duì)其進(jìn)行微調(diào),該數(shù)據(jù)集包含12個(gè)小時(shí)的帶注釋的視聽(tīng)情感數(shù)據(jù),包括視頻、語(yǔ)音和文本轉(zhuǎn)錄。
為了測(cè)試人工智能模型的通用性,該團(tuán)隊(duì)評(píng)估了它的英語(yǔ)訓(xùn)練模型用于漢語(yǔ)普通話語(yǔ)言的情感數(shù)據(jù)(普通話情感語(yǔ)料庫(kù),簡(jiǎn)稱MASC),他們的報(bào)告說(shuō),它不僅很好地推廣到英語(yǔ)語(yǔ)音數(shù)據(jù),而且對(duì)漢語(yǔ)數(shù)據(jù)也很有效——盡管性能略有下降。
AI可識(shí)別語(yǔ)音情感模型
研究人員說(shuō),他們的成功證明了一種“有效的”和“低延遲的”語(yǔ)音情感識(shí)別模型,可以通過(guò)轉(zhuǎn)移學(xué)習(xí)得到顯著改善。轉(zhuǎn)移學(xué)習(xí)是一種技術(shù),它利用人工智能系統(tǒng)在之前標(biāo)注過(guò)的樣本的大數(shù)據(jù)集上訓(xùn)練,在一個(gè)數(shù)據(jù)稀疏的新領(lǐng)域中引導(dǎo)訓(xùn)練——在這種情況下,人工智能系統(tǒng)能通過(guò)訓(xùn)練分類一般聲音。
這一結(jié)果是有希望的,因?yàn)楸M管情感語(yǔ)音數(shù)據(jù)集很小,而且獲取起來(lái)也很昂貴,但是大量的自然聲音事件數(shù)據(jù)集是可用的,比如用于訓(xùn)練SoundNet的數(shù)據(jù)集或谷歌的音頻集。僅這兩個(gè)數(shù)據(jù)集就有大約1.5萬(wàn)個(gè)小時(shí)的標(biāo)記音頻數(shù)據(jù)。“憤怒分類有很多有用的應(yīng)用,包括對(duì)話界面和社交機(jī)器人、交互式語(yǔ)音應(yīng)答系統(tǒng)、市場(chǎng)研究、客戶代理評(píng)估和培訓(xùn),以及虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)。”
他們把開(kāi)發(fā)其他大型公共語(yǔ)料庫(kù)的工作留給了未來(lái),并為相關(guān)的語(yǔ)音任務(wù)訓(xùn)練人工智能系統(tǒng),比如識(shí)別其他類型的情感和情感狀態(tài)。相信,在未來(lái)AI將發(fā)揮更多的作用,你認(rèn)為未來(lái)的AI還能應(yīng)用在哪些領(lǐng)域呢?
【來(lái)源:千家網(wǎng)】