3月6日,聲網(wǎng)在京舉辦了主題為“AI開口,互動無界”的產(chǎn)品發(fā)布會,正式發(fā)布了全球首個對話式AI引擎,憑借650ms 超低延時響應(yīng)、優(yōu)雅打斷、全模型適配等五大能力,對話式AI引擎可支持任意文本大模型快速升級為“能說會道”的對話式多模態(tài)大模型。同時,對話式 AI 引擎的價格也更為優(yōu)惠,1分鐘不到1毛錢,只需0.098元/分鐘。
五大能力讓任意大模型“能說會道”
在生成式AI的浪潮下,行業(yè)普遍認為多模態(tài)大模型是實現(xiàn)AGI的必經(jīng)之路,知名投資機構(gòu)a16z最新關(guān)于Voice AI的報告也顯示,隨著大模型的不斷進步,語音將成為一種關(guān)鍵的切入點。聲網(wǎng)作為全球?qū)崟r互動云行業(yè)的開創(chuàng)者,在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢與場景實踐,一直致力于將RTE與生成式AI結(jié)合,并推出了對話式AI引擎,為開發(fā)者帶來“多快好省”的AI語音對話體驗。
模型選擇多:真正把選擇權(quán)交給開發(fā)者!支持包含 DeepSeek、ChatGPT等在內(nèi)的全球幾乎所有大模型廠商。同時也支持全球主流語音合成供應(yīng)商任意切換,支持開發(fā)者通過語音合成供應(yīng)商定制的自定義音色接入。更有音視頻SDK支持30000+終端機型適配,解決多設(shè)備兼容性的后顧之憂。
響應(yīng)快、打斷快:通過全鏈路深度優(yōu)化,并在中、美、歐、東南亞主要城市實測,語音對話延遲中位數(shù)低至650ms,讓AI秒回你的提問。超低打斷延時,自研“智能打斷”技術(shù),模擬真人對話節(jié)奏,隨時打斷與AI的對話,響應(yīng)低至340ms。
對話體驗好:“選擇性注意力鎖定”功能可屏蔽95%環(huán)境人聲、噪聲干擾,精準識別對話人聲。此外,對話式AI引擎具備優(yōu)秀的抗弱網(wǎng)、抗丟包能力,80%丟包率下仍能穩(wěn)定流暢對話,斷網(wǎng)3-5s依舊流暢對話。
開發(fā)省心、更省錢:聲網(wǎng)對話式AI引擎提供了極簡的開發(fā)部署,只需2行代碼,15分鐘就能讓AI開口說話,大幅降低了開發(fā)門檻。只需填入與復(fù)制LLM與TTS相關(guān)的URL與Key,就能實現(xiàn)快速部署,具體流程可查看聲網(wǎng)官網(wǎng)的文檔中心。
對話式AI引擎的成本也更優(yōu),AI語音對話只需0.098元/分鐘,單次還贈送1000分鐘。自研的“智能打斷”功能作為增值服務(wù)也只需0.042元/分鐘,以更低的成本助力開發(fā)者探索AI應(yīng)用場景。
聲網(wǎng)AI RTE產(chǎn)品線負責(zé)人姚光華表示,"經(jīng)過一段時間與客戶的打磨及實際使用場景調(diào)研,我們統(tǒng)計出,用戶與AI 每產(chǎn)生1次對話中,平均會有約3輪問答,計算下來平均對話時長約為21.1s,單次成本僅需3分錢。如果每月對話次數(shù)15次,那么月成本不到5毛錢,年成本也只需5元。"
對話式AI推動智能助手、智能硬件等場景走向火熱
通過聲網(wǎng)對話式AI引擎,開發(fā)者可以快速部署智能助手、虛擬陪伴、口語陪練、智能客服、智能硬件等對話式AI場景。例如智能助手場景可以通過自然語言交互,幫助人們進行日程管理、信息查詢和任務(wù)執(zhí)行,全面提升生活便利性,并提高工作效率。
智能硬件場景也是當(dāng)下非?;馃岬腁I場景,通過嵌入對話式AI引擎,可實現(xiàn)語音控制、智能看護、智能陪伴和個性化服務(wù),將智能設(shè)備升級為智能硬件體。適用于 AI 玩具、AI 教育硬件、AI 陪伴設(shè)備、家居語音助手、穿戴設(shè)備個人助手等多種應(yīng)用場景。