來(lái)源:IT之家
據(jù) The Information 報(bào)道,OpenAI 最近向部分客戶展示了一款新型多模態(tài)人工智能模型,該模型能夠進(jìn)行語(yǔ)音對(duì)話和物體識(shí)別。有消息人士透露,這或許就是 OpenAI 計(jì)劃在即將到來(lái)的 5 月 13 日正式發(fā)布的內(nèi)容之一。
圖源 Pexels
報(bào)道稱,相比于 OpenAI 現(xiàn)有的獨(dú)立圖像識(shí)別和文本轉(zhuǎn)語(yǔ)音模型,該新型模型能夠更快、更準(zhǔn)確地處理圖像和音頻信息。例如,它可以幫助客服人員 " 更好地理解來(lái)電者的語(yǔ)氣語(yǔ)調(diào),判斷他們是否在使用諷刺語(yǔ)氣 "。理論上,該模型還能輔助學(xué)生學(xué)習(xí)數(shù)學(xué)知識(shí),或翻譯現(xiàn)實(shí)世界中的標(biāo)志文字。
不過,消息人士也指出,雖然該模型在某些問題解答方面能夠超越 GPT-4 Turbo,但仍有可能出現(xiàn)自信地給出錯(cuò)誤答案的情況。
IT 之家注意到,開發(fā)者 Ananay Arora 發(fā)布了一張包含通話相關(guān)代碼的截圖,暗示 OpenAI 可能正在為 ChatGPT 加入打電話的功能。Arora 還發(fā)現(xiàn)了一些證據(jù)表明 OpenAI 正在配置用于實(shí)時(shí)音視頻通信的服務(wù)器。
OpenAI 首席執(zhí)行官薩姆阿爾特曼 ( Sam Altman ) 已經(jīng)明確否認(rèn)即將發(fā)布的新品是代號(hào)為 GPT-5 的大型語(yǔ)言模型(據(jù)稱其性能將大幅優(yōu)于 GPT-4)。The Information 則表示,GPT-5 可能將在今年年底前正式亮相。阿爾特曼還表示,OpenAI 不會(huì)發(fā)布新的人工智能搜索引擎。
如果 The Information 的報(bào)道屬實(shí),OpenAI 的新品發(fā)布仍可能會(huì)對(duì)即將舉行的 Google I / O 開發(fā)者大會(huì)產(chǎn)生一定影響。眾所周知,谷歌也在測(cè)試?yán)萌斯ぶ悄苓M(jìn)行電話呼叫的技術(shù)。此外,谷歌還有一個(gè)據(jù)傳即將發(fā)布的項(xiàng)目,代號(hào)為 "Pixie"。Pixie 是一款能夠通過設(shè)備攝像頭識(shí)別物體的多模態(tài) Google Assistant 替代品,可以為用戶提供諸如 " 如何前往購(gòu)買地點(diǎn) " 或 " 如何使用 " 等信息。