來源:極客公園
科幻小說《雪崩》是無比超前的。它出版的 1992 年,英特爾還在制造 486 系列處理器,直到次年,586 奔騰處理器才被推出。
在小說中,尼爾·斯蒂芬森創(chuàng)造了一個(gè)并非以往想象中的互聯(lián)網(wǎng)——元宇宙(Metaverse),在這個(gè)與現(xiàn)實(shí)世界緊密聯(lián)系但又相互平行的時(shí)空里,人們可以借由各自的「化身」在其中交流和娛樂。
Facebook 改名 Meta 后,越來越多的人才知道,原來這本科幻小說是「元宇宙」這個(gè)詞的起點(diǎn)。一瞬間,一個(gè)書里并沒有準(zhǔn)確定義的概念,30 年后開始成為了商業(yè)世界里火爆的新邊疆。
只不過,在目前看起來比較接近「元宇宙」的 VR 行業(yè)里,即使設(shè)備銷量逐漸攀升,但分辨率低、設(shè)備笨重、3D 眩暈等問題還未完全解決。元宇宙看起來是個(gè)性感,但還有著眾多技術(shù)問題無法解決,還非常遙遠(yuǎn)的概念。
「從 Utility(效用)到 Reality(現(xiàn)實(shí)),我認(rèn)為元宇宙是有發(fā)展路徑的,并且早晚會(huì)進(jìn)化到改變我們現(xiàn)實(shí)世界的程度。」王奇所供職的公司聲網(wǎng),最近就開啟了「元娛樂」的新探索,他成為了這條業(yè)務(wù)線的負(fù)責(zé)人。
這次他們?cè)趯?shí)踐中,對(duì)于元宇宙下一步在技術(shù)上應(yīng)該去解決什么這個(gè)問題,有了新的思考。
01
「元娛樂」里,聲音
技術(shù)是關(guān)鍵的下一步
「現(xiàn)在所謂的那些元宇宙的應(yīng)用,離還原人類的真實(shí)體驗(yàn)還差得特別特別遠(yuǎn)?!?/p>
根據(jù) Sensor Tower 2022 年的報(bào)告,自「元宇宙」概念爆發(fā)以來,平均每天都會(huì)新增一個(gè)「元宇宙」軟件,其中,元宇宙社交類軟件更是層出不窮。在一個(gè)個(gè)炫酷的 demo 里,我們似乎離再建一個(gè)虛擬現(xiàn)實(shí)很近了,但王奇并不這么認(rèn)為。
2020 年 4 月,《堡壘之夜》里舉辦的「ASTRONOMICAL」虛擬演唱會(huì)吸引了 1230 萬觀眾,玩家在霓虹燈束散射中舞動(dòng),很多玩家表示仿佛經(jīng)歷了一場(chǎng)真實(shí)的夢(mèng)境。絢麗的布景渲染了人們對(duì)技術(shù)的最高想象,然而實(shí)際上,觀眾只是在「看」一場(chǎng)演唱會(huì)。算力等客觀因素限制下,多人同屏和物理交互往往就如魚與熊掌,玩家在一個(gè)「眾人場(chǎng)」里能得到的交互體驗(yàn)其實(shí)很低。
《堡壘之夜》中的「ASTRONOMICAL」虛擬演唱會(huì)
「我們的元娛樂其實(shí)并不等同于元宇宙娛樂」,聲網(wǎng)元娛樂業(yè)務(wù)線負(fù)責(zé)人王奇在接受采訪時(shí)說,「我們更接近下一代的娛樂這個(gè)概念?!乖谒磥恚F(xiàn)有的技術(shù)和體驗(yàn)還不能滿足人類超越現(xiàn)實(shí)的需求,首先要思考的或許是如何去還原一個(gè)真實(shí)的世界。
5 月 16 號(hào),聲網(wǎng)發(fā)布了「元娛樂」四大解決方案,其中,他們對(duì)音頻的處理十分惹眼。
在發(fā)布會(huì)上,聲網(wǎng)元語聊產(chǎn)品經(jīng)理?xiàng)罘故玖艘粋€(gè)多人會(huì)議的場(chǎng)景:代表每個(gè)參與者的頭像分布在不同區(qū)域,而從其他人說話的聲音信息中,能體會(huì)到明顯的方位感。
這項(xiàng)技術(shù)被稱作 3D 空間音頻,貫穿在他們的元語聊、元 K 歌、元直播等方案里。
當(dāng)用戶操作 Avatar 在虛擬場(chǎng)景里移動(dòng)時(shí),聽到的音效會(huì)根據(jù) Avatar 的頭部及臉部朝向、聲源角度和距離不同而變化。比如,在玩家進(jìn)入一個(gè)元語聊的房間時(shí),會(huì)聽到房間內(nèi)正在播放的背景音樂,隨著位置的移動(dòng)、墻壁或卡座等障礙物的遮擋,玩家所聽到的聲音也會(huì)相應(yīng)地逐漸清晰或減弱。
這項(xiàng)功能的實(shí)現(xiàn),依賴于聲網(wǎng)基于 HRTF 相關(guān)傳遞函數(shù)、心理感知聲學(xué)、聲源指向模擬等算法自研的一整套 3D 聲場(chǎng)渲染引擎。通過這套渲染引擎,可以動(dòng)態(tài)模擬空間中任意角度、朝向的聲音在傳遞到左右耳時(shí)聲音發(fā)生的變化。他們還可以通過聲學(xué)建模的方式,模擬任意角度的音源方向?qū)е碌囊羯町悺?/p>
聲網(wǎng)的空間音頻技術(shù)
「這其實(shí)在業(yè)內(nèi)還沒有幾家能夠做到」,王奇談到這些技術(shù)時(shí)頗為自豪。據(jù)他介紹,聲網(wǎng)內(nèi)部有一個(gè)音視頻實(shí)驗(yàn)室,專門研究各種跟音頻和視頻相關(guān)的算法,其中就包括 3D 空間音頻,此外還有人聲模糊、模擬現(xiàn)實(shí)中空氣衰減等技術(shù)。
在這些聲音技術(shù)的加持下,玩家操作 Avatar 不僅可以「移步換景」,還可以「移步換聲」,可以移動(dòng)到其他玩家身邊開啟暢聊,也能憑借人聲模糊技術(shù)既不受周圍人說話聲音的干擾,又保留環(huán)境氛圍,在技術(shù)上極力還原現(xiàn)實(shí)世界中的真實(shí)聽覺體驗(yàn)。
模擬現(xiàn)實(shí)其實(shí)十分困難的,因?yàn)閷?duì)于一個(gè)玩家來說,一些很細(xì)微的「不合常理」都可能影響沉浸感。那些「不合理」會(huì)時(shí)時(shí)刻刻提醒玩家,這不是一個(gè)真實(shí)的世界。因此對(duì)于營造一個(gè)「栩栩如生」的虛擬世界來說,要不斷地打磨環(huán)境,細(xì)化交互的顆粒度。
當(dāng)然,這對(duì)技術(shù)實(shí)現(xiàn)來說并不容易。
除了聲音的擬真外,聲網(wǎng)解決方案中同樣有對(duì)虛擬環(huán)境的擬真。在元語聊和元直播中,聲網(wǎng)還基于 3D 引擎建模創(chuàng)建各種場(chǎng)景,能模擬碰撞、重力等物理效果。面部動(dòng)捕技術(shù)、語音驅(qū)動(dòng)嘴型的技術(shù),則讓玩家與 Avatar 的表情匹配,實(shí)時(shí)表情與語音匹配。
而為了讓玩家在選擇虛擬形象時(shí)不受性別限制,他們還將開發(fā)聲紋變聲技術(shù),在聲音上實(shí)現(xiàn)「any to any」的模擬。萌妹子選擇大叔形象后,也能在實(shí)時(shí)交流中擁有與虛擬形象匹配的低沉男音。
影響沉浸感的一大因素還在同步性與低延遲,就像《堡壘之夜》的那場(chǎng)虛擬演唱會(huì),如果沒有上千萬人的同步參與,或許也不會(huì)如此轟動(dòng)。
在那場(chǎng)盛大的虛擬演唱會(huì)中,玩家也被分到了上萬個(gè)服務(wù)器上,才讓千萬量級(jí)的同步參與得以實(shí)現(xiàn)。而在實(shí)時(shí)通信和互動(dòng)上,聲網(wǎng)作為 RTC 領(lǐng)域全球頭部企業(yè),有著行業(yè)領(lǐng)先的技術(shù)優(yōu)勢(shì)。
圖注:聲網(wǎng)的 MetaKTV 方案
聲網(wǎng)的 SD-RTN™,是全球規(guī)模最大的軟件定義實(shí)時(shí)網(wǎng),官網(wǎng)上介紹,這項(xiàng)技術(shù)可以實(shí)現(xiàn)百萬人大頻道的實(shí)時(shí)互動(dòng)。依靠基于 SD-RTN™的解決方案架構(gòu),聲網(wǎng)打開了萬人云蹦迪、在線上造一個(gè)超級(jí)夜店的想象。
它的合作伙伴 XRSPACE,也在近期推出了全球首款音樂元宇宙 PartyOn。利用聲網(wǎng)的實(shí)時(shí)音視頻技術(shù)和 XRSPACE 自研的表演同步技術(shù),PartyOn 實(shí)現(xiàn)了 50ms 以下的同步誤差,不僅讓讓眾多玩家享受低延遲的同步 K 歌,還讓人聲、歌曲和 Avatar 肢體表演實(shí)時(shí)匹配。
這些「擬真」的技術(shù)賦能了更沉浸的體驗(yàn),王奇說,「3D 空間音頻,包括聲紋變聲、面部捕捉還原,所有的這些技術(shù),它本身都是跟元宇宙的發(fā)展相關(guān)的」,「我們本身也是看好元宇宙發(fā)展的」。
02
通過提升可用性,
聲網(wǎng)在瞄準(zhǔn)
下一代的娛樂生態(tài)
陳際陶是聲網(wǎng)元直播的產(chǎn)品經(jīng)理,她在發(fā)布會(huì)上展示的實(shí)時(shí)面捕功能,可以在直播中同步玩家單邊眨眼、挑眉、眼球轉(zhuǎn)動(dòng)、吐舌頭等動(dòng)作。
這項(xiàng)技術(shù)似乎已經(jīng)在各種 AR 換臉軟件中得到了很好的應(yīng)用,但對(duì)他們來說其實(shí)并不容易。她介紹說,「我們要解決移動(dòng)端的普通單目攝像頭的問題,要解決光源的影響,光亮的陰暗對(duì)于人臉關(guān)鍵點(diǎn)判別的難題,以及說眼鏡遮擋對(duì)于眼部的識(shí)別的問題?!?/p>
這也引出了聲網(wǎng)技術(shù)解決方案的另一個(gè)特點(diǎn)——強(qiáng)兼容性。
圖注:聲網(wǎng)面?zhèn)杉夹g(shù)能完成對(duì)高級(jí)表情的捕捉
作為一家技術(shù)服務(wù)提供商,聲網(wǎng)并不是產(chǎn)品的最終「締造者」,他們的責(zé)任在于對(duì)接每個(gè)場(chǎng)景內(nèi)盡可能多的客戶,提供底層和通用的技術(shù),讓客戶能在他們提供的技術(shù)服務(wù)基礎(chǔ)上創(chuàng)造價(jià)值。某種意義上來說,他們的最終目標(biāo)在于客戶的使用便利與商業(yè)成功。
「大家用過蘋果應(yīng)該都知道,如果在不使用 iPhone 的情況下使用 Airpods,很多體驗(yàn)其實(shí)你是用不了的?!箺罘诮榻B空間音頻技術(shù)時(shí),同樣提到了聲網(wǎng)技術(shù)服務(wù)的獨(dú)特性,「我們的跟他們的區(qū)別在于,蘋果是傳感器硬件加上軟件算法,我們是純軟件的,安卓端、iOS 端、 PC 端,多平臺(tái)都能支持?!?/p>
這在他們的「互動(dòng)游戲」解決方案中也有體現(xiàn)。聲網(wǎng)為它的技術(shù)集成方案適配 3 萬多個(gè)移動(dòng)終端,幾乎覆蓋所有中低端機(jī)型。昌瀟瀟是聲網(wǎng)互動(dòng)游戲的產(chǎn)品經(jīng)理,他補(bǔ)充說,「像在海外,特別是在一些落后的地區(qū),市場(chǎng)上一般情況下都是千元機(jī),我們?cè)谥械投藱C(jī)型的適配這一塊兒是非??粗氐?。」
聲網(wǎng)對(duì)元娛樂業(yè)務(wù)的探索同樣是在做適配。
聲網(wǎng)創(chuàng)始人趙斌曾說,「實(shí)時(shí)音視頻是一種通用能力,作為服務(wù)商,需要持續(xù)推動(dòng)能力與具體場(chǎng)景的碰撞與融合」。實(shí)際上,聲網(wǎng)開展元娛樂業(yè)務(wù)并非沒有依據(jù)。
聲網(wǎng)連續(xù)多年蟬聯(lián)全球?qū)崟r(shí)互動(dòng)解決方案市場(chǎng)份額第一,全球注冊(cè)應(yīng)用超過 40.5 萬,活躍客戶數(shù)量達(dá)到 2670 家。在這些客戶中,很大一部分來自于社交娛樂領(lǐng)域,比如一些國民級(jí)別的在線 K 歌應(yīng)用。
這些客戶原本只是采購了實(shí)時(shí)音視頻服務(wù),但在跟客戶的溝通中,聲網(wǎng)團(tuán)隊(duì)發(fā)現(xiàn)了這些客戶的普遍痛點(diǎn):沒有時(shí)間和精力投入研發(fā);一個(gè)平臺(tái)單獨(dú)去談音樂版權(quán)合作時(shí)門檻太高,都要千萬打底。
去年 9 月,聲網(wǎng)推出了一個(gè)叫「K 歌房」的解決方案,由聲網(wǎng)提供 K 歌互動(dòng)場(chǎng)景的研發(fā),集中解決音樂版權(quán)的問題。
聲網(wǎng)與數(shù)字音樂內(nèi)容提供方合作,為開發(fā)者提供豐富 MV 資源
解決方案的發(fā)布象征著聲網(wǎng)業(yè)務(wù)模式上的進(jìn)階。這意味著聲網(wǎng)在 RTC 技術(shù)服務(wù)商的基礎(chǔ)上,嘗試疊加基于場(chǎng)景的通用技術(shù)服務(wù)、整合生態(tài)內(nèi)的其他內(nèi)容,最終打包成一個(gè)整體的解決方案。
這項(xiàng)業(yè)務(wù)很快驗(yàn)證了新模式的可能性,短短幾個(gè)月里,「K 歌房」發(fā)展了幾十個(gè)客戶。在他們看來,聲網(wǎng)提供解決方案的嘗試提高了行業(yè)的效率,同樣的邏輯在泛娛樂領(lǐng)域同樣如此。
「這些社交娛樂的客戶,他們的音視頻服務(wù)其實(shí)之前就已經(jīng)用聲網(wǎng)的了」,王奇說,「在此基礎(chǔ)上,如果我們?nèi)プ鲆恍﹫?chǎng)景跟內(nèi)容的疊加,其實(shí)會(huì)非常方便」。
如果說聲網(wǎng)之前提供的 RTC 技術(shù)服務(wù)是賣面粉,王奇將提供元娛樂解決方案比喻成對(duì)面粉的二次加工,「當(dāng)我們開始關(guān)心到他(客戶)其實(shí)是做餃子館的時(shí)候,我們會(huì)把面粉做成一摞一摞的餃子皮,然后去整合了一些優(yōu)質(zhì)的牛肉跟豬肉剁成餃子餡。」
聲網(wǎng)元娛樂發(fā)布會(huì)后,Cocos CTO 林順參與了圓桌討論,在他看來社交類應(yīng)用主要聚焦在特定場(chǎng)景,相較于其他領(lǐng)域確實(shí)更易與元宇宙概念結(jié)合。
現(xiàn)實(shí)卻是如此,2021 年燃起的「元宇宙」之火,還在以一種更容易落地的「+泛娛樂」的方式延續(xù)。
去年,VR 社交平臺(tái) Rec Room 融資了 1 億美元,VRChat 也完成了 8000 萬美元的 D 輪融資,Snapchat 收購 6 家 AR 相關(guān)底層軟件算法和硬件企業(yè)。3D Avatars 公司 Genies 近期宣布獲得了 1.5 億美元的 C 輪投資,用以擴(kuò)展 Metaverse Avatars 的開發(fā)。國內(nèi)網(wǎng)易、騰訊、字節(jié)等大廠的元宇宙社交平臺(tái),也在 2021 年底和 2022 年初紛紛上線。
聲網(wǎng)的很多客戶也都是元宇宙領(lǐng)域的種子選手,比如中東及北非地區(qū)最大的語音社交娛樂平臺(tái) Yalla、火遍北美與拉美的元宇宙社交軟件 Oasis。聲網(wǎng)還發(fā)起了「聲選計(jì)劃」,項(xiàng)目聚焦 RTE 賽道下的技術(shù)型合作方,協(xié)作推出更豐富和更優(yōu)質(zhì)的聯(lián)合產(chǎn)品解決方案。
這家實(shí)時(shí)互動(dòng)領(lǐng)域的技術(shù)領(lǐng)頭羊在元娛樂業(yè)務(wù)上的動(dòng)作,是要為共建一個(gè)面向「元宇宙」的、下一代的娛樂生態(tài)做準(zhǔn)備了。