很多玩家在置身VR游戲中的時候,總是會因為感覺不到自己的身體而“出戲”,使其無法完全沉浸在游戲中。為了解決這個問題,研發(fā)團隊通過在游戲當中加入全身追蹤技術(shù),讓玩家在游戲中也能夠感受到“虛擬”身體。
不過,這類技術(shù)難度太大,而且需要花費開發(fā)者很多的時間和精力,因此在目前的VR體驗中中,更多地是只針對用戶手部及手臂進行追蹤。比如,Leap Motion一直致力于研發(fā)手部追蹤技術(shù),其Orion手部追蹤技術(shù)能夠精準捕捉手部動作,為用戶帶來更自然的交互體驗。
而最近,英特爾Realsense團隊軟件工程師Philip Krejov向大家展示了一種通過攝像頭追蹤全身的方案。據(jù)悉,這是一種基于深度學習的VR/AR人體動作識別技術(shù),使用的硬件包括攝像機和HTC Vive追蹤器,在性價比方面比全身服更有優(yōu)勢。
早在之前,許多VR公司就曾嘗試融入全身追蹤技術(shù),比如OptiTrack開發(fā)全身動捕解決方案、Kaaya Tech推出的動作捕捉全身服Holosuit等。
那么 ,到底如何將全身追蹤技術(shù)與VR體驗相結(jié)合呢?
集成6個RealSense深感相機
據(jù)悉,Krejov使用了6個RealSense深感相機,Realsense相機在30分鐘內(nèi)提供了大約50,000張?zhí)幚磉^的訓(xùn)練圖像,而無需手動準備。
不過,多個相機同時使用就需要考慮時間同步的問題,還需要將它們校準到同一坐標空間。使用三角測量法時,可以采用軟件同步的方式,但是對于這種更復(fù)雜的任務(wù)來說,為減少偽影的出現(xiàn),就不得不考慮同步攝像頭觸發(fā)裝置的方法。
Krejov的多視角捕捉法,需要將六臺攝像機等距擺放在追蹤目標周圍。他表示,這時多臺相機可以同時工作,甚至為每臺相機設(shè)定需要捕捉的專屬節(jié)點。
他還表示,這些相機需要通過校準,與統(tǒng)一的坐標系對齊,于是談對將HTC Vive追蹤器裝在校準圖表上,通過移動來校準相機攝像頭和HTC Vive。這項多視角捕捉技術(shù)可實現(xiàn)更準確的自動標記,比如聳肩、抬腿等細微的動作。
多視角捕捉
Krejov提出的動作識別方案需要收集RGB和深度圖像數(shù)據(jù)生成點云,這樣每一個樣本就各代表了人體表面的一點。與真實數(shù)據(jù)相比,合成的訓(xùn)練數(shù)據(jù)缺少了噪點等特性,這些噪點是很難模仿合成的。但是真實數(shù)據(jù)需要人工標記,因此在時間、成本和準確性上都有局限。
為了采集動作數(shù)據(jù),美國卡內(nèi)基梅隆大學曾研發(fā)全景式三角測量法,即先繪制手上關(guān)節(jié)的平面圖,接著制作成手的3D模型,然后再重新投射到2D平面上,反復(fù)優(yōu)化。
在全景式三角測量法基礎(chǔ)上,Krejov提出了多視角捕捉的概念,這就需要使用更多攝像機,不過好處是能夠采集到更準確的數(shù)據(jù)。另外,由于采集到的數(shù)據(jù)中動作比較單一,重新采集數(shù)據(jù)的情況也不可避免,目的是為了確保不同動作的數(shù)據(jù)量平均。
Krejov稱,使用這種方法,就不再需要手動標記,只需監(jiān)督拍攝過程,而且在30分鐘內(nèi),就能夠采集到5萬張完成標記的訓(xùn)練樣本。
手勢和動作識別
這類型的識別技術(shù)分為機器學習法和模型擬合兩大類,前者通過數(shù)據(jù)訓(xùn)練來識別身體部位(可估計每幀的關(guān)節(jié)位置),優(yōu)點是能夠達到很高的幀率,缺點是訓(xùn)練需要數(shù)百萬張圖片;后者利用符號距離轉(zhuǎn)化功能將預(yù)先構(gòu)建的人體或手部模型向點云數(shù)據(jù)靠近,缺點是需要多次模擬。
Krejov曾將機器學習和模型擬合相結(jié)合,編寫了一款能夠在40fps的CPU上運行的手勢識別算法。他通過收集手部數(shù)據(jù),然后將數(shù)據(jù)與模型擬合。同樣適用這種方式的DoubleFusion技術(shù),能夠預(yù)測人體的動作,不過局限依然是對計算要求高。
通過以上方案,Krejov提出了全身動捕解決方案,為用戶帶來更為沉浸式的體驗。
來源:87870