大多數(shù)人對(duì)于預(yù)測(cè)三維人體姿態(tài)可能不太關(guān)注,但機(jī)器人、計(jì)算機(jī)圖形學(xué)和有關(guān)物體運(yùn)動(dòng)的力學(xué)分支等其它關(guān)注運(yùn)動(dòng)學(xué)的領(lǐng)域,將能從這點(diǎn)系統(tǒng)中受益。
姿勢(shì)預(yù)測(cè)是人工智能(AI)以前就已經(jīng)應(yīng)用的一項(xiàng)任務(wù),最近,谷歌在一定程度上開(kāi)始應(yīng)用,但之前的一些工作遇到了障礙:它以非自然的方向拉伸數(shù)字關(guān)節(jié)和骨骼,尤其是當(dāng)關(guān)節(jié)旋轉(zhuǎn)時(shí)。
幸運(yùn)的是,F(xiàn)acebook人工智能研究部門(mén)、谷歌大腦以及蘇黎世聯(lián)邦理工學(xué)院的最新研究都承諾將解決這個(gè)問(wèn)題。本周,在Arxiv.org上發(fā)表的一篇論文“模擬人類(lèi)運(yùn)動(dòng)的模型”中,研究人員描述了一個(gè)人工智能系統(tǒng),它通過(guò)將關(guān)節(jié)旋轉(zhuǎn)作為一種復(fù)雜的數(shù)字系統(tǒng),并通過(guò)懲罰關(guān)節(jié)位置錯(cuò)誤來(lái)改進(jìn)姿態(tài)的生成。
圖:AI系統(tǒng)生成的人體姿態(tài)
作為論文的合著者解釋,復(fù)發(fā)性神經(jīng)網(wǎng)絡(luò)——一種人工智能算法具有學(xué)習(xí)能力的長(zhǎng)期依賴,歷來(lái)都被用來(lái)執(zhí)行短期和長(zhǎng)期預(yù)測(cè),而卷積神經(jīng)網(wǎng)絡(luò)算法非常善于分析視覺(jué)表象,已經(jīng)成功地應(yīng)用于長(zhǎng)期代運(yùn)動(dòng)(從一個(gè)位置到另一個(gè)位置的運(yùn)動(dòng))。但由于人體姿勢(shì)的固有隨機(jī)性,完美的模型仍然難以獲得。
“人類(lèi)的運(yùn)動(dòng)是一個(gè)具有高度不確定性的隨機(jī)過(guò)程,”研究人員寫(xiě)道,“對(duì)于給定的過(guò)去,未來(lái)可能會(huì)有多個(gè)框架序列,不確定性會(huì)隨著時(shí)間的推移而增加。”
大多數(shù)模型都運(yùn)用了過(guò)渡運(yùn)算來(lái)預(yù)測(cè)下一個(gè)姿勢(shì),它們從攝取的記錄幀中輸出記錄的目標(biāo)幀,這在很大程度上是有效的。但它不會(huì)讓他們暴露自己的錯(cuò)誤,因此會(huì)阻止他們從這些錯(cuò)誤中恢復(fù)。
圖:AI模型生成的姿態(tài)
相比之下,研究人員提出的系統(tǒng)使用了一個(gè)卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以查看過(guò)去的幀,隨著時(shí)間的推移,逐漸暴露在自己的預(yù)測(cè)中,并學(xué)習(xí)如何進(jìn)行長(zhǎng)期預(yù)測(cè)。同時(shí),損失函數(shù)——將一個(gè)或多個(gè)變量的值映射到實(shí)數(shù)上的函數(shù),作為輸入關(guān)節(jié)旋轉(zhuǎn)并計(jì)算每個(gè)關(guān)節(jié)的位置。這兩位作者說(shuō),這既提高了模型的穩(wěn)定性,又減少了誤差。
為了驗(yàn)證模型的短期姿態(tài)預(yù)測(cè)能力,研究人員搜集了360萬(wàn)份人體姿態(tài)數(shù)據(jù),這是一個(gè)開(kāi)源的三維人體姿態(tài)數(shù)據(jù)集,其中360萬(wàn)份人體姿態(tài)來(lái)自于7位演員執(zhí)行15個(gè)動(dòng)作時(shí)的姿態(tài),以及相應(yīng)的圖像,并對(duì)包含運(yùn)動(dòng)樣本的不同數(shù)據(jù)集進(jìn)行了長(zhǎng)期生成測(cè)試。
在短期預(yù)測(cè)任務(wù)中,合著者報(bào)告了人類(lèi)3.6米基線的改善。在長(zhǎng)期姿態(tài)生成的情況下,目標(biāo)是生成給定平均速度和地面軌跡的姿態(tài)序列,他們將模型描述為與最近的工作相比具有“定性”,同時(shí)允許更好地控制時(shí)間和空間約束。他們把四元數(shù)神經(jīng)網(wǎng)絡(luò)擴(kuò)展到其他與運(yùn)動(dòng)相關(guān)的任務(wù),如視頻中的動(dòng)作識(shí)別或姿態(tài)估計(jì),并使用“直接在四元數(shù)領(lǐng)域執(zhí)行計(jì)算”的神經(jīng)網(wǎng)絡(luò)。
【來(lái)源:千家網(wǎng)】