為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

為了讓你在VR中身臨其境體驗社交,Facebook等公司正在從多方面提升VR社交體驗,比如開發大規模社交平臺,或是研發逼真、寫實的VR頭像系統。目前,大多數VR頭像系統只能手動設定特徵,並不能100%代表使用者本人的形象,而為了解決這一問題,Facebook Reality Labs曾研發基於容積攝影技術的逼真3D頭像Codec Avatar。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

前不久,Facebook Reality Labs將Codec Avatar的研究延伸至全身,不只是可以渲染逼真的面部表情,也能還原你身體的3D模型,以及3D姿態變化。儘管如此,要想動態渲染使用者的全身動作,這項技術還需要與準確的姿態捕捉方案結合。

不過,現有的VR頭顯還不能追蹤全身,僅追蹤雙手就已經難以識別遮擋。在加入額外的嘴唇追蹤器和眼球追蹤模組後,僅能識別全臉表情。而市面上常見的全身動捕裝置,更常用於電影拍攝,對成本、追蹤範圍的要求比較高。相比之下,市面上的一些C端姿態定位器則包括Vive Tracker、Tundra Tracker等等,其方案基於光學定位,原理類似於手柄,需要使用SteamVR基站。而外接的攝像頭,則容易限制你在VR中活動的空間,受可追蹤範圍限制。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

不管是基於攝像頭,還是基於紅外光的姿態識別方案,均存在一些侷限。比如:基於RGB攝像頭的全身姿態預測方案通常效果不夠穩定,除了可追蹤範圍有限外,也難以識別被遮擋的動作。而紅外基站則限制了可追蹤的範圍,使用者不可以走出基站固定的追蹤區域。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

為了解決這一問題,Facebook與瑞士聯邦理工大學科研人員合作,研發了一種基於無線電磁感測器的姿態識別方案EM-POSE,其特點是不受視覺遮擋限制,沒有固定的追蹤區域,可預測6D姿態並實時重建3D人體姿態和模型。這裡6D指的是6個自由度,包含了三個自由度的平移,以及另外三個自由度的空間旋轉,它們合起來就被成為6D姿態。這是一個相對的概念,主要表示兩個座標系之間的平移和旋轉變化。

科研人員表示:AR/VR是一個有潛力的計算平臺,應用場景將包括娛樂、社交、醫療、遠端應用等等。而對於沉浸的AR/VR體驗來講,準確重建使用者的全身姿態是一個關鍵要素。近年來,基於低成本攝像頭的姿態識別技術得到長足發展,不過依然存在許多侷限。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

相比之下,EM-POSE採用可生成電磁場的發射源,接著感測器根據電磁訊號來識別發射源的位置和方向。科研人員將發射源放在使用者後腰,並在身體其他部分放置6到12個定製的無線電磁感測器,以實現全身姿態識別。這樣就可以自由移動,不受基站所在位置限制。

細節方面,電磁感測器的追蹤範圍為使用者周圍0。3到1米之間,因此可以在全身佈局12個感測器,手臂和腿部各2個,脖子2個,頭部和背部各1個。而研究的關鍵是,科研人員透過電磁感測器識別到的資料,預測出對應的SMPL姿態模型和外形引數。SMPL是一種人體三維模型,其特點是包含骨骼蒙皮和紋理,基於定點,可準確表示人體自然姿態。

為了驗證方案效果,科研人員在實驗中安排了一組Azure深度感測器方案,來進行對比和最佳化。接著,還採用OptiTrack動捕裝置來校正感測器的座標。實驗共記錄37分鐘的資料,參與者包括三名女性和兩名男性,動作包括擺動手臂、開合跳、走路等等。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

實驗發現,EM-POSE可準確重建弓步、下蹲等容易產生遮擋的複雜下半身運動,同時也可以忠實還原交叉手臂的動作。此外,開合跳、走路等動態動作也可以準確呈現。12顆感測器的方案誤差最多僅31。8毫米、13。3°,而6顆感測器的方案,誤差可控制在35。4毫米、14。9°以下。

實際上,基於電磁感測的定位方案已經不是新鮮技術,上世紀60年代的時候,就已經在軍事領域得到應用。而且,目前市面上也已經有許多基於電磁感測的定位系統,它們具備不同的追蹤範圍、取樣率/重新整理率、硬體外觀等特徵。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

而對於C端VR場景,科研人員認為現有技術還無法滿足需求,因為感測器體積過大,或是需要連線線,限制使用者移動。除此之外,姿態感測器還需要足夠方便穿脫,可長時間佩戴,才能更吸引C端消費者。相比之下,EM-POSE支援無線感測,而且透過最佳化,還有望將感測器從12顆降低至6顆。據悉,為了用最少的感測器來完成全身姿態追蹤,該團隊研發了一個兩部分解決方案,第一步是根據培訓資料來推測姿態,接著再用演算法來最佳化準確性。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

在訓練姿態學習演算法過程中,科研人員也遇到了一些難題,比如:1,電磁感測的準確性會根據距離加長而降低,因此不同姿態的追蹤準確性也不同;2,如何減少感測器,避免在使用者身上穿戴過多裝置,因此需要透過演算法來推斷無法追蹤到的關節運動;3,預測感測器和面板之間的距離,可穩定計算誤差。

為全身Avatar而生,Facebook研發靈活的6D姿態電磁追蹤方案

另外,6個感測器的姿態識別方案缺少約束;電磁感測的準確性受距離影響,因此對不同姿態的識別準確性也有差異;識別面板與感測器之間細微距離的準確性要高,以避免感測器滑動產生誤差。

為了最佳化演算法,科研人員採用了學習式迭代擬合法中的LGD框架來訓練。基於LGD框架訓練的演算法準確性更高,而且速度比純最佳化的模型要快幾個數量級。採用LGD學習框架,透過神經網路來學習梯度的動態變化,以加速姿態預測的過程。

總之,EM-POSE方案將電磁基站和感測器固定在VR使用者身上,因此如果配合Quest等一體機使用時,應用場景將更靈活,不管是玩遊戲還是社交,你不會再受到空間或連線線限制,而這也是未來C端應用的需求之一。參考:ETH