來源:映維網 作者 黃顏
在今年6月舉行的2020年計算機視覺和模式識別大會中,Facebook Reality Labs的首席科學家邁克爾·亞伯拉什通過視頻介紹了團隊的研究及相關進展。
其中,亞伯拉什展示了優化的手部追蹤功能,并表示現在Facebook研發的系統已經能夠相當精確地追蹤手部和手指的快速運動。另外,他指出光學手部和手指追蹤將成為空間計算機范式的重要組成要素。
相關團隊在8月舉行的SIGGRAPH大會展示了所述研究,并發布了具體論文。
以前大部分關于手部追蹤的研究都集中在外部深度攝像頭或RGB攝像頭。深度攝影頭可以提供2.5D點云的手部幾何圖像。然而,深度攝像頭對硬件設計和電量使用提出了額外的要求。相比之下,RGB攝像頭更容易集成,而隨著深度學習技術的進步,它們的實用性同樣在不斷提高。所以,利用單一RGB攝像頭和神經網絡來預測手部姿態已經成為一個熱門的研究課題。
Facebook Reality Labs主要提出了用于驅動虛擬現實和增強現實體驗的實時手部追蹤系統。利用四個魚眼單色攝像頭,系統能夠生成精確和低抖動的三維手部。研究人員主要是通過用于檢測手部和估計手部關鍵點位置的神經網絡架構來實現這一點。
相關論文:MEgATrack: Monochrome Egocentric Articulated Hand-Tracking for Virtual Reality
手部檢測網絡能夠可靠地處理各種真實世界的環境,而關鍵點估計網絡則利用追蹤歷史來產生時空一致的姿態。團隊同時設計了可擴展的半自動機制,通過手動注釋和自動追蹤相結合的方式來收集大量不同的ground truth數據。
另外,研究人員引入了一種追蹤檢測的方法,在降低計算成本的同時提高了平滑度。優化后的系統在PC端能夠以60Hz的速度運行,而移動處理器則是30Hz。
使用單色攝像頭進行手部追蹤
下圖概述了Facebook研發的手部追蹤系統。團隊從四個單色攝像頭的圖像開始,檢測每個圖像中的左手和右手,并生成一組邊界框。然后,從圖像中裁剪出每個包圍盒(bounding box),并將其傳遞給能夠檢測21個關鍵點的網絡。相關的手部模型分為兩部分:一個是手部骨架S;另一個是網格模型M。手部骨骼S由26個自由度組成,其中6個自由度代表全局變換,4個旋轉自由度代表手指關節。
具體而言,手部檢測的任務是在每個輸入圖像中尋找每只手的包圍盒。一個關鍵的挑戰是確保對各種真實世界環境的魯棒性。為了應對這一挑戰,團隊使用半自動標記方法收集了大量不同的手部檢測數據集,并提出了一個簡單而高效的CNN架構:DetNet
由于任何輸入都有固定數量的輸出(最多兩只手),團隊將DetNet設計成直接從VGA分辨率輸入圖像中回歸出每只手的2D中心和標量半徑,并經過各種算法函數來預測相關的包圍盒。
然后,關鍵點估計網絡KeyNet根據手部檢測步驟中預測的包圍盒來從圖像中預測出關于手部的21個關鍵點。
先前關于關鍵點估計的研究通常是獨立地處理每個圖像。對于實時多攝像頭系統來說,這存在幾個缺點。首先,當手在重疊的攝影頭視圖之間移動時,預測的質量會降低,因為每個視圖都是獨立處理;第二,關鍵點容易抖動,因為時間一致性不是強制執行。為了解決這兩個問題,研究人員將網絡設計成顯式地將推斷出的關鍵點納入為一個額外的網絡輸入。
研究使用了四個VGA同步全局快門攝像頭來驅動手部追蹤系統。每個攝像頭的視場范圍為150度(寬)、120度(高)和175度(對角線)。右側的中心區域由兩個或多個攝像頭(立體、紅色/橙色/綠色)覆蓋,從而確保區域內的追蹤最為準確。
為了給KeyNet訓練生成關鍵點標簽,研究人員使用基于深度的手動追蹤系統生成groundtruth關鍵點注釋,并將生成的關鍵點投影到數個已校準的單色視圖中。
如上圖所示,六個60Hz的單色魚眼攝像頭放置在一個剛性框架之上,而一個50Hz的單色深度攝像頭則用來捕捉和標記手部運動。攝像頭在空間和時間方面都相互注冊,所以手部追蹤器生成的關鍵點可以重新投影和插值到單色視圖中。另外,由于這一捕獲裝置具備移動性,從而能夠快速捕捉光線和環境的變化。
包圍盒標簽對于訓練一個精確的數據網絡而言十分重要。為了最大化標記任務的吞吐量和效率,研究人員使用了一個創新的半自動解決方案來標記包圍盒。在手動標記初始幀的手部包圍盒之后,團隊使用一個經過訓練的KeyNet和一個追蹤管道來傳輸手勢。如果注意到追蹤器失敗,注釋器只需注釋一個新盒,被追蹤的手部就會自動更新。
研究人員分別使用通用的、校準的和掃描的方法來描述默認的手部模型。表1的中間部分使用了通過掃描系統獲得的手部模型。我們可以看到,團隊研發的KeyNet所生成的MKPE與基線Keynet-S相似,但MKA在立體和單目圖像方面都顯著降低。這表明,所述的KeyNet架構能夠有效地提高時間平滑度。
表1中的底部部分說明了解析手部比例的重要性。與使用掃描系統獲得的手部模型相比,使用通用手部模型時的系統精度大大降低。當追蹤器在單目模式下運行時,這種問題更為嚴重,因為在單一視圖中解析深度模糊嚴重依賴于手部模型比例的準確性。利用團隊提出的手部比例分解方法,追蹤精度接近于通過三維掃描獲得的手部模型。
當然,上述解決方案依然存在失敗的情況,例如在進行復雜的手-手交互和手-對象交互時,以及出現不常見的手部視圖時。研究人員承認,手-手交互和手-對象交互的失敗反映了系統的設計依然存在局限性。展望未來,團隊將繼續致力于提升追蹤系統的精確性和魯棒性。
原文鏈接:https://yivian.com/news/77885.html