來源:映維網 作者 夢秋
復雜的捕獲設備可用于生成非常高質量的人類體三維重建。這種系統主要依靠昂貴的高端基礎設施來處理捕獲的大量數據。由于每幀需要數分鐘的計算時間,所以當前的技術不適合實時應用。
關于“volumetric”翻譯:
volumetric是volume的變形,主要含義指“體積”,是一種“體積”上度量。行業常見翻譯“容積”是一種錯誤的翻譯,映維網也曾錯誤用過。“容積(容量)”在英語中一般用 capacity 來表達,而不是用volume 。
假設一個金字塔體積是A,內部容量(容積)是B,金字塔墻壁的體積是C,則A=B+C。如果對該金字塔進行volumetric度量,那結果是跟A相關的,但如果翻譯成“容積”結果就是跟B相關,所以用“容積”是不對的。一個物體有體積,但不一定有容積。 在計算機里,volumetric指三維立體上的度量,相關詞組映維網最早在2015年翻譯成“體式/體式三維/體式視頻”等,后經多次反復研究論證后,統一簡化成更恰當直觀的“體三維”,也更有專業術語的味道。
另一種進行人類體三維重建的方法是將實時非剛性融合管道擴展到多視圖捕獲設置中。然而,相關的結果存在幾何失真、紋理質量差和光照不準確等問題,難以達到增強現實/虛擬現實應用所要求的質量水平。
針對這個問題,谷歌正在積極探索可行的實時解決方案。
美國專利商標局日前公布了一份名為“Volumetric Capture Of Objects With A Single Rgbd Camera”的專利申請。其中,谷歌描述了一種利用單個RGBD攝像頭對對象進行體三維捕捉的方法和系統。
在一個實施例中,一種方法包括使用單個RGBD攝像頭接收包括顏色數據和深度數據的第一圖像;確定與顯示第二圖像的增強現實和/或虛擬現實顯示器相關聯的視點;接收包括第一圖像中的對象的至少一個校準圖像;并且根據所述第一圖像、所述視點和所述至少一個校準圖像生成第二圖像。
在一個實施例中,所述的至少一個校準圖像可以是對象的輪廓圖像。第二圖像的生成可以包括,通過將二維關鍵點映射到與至少一個校準圖像相關聯的深度數據的相應三維點,確定對象的目標姿態。第二圖形的生成同時可以包括,使用卷積神經網絡將所述至少一個校準圖像和所述對象的目標姿態作為輸入,通過在所述至少一個校準圖像中翹曲所述對象來生成所述第二圖像。
進一步而言,第二圖像的生成可以包括,在具有至少一個校準圖像作為輸入的卷積神經網絡的第一通道中生成至少一個部分掩模(Part Mask),在卷積神經網絡的第一通道中生成至少一個部分圖像(Part-Image)。然后,卷積神經網絡將至少一個部分掩模和至少一個部分圖像作為輸入,并在第二通道中生成第二圖像。第二圖像的生成可以包括使用卷積神經網絡的兩個通道,所述卷積神經網絡通過最小化與對象翹曲相關的至少兩個損失來訓練。可以使用神經網絡混合第二圖像以生成第二圖像的缺失部分。第二圖像可以是對象的輪廓圖像。所述方法同時包括將第二圖像與背景圖像合并。
在一個實施例中,所述方法同時可以包括預處理階段。在預處理階段中,可以在對象姿態改變的同時捕獲多個圖像;將所述多個圖像存儲為至少一個校準圖像;根據目標姿態為所述至少一個校準圖像中的每一個生成相似性得分;以及根據相似度得分從所述至少一個校準圖像中選擇所述至少一個校準圖像。
簡單來說,系統可以首先通過RGBD攝像頭捕獲包含顏色數據和深度數據的第一圖像并確定第一圖像中的對象的姿態;系統可以同時根據眼動追蹤確定用戶的視點;根據對象姿態和用戶視點,系統可以確定校準圖像;最后,根據第一圖像、用戶視點和校準圖像,系統利用卷積神經網絡實時生成在AR/VR顯示器顯示的第二圖像。其中,第二圖像為體三維多視圖圖像。
谷歌在專利中寫道:“通過利用卷積神經網絡,單個RGBD攝像頭可以實時地捕獲和儲存校準圖像,并用于為增強現實和虛擬現實生成高質量的體三維重建多視圖圖像。”
相關專利:Volumetric Capture Of Objects With A Single Rgbd Camera
名為“Volumetric Capture Of Objects With A Single Rgbd Camera(使用單個RGBD攝像頭對對象進行體三維捕捉)”的谷歌專利申請最初在2020年4月提交,并在日前由美國專利商標局公布。需要注意的是,這只是一份專利申請,尚不確定實際的應用效果,而且不確定谷歌是否會或將于何時商業化所述的發明技術。
原文鏈接:https://yivian.com/news/79741.html