來源:映維網 作者 廣州客
VR/AR顯示器的歷史就是一種折衷權衡。市場中的大多數產品都屬于單平面模型,無論場景中的對象有多遠,用戶都只能不自然地聚焦于單一的距離。對于Magic Leap等基于波導的多焦點顯示器,其價格昂貴,而且視場有限,所以行業對各種替代品越發感興趣。其中,最富前景的研究領域之一是全息顯示,它承諾了一個簡單的逼真裸眼結果。
遺憾的是,為全息顯示器生成圖像是一個復雜而耗時的過程。針對這一問題,斯坦福大學助理教授戈登·韋茨坦(Gordon Wetzstein)日前在SIGGRAPH大會發表了團隊的最新研究成果——Neural Holography。除了戈登·韋茨坦之外,研究小組中還有斯坦福大學博士后Yifan Peng,斯坦福大學博士學生Suyeon Choi,斯坦福大學博士畢業生Nitish Padmanaban,以及英偉達高級研究科學家Jonghyun Kim。
相關項目:Neural Holography
“Neural Holography”使用了一個專門的神經網絡,并通過所謂的Camera-in-the-Loop模擬器進行訓練,從而產生高質量的結果,并且所述系統可以實時運行,目前大約為30幀/秒。
1. 全息顯示器的工作原理
對我們中的大多數人而言,我們對全息圖的第一次記憶或許是博物館陳列柜的一幅昏暗單色圖像。所以,能夠投射出彩色圖像是一種非常不可思議的事情。但基本原理沒有改變:使用激光光源并進行準直(這樣所有的光波都是平行),然后通過一個空間光調制器(SLM)進行傳輸。其中,調制器在每像素的基礎上改變相位。
結果是一個帶有干涉圖案的光場,并可用于創建場景的三維圖像。用戶通過一個透鏡瀏覽圖像,而系統將在視網膜上產生二維投影。在最簡單的應用中,SLM使用固定的變換,但為了優化結果,涉及的變換需要更復雜。例如,斯坦福大學的研究就是單獨處理每一個像素。
2. Neural Holography是如何優化全息顯示管道
CGH(計算機產生的全息圖)是一個嘗試通過顯示器投射的全息圖來重現場景的過程。在這種情況下,所述顯示器是指一個近眼頭戴式顯示器。除了硬件之外,創造逼真圖像的最大挑戰是SLM應用的變換。要創建一個可信的全息投影,SLM只能使用通過它的光線的相位變化。
現有的變換計算算法要么是速度快但質量不好(直接方法),要么是速度太慢,不適合實時使用,但質量好(迭代方法)。在斯坦福研究小組的論文中,他們介紹了一系列的現有方法及其缺點,并同時提出了能夠兩者互補的創新方案。
斯坦福大學的實驗室設置使用了RGB激光器、準直光學器件、液晶硅基SLM,并采用機器視覺攝像頭進行Camera-in-the-Loop仿真
首先,他們在典型的全息模擬裝置上增加了一個實際的攝像頭,以增強他們校準和訓練系統的能力。通過包含光學元件,所述裝置比只關注SLM輸出圖像的傳統系統更適合模擬真實的顯示器和人眼。團隊通過使用諸如隨機梯度下降(SGD)等優化方法來訓練系統學習如何為顯示器的SLM創建高質量的變換,并且顯示出更優的結果。攝像頭僅用于校準和訓練。一旦這個步驟完成,結果就可以用一個更簡單的系統進行顯示。
相關論文:Neural Holography
然而,研究小組建立了一個高效的神經網絡HoloNet,并訓練它來創建系統本身的模型,包括SLM變換和光學像差。所述模型用于顯示圖像,包括不在初始訓練集中的圖像。高性能的推斷方法使其能夠實時計算所需的變換,即使對于1080p的圖像同樣如此。所以,團隊能夠獲得與傳統迭代算法一樣好或更好的直接結果,并且幾乎與他們自己的CITL迭代結果一樣好。
通過添加攝像頭,CITL(camera-in-the-loop)模擬器能夠更準確地反映頭顯光學元件的真實世界結果
3. Neural Holography顯示出令人印象深刻的質量和優良的性能。
HoloNet(右)與DPAC(雙相位振幅編碼)的對比結果,后者在2017年SIGGRAPH大會中展示時屬于當時最先進的技術
團隊將HoloNet的結果與之前發布的領先算法進行比較,包括Wirtinger Holography、DPAC、GS(Gerchberg-Saxton),以及他們最初的CITL(camera-in-loop)成果。它不僅提供了令人印象深刻的表現,同時產生了優于其他方案的結果。
4. Holonet不僅可用于全息顯示器
韋茨坦認為全息顯示是AR/VR顯示領域中最有趣的研究領域之一,因為它的研究程度遠不及傳統顯示器。然而,他并不認為HoloNet的應用只能用于全息顯示器,因為變焦顯示器和多焦顯示渲染同樣面臨著類似的挑戰。團隊正在探索將所述結果與變焦顯示和多焦顯示解決方案相結合的方法,并創建所述方法的全息版本,從而有助于解決一系列的常見問題,如視覺輻輳調節沖突。
————
下面是斯坦福大學計算成像實驗室上傳了電子工程系助理教授戈登·韋茨坦(Gordon Wetzstein)在SIGGRAPH 2020大會的15分鐘演講,中文稿由映維網整理:
大家好,我是斯坦福大學電子工程系的助理教授戈登·韋茨坦(Gordon Wetzstein)。我將介紹我們一份關于神經全息近眼顯示器的新興技術論文。虛擬現實和增強現實是一種將會改變我們感知世界和與其交互的方式的新興媒體技術。在這種應用中,近眼顯示器是用戶和他們看到的所有數字內容之間的接口。所以,構建一種感知真實和視覺舒適的近眼顯示器非常重要。
近眼顯示的基本理念可以追溯到1830年使用的立體鏡,但令人驚訝的是,它們的運作原理在過去的180年里幾乎沒有改變。今天,提升虛擬現實成為了美國國家工程院宣布的21世紀的重大挑戰之一。這正是我們今天的話題。
幾乎所有的近眼顯示器都是基于放大鏡原理。基本上,你通過微型顯示器看到的虛擬2D圖像是由放大透鏡產生。這種固定焦平面設計并不自然。在現實世界中,取決于感知對象的距離,我們的眼睛可聚焦于任意距離或對任意距離進行視覺調節。保持視覺調節固定會導致視覺輻輳調節沖突,從而導致眼睛疲勞,眼睛不適,視覺重影,視覺清晰度下降,以及其他負面影響。
在過去的數年里出現了旨在解決所述問題的一系列計算近眼顯示技術,但它們都不完美。例如,變焦顯示器非常有效,并且相當簡單,但它們需要顯示器搭載的機械驅動組件或聚焦可調透鏡,而它們在可穿戴設備的形狀參數和功率范圍的平衡內都非常難實現。
多平面顯示器是一個非常優秀的概念,但它們要么需要極高的空間光調制器和聚焦透鏡,要么需要多個顯示平面,而這兩個選項都顯著增加了系統的復雜性。光場顯示器同樣是一個非常優秀的概念,但它們的空間角度分辨率從本質上受到衍射的限制。
行業存在一種實際上是利用衍射來獲得極高圖像分辨率、對比度、深度和其他優勢的顯示技術:全息顯示。
在下面這個示例中,有人正拍攝一個光學記錄的全息圖,而這種全息圖曾在麻省博物館進行過展出。但在它們誕生60年后,以及盡管它們擁有各種各樣的優點,全息顯示依然沒有成為主流技術。
要理解個中的原因,我們下面來討論近眼顯示器中的數字全息圖。
這是菲涅耳式全息近眼顯示器的插圖。激光器發射相干光,由透鏡準直,并傳播到空間光調制器。在這里,光場相位以每像素的方式延遲,光場繼續傳播,而干擾會產生一個可見的強度圖案,亦即用戶可以通過放大透鏡(通常稱為目鏡)感知到的圖像。
相關論文:Neural Holography
如何計算SLM圖案是計算全息技術的核心挑戰之一,我們晚點再談。我們在最近的Siggraph Asia論文中指出,這種顯示器的可實現視場取決于SLM大小和焦距,我們同時指出視窗的大小取決于像素間距,適眼距和波長。
具體的執行摘要是,現有的SLM可以獲得合理的視場,但視窗通常非常小。要計算出在SLM顯示的相位圖案或目標圖像,我們使用計算全息(CGH)。目前主要需兩種CGH算法:直接法和迭代法。直接法利用目標強度,并將相應的波場傳播到SLM平面。
因為大多數現有的SLM只能調制入射光的相位,而不能調節入射光的強度。我們需要將傳播的復值場轉換成相位表示。自由空間傳播是一個經過大量研究的課題。對于平行于SLM的目標強度,我們只需使用傅里葉變換,應用傳遞函數,然后應用傅里葉逆變換。
存在幾種不同類型的變換函數,而每種會進行不同的近似。這里我們給出了角譜變換。以這個2D圖像示例,我們可以計算這種傳播O( N²logN),這通常算起來很快。n是目標圖像中的像素數。有其他幾種方法可以將復值場轉換為純相位場。雙相位振幅編碼方法是其中之一,并且它將復值域表示成只有兩個交互的純相位場的總和。注意,這是一個啟發性算法,它并不總是有效。
對于三維全息圖,我們可以將目標場景表示為點云,并將每個點傳播到這里描述的SLM平面。但即使我們一次傳播每個深度層,這種方法的計算復雜度通常過高。所以如何快速實現這一點依然是一個開放的研究挑戰。
使用前述的自由空間傳播模型,我們同樣可以利用迭代方法。我們在SLM相位圖案和目標強度之間迭代幾次,它的速度要比直接方法慢,但通常能給我們一個更好的目標圖像的純相位表示。
總而言之,迭代方法通常較慢,但質量更好,而直接方法速度較快,但通常質量不太好。任何迭代方法,如經典的Gerchberg–Saxton Algorithm和最近提出的Wirtinger Holography,我們可以迭代更長時間以獲得稍好的圖像質量,但存在一個上限。
在我們的ETec論文中,我們展示了一個簡單的隨機梯度下降方法(stochastic gradient descent approach),在模擬中實現了最好的圖像質量,并且我們開發了一個全新的網絡架構Holo Net,而它能夠實時做到幾乎同樣的質量。
我告訴你更多關于這種針對CGH的新方法。任何CGH方法的目標是為了求解這里所示的一個目標函數。f^是我們自由空間傳播的模擬模型,a是目標振幅。注意,由于SLM的光學像差相位非線性和其他效應,顯示器中的物理光傳播f通常與f^略有不同。
這里是一個模擬的理想光傳播模型f^。現在我們可以使用簡單的梯度下降更新規則進行迭代。我們從一些SLM相位的初始猜測開始,我們模擬正向模型,我們使用一些損失函數(如均方誤差)將模擬結果與我們的目標進行比較,然后我們向后傳播回相位。
如果反復應用,這個簡單的方法最終會獲得一個優秀的分辨率。
為了測試這個算法和比較兩個備選方案,我們運行模擬。所有方法看起來都非常好,不過Gerchberg–Saxton Algorithm總之會有不少的噪點。如果你仔細觀察,SGD的質量最好。
這個模擬假設,我們用來優化相位圖案的自由空間傳播模型與用來模擬最終圖像的模型一樣,但我們來看看如果我們在模擬模型和物理模型之間添加少量的模型不匹配會發生什么,方法是引入一點光學像差。你可以看到,所有的方法都失敗了,包括SGD。這并不奇怪,因為即便是以光波長的序列(傳播),模擬光傳播和物理光傳播的不匹配都會導致完全不同的干擾圖案。這意味著就現階段而言,在顯示器使用一個更好的物理光傳播模型可能會比使用更聰明的算法要好很多,但我們很難以所需的精度校準全息顯示器。
我們提出了一系列以全自動方式解決所述問題的技術組合。我們稱之為Camera-in-the-loop Holograpy。這個概念十分簡單,在循環中用一個相機捕捉物理顯示器的圖像,與目標圖像進行比較,然后反向傳播誤差。這聽起來相當容易,但實際操作并不簡單。我沒有足夠的時間講解技術細節,但你可以參閱我們的論文。下面我們來看看一些結果。這里直接變焦了采用了理想光傳播模型的SGD和采用Camera-in-the-loop模型的SGD。
相關論文:Neural Holography
我們可以看到,我們的概念可以實現顯著更好的圖像質量。顏色和對比度大為改善,噪點明顯降低,如背景所示。另外,圖像看起來更好。我在這里不怕說,這是最先進的CGH方法。但挑戰是每個目標圖像都需要在循環中使用一個相機。為了克服這個限制,我們將優化分解為訓練階段和推理階段。在訓練階段,我們使用相機來估計物理光傳播的基于模型的表示,我們使用了一組訓練圖像。在推理階段,我們不需要相機,只使用我們的校準模型來優化新的目標圖像。我們比較了這種基于模型的方法,以及原本最好的CHG方法,結果表明我們的方法顯著更優。
下面這里是對各種CHG迭代方法的整體對比,包括我們Camera-in-the-loop Holograpy的兩種變體,而這兩者都比現有的方法有了顯著的改進,其中最右邊的方法效果最好。
我們同時開發了一個神經網絡。它將sRGB空間中的目標圖像作為輸入,并將其轉換為振幅。我們使用一個unit來預測目標平面的相位。這個復值場通過我前面提到的校準模型進行調整,并在這里傳播到SLM平面。
我們通過另一個unit發送光場以計算純相位SLM圖案,然后再計算其他方面。我們使用產生的SLM圖案模擬正向模型,將結果與目標圖像進行比較,并在訓練期間將誤差反向傳播到我們的兩個unit。
完成訓練后,這個網絡能夠實時工作。與今天最佳的直接方法相比,HoloNet顯著更好。在數量方面上,它不像我們的迭代方法那樣好,但已經非常接近,而且它能夠實時運行。
這里是額外的比較。
所提出的方法同樣適用于三維全息圖。這里是一種全息變焦距顯示模式。在這種情況下,我們針對兩個平面來校準模型,然后選擇一個或另一個來顯示一個圖像。這樣做的效果非常好。
我們同時探索了全息多平面顯示模式。在這種模式下,我們同時優化了三個不同深度的平面。這里是相機實時捕捉到的畫面。對于綠色通道,我們將相機鏡頭聚焦到那三個平面。
我還沒有給你們看的是我們的原型裝置。它看起來像這樣。它包含一個激光器,準直光學元件,SLM,我們用來阻擋部分更高的衍射階數(diffraction order)的4f系統,以及一個用來捕捉結果的相機。好,我們縮放看看。
這是一個HoloNet的實時捕捉結果。內容是實時生成并實時捕捉。白框是動態顯示區域。這個框外的所有照明都不受算法的約束。盡管這些結果并不完美,但這可能是目前最好的實時方法。
我們在這幀暫停,并看看一些比較結果。
下面是一個次優的實時方法,而它的效果顯然更加糟糕。然后這里是Gerchberg–Saxton的結果,你可以看到畫面的噪點非常多。Wirtinger Holography的效果稍微好一點,但也不是非常好。然后是我們的Camera-in-the-loop優化方法,它依然不是最完美的方案,但在所有這些方法中,它肯定是最好的一個,而且領先一大截。
再次說明,與其他迭代方法類似,這個結果不是實時計算,而是從我們的RGB顯示器原型實時捕捉。
因為其他的計算顯示器使用成熟的微型顯示技術,所以我們真的很難擊敗它們。變焦顯示器已經發展到工業原型階段。多平面顯示器已經出現在市場中,例如Magic Leap ML1有兩個焦平面。光場顯示器是一個非常棒的主意。但它們的分辨率受到衍射的限制。另一方面,全息顯示器則是通過衍射來實現,但很難獲得像其他顯示器一樣高的圖像質量。所以,光場顯示和全息顯示可能是這里最有趣的研究方向,而我想說的重點是,這些都是非常互補的技術。
感謝你的觀看,我同時要感謝我團隊的其他成員,以及我們的贊助商。謝謝。
原文鏈接:https://yivian.com/news/77837.html