來(lái)源:映維網(wǎng) 作者 廣州客
VR/AR顯示器的歷史就是一種折衷權(quán)衡。市場(chǎng)中的大多數(shù)產(chǎn)品都屬于單平面模型,無(wú)論場(chǎng)景中的對(duì)象有多遠(yuǎn),用戶都只能不自然地聚焦于單一的距離。對(duì)于Magic Leap等基于波導(dǎo)的多焦點(diǎn)顯示器,其價(jià)格昂貴,而且視場(chǎng)有限,所以行業(yè)對(duì)各種替代品越發(fā)感興趣。其中,最富前景的研究領(lǐng)域之一是全息顯示,它承諾了一個(gè)簡(jiǎn)單的逼真裸眼結(jié)果。
遺憾的是,為全息顯示器生成圖像是一個(gè)復(fù)雜而耗時(shí)的過(guò)程。針對(duì)這一問(wèn)題,斯坦福大學(xué)助理教授戈登·韋茨坦(Gordon Wetzstein)日前在SIGGRAPH大會(huì)發(fā)表了團(tuán)隊(duì)的最新研究成果——Neural Holography。除了戈登·韋茨坦之外,研究小組中還有斯坦福大學(xué)博士后Yifan Peng,斯坦福大學(xué)博士學(xué)生Suyeon Choi,斯坦福大學(xué)博士畢業(yè)生Nitish Padmanaban,以及英偉達(dá)高級(jí)研究科學(xué)家Jonghyun Kim。
相關(guān)項(xiàng)目:Neural Holography
“Neural Holography”使用了一個(gè)專門的神經(jīng)網(wǎng)絡(luò),并通過(guò)所謂的Camera-in-the-Loop模擬器進(jìn)行訓(xùn)練,從而產(chǎn)生高質(zhì)量的結(jié)果,并且所述系統(tǒng)可以實(shí)時(shí)運(yùn)行,目前大約為30幀/秒。
1. 全息顯示器的工作原理
對(duì)我們中的大多數(shù)人而言,我們對(duì)全息圖的第一次記憶或許是博物館陳列柜的一幅昏暗單色圖像。所以,能夠投射出彩色圖像是一種非常不可思議的事情。但基本原理沒(méi)有改變:使用激光光源并進(jìn)行準(zhǔn)直(這樣所有的光波都是平行),然后通過(guò)一個(gè)空間光調(diào)制器(SLM)進(jìn)行傳輸。其中,調(diào)制器在每像素的基礎(chǔ)上改變相位。
結(jié)果是一個(gè)帶有干涉圖案的光場(chǎng),并可用于創(chuàng)建場(chǎng)景的三維圖像。用戶通過(guò)一個(gè)透鏡瀏覽圖像,而系統(tǒng)將在視網(wǎng)膜上產(chǎn)生二維投影。在最簡(jiǎn)單的應(yīng)用中,SLM使用固定的變換,但為了優(yōu)化結(jié)果,涉及的變換需要更復(fù)雜。例如,斯坦福大學(xué)的研究就是單獨(dú)處理每一個(gè)像素。
2. Neural Holography是如何優(yōu)化全息顯示管道
CGH(計(jì)算機(jī)產(chǎn)生的全息圖)是一個(gè)嘗試通過(guò)顯示器投射的全息圖來(lái)重現(xiàn)場(chǎng)景的過(guò)程。在這種情況下,所述顯示器是指一個(gè)近眼頭戴式顯示器。除了硬件之外,創(chuàng)造逼真圖像的最大挑戰(zhàn)是SLM應(yīng)用的變換。要?jiǎng)?chuàng)建一個(gè)可信的全息投影,SLM只能使用通過(guò)它的光線的相位變化。
現(xiàn)有的變換計(jì)算算法要么是速度快但質(zhì)量不好(直接方法),要么是速度太慢,不適合實(shí)時(shí)使用,但質(zhì)量好(迭代方法)。在斯坦福研究小組的論文中,他們介紹了一系列的現(xiàn)有方法及其缺點(diǎn),并同時(shí)提出了能夠兩者互補(bǔ)的創(chuàng)新方案。
斯坦福大學(xué)的實(shí)驗(yàn)室設(shè)置使用了RGB激光器、準(zhǔn)直光學(xué)器件、液晶硅基SLM,并采用機(jī)器視覺(jué)攝像頭進(jìn)行Camera-in-the-Loop仿真
首先,他們?cè)诘湫偷娜⒛M裝置上增加了一個(gè)實(shí)際的攝像頭,以增強(qiáng)他們校準(zhǔn)和訓(xùn)練系統(tǒng)的能力。通過(guò)包含光學(xué)元件,所述裝置比只關(guān)注SLM輸出圖像的傳統(tǒng)系統(tǒng)更適合模擬真實(shí)的顯示器和人眼。團(tuán)隊(duì)通過(guò)使用諸如隨機(jī)梯度下降(SGD)等優(yōu)化方法來(lái)訓(xùn)練系統(tǒng)學(xué)習(xí)如何為顯示器的SLM創(chuàng)建高質(zhì)量的變換,并且顯示出更優(yōu)的結(jié)果。攝像頭僅用于校準(zhǔn)和訓(xùn)練。一旦這個(gè)步驟完成,結(jié)果就可以用一個(gè)更簡(jiǎn)單的系統(tǒng)進(jìn)行顯示。
相關(guān)論文:Neural Holography
然而,研究小組建立了一個(gè)高效的神經(jīng)網(wǎng)絡(luò)HoloNet,并訓(xùn)練它來(lái)創(chuàng)建系統(tǒng)本身的模型,包括SLM變換和光學(xué)像差。所述模型用于顯示圖像,包括不在初始訓(xùn)練集中的圖像。高性能的推斷方法使其能夠?qū)崟r(shí)計(jì)算所需的變換,即使對(duì)于1080p的圖像同樣如此。所以,團(tuán)隊(duì)能夠獲得與傳統(tǒng)迭代算法一樣好或更好的直接結(jié)果,并且?guī)缀跖c他們自己的CITL迭代結(jié)果一樣好。
通過(guò)添加攝像頭,CITL(camera-in-the-loop)模擬器能夠更準(zhǔn)確地反映頭顯光學(xué)元件的真實(shí)世界結(jié)果
3. Neural Holography顯示出令人印象深刻的質(zhì)量和優(yōu)良的性能。
HoloNet(右)與DPAC(雙相位振幅編碼)的對(duì)比結(jié)果,后者在2017年SIGGRAPH大會(huì)中展示時(shí)屬于當(dāng)時(shí)最先進(jìn)的技術(shù)
團(tuán)隊(duì)將HoloNet的結(jié)果與之前發(fā)布的領(lǐng)先算法進(jìn)行比較,包括Wirtinger Holography、DPAC、GS(Gerchberg-Saxton),以及他們最初的CITL(camera-in-loop)成果。它不僅提供了令人印象深刻的表現(xiàn),同時(shí)產(chǎn)生了優(yōu)于其他方案的結(jié)果。
4. Holonet不僅可用于全息顯示器
韋茨坦認(rèn)為全息顯示是AR/VR顯示領(lǐng)域中最有趣的研究領(lǐng)域之一,因?yàn)樗难芯砍潭冗h(yuǎn)不及傳統(tǒng)顯示器。然而,他并不認(rèn)為HoloNet的應(yīng)用只能用于全息顯示器,因?yàn)樽兘癸@示器和多焦顯示渲染同樣面臨著類似的挑戰(zhàn)。團(tuán)隊(duì)正在探索將所述結(jié)果與變焦顯示和多焦顯示解決方案相結(jié)合的方法,并創(chuàng)建所述方法的全息版本,從而有助于解決一系列的常見(jiàn)問(wèn)題,如視覺(jué)輻輳調(diào)節(jié)沖突。
————
下面是斯坦福大學(xué)計(jì)算成像實(shí)驗(yàn)室上傳了電子工程系助理教授戈登·韋茨坦(Gordon Wetzstein)在SIGGRAPH 2020大會(huì)的15分鐘演講,中文稿由映維網(wǎng)整理:
大家好,我是斯坦福大學(xué)電子工程系的助理教授戈登·韋茨坦(Gordon Wetzstein)。我將介紹我們一份關(guān)于神經(jīng)全息近眼顯示器的新興技術(shù)論文。虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)是一種將會(huì)改變我們感知世界和與其交互的方式的新興媒體技術(shù)。在這種應(yīng)用中,近眼顯示器是用戶和他們看到的所有數(shù)字內(nèi)容之間的接口。所以,構(gòu)建一種感知真實(shí)和視覺(jué)舒適的近眼顯示器非常重要。
近眼顯示的基本理念可以追溯到1830年使用的立體鏡,但令人驚訝的是,它們的運(yùn)作原理在過(guò)去的180年里幾乎沒(méi)有改變。今天,提升虛擬現(xiàn)實(shí)成為了美國(guó)國(guó)家工程院宣布的21世紀(jì)的重大挑戰(zhàn)之一。這正是我們今天的話題。
幾乎所有的近眼顯示器都是基于放大鏡原理。基本上,你通過(guò)微型顯示器看到的虛擬2D圖像是由放大透鏡產(chǎn)生。這種固定焦平面設(shè)計(jì)并不自然。在現(xiàn)實(shí)世界中,取決于感知對(duì)象的距離,我們的眼睛可聚焦于任意距離或?qū)θ我饩嚯x進(jìn)行視覺(jué)調(diào)節(jié)。保持視覺(jué)調(diào)節(jié)固定會(huì)導(dǎo)致視覺(jué)輻輳調(diào)節(jié)沖突,從而導(dǎo)致眼睛疲勞,眼睛不適,視覺(jué)重影,視覺(jué)清晰度下降,以及其他負(fù)面影響。
在過(guò)去的數(shù)年里出現(xiàn)了旨在解決所述問(wèn)題的一系列計(jì)算近眼顯示技術(shù),但它們都不完美。例如,變焦顯示器非常有效,并且相當(dāng)簡(jiǎn)單,但它們需要顯示器搭載的機(jī)械驅(qū)動(dòng)組件或聚焦可調(diào)透鏡,而它們?cè)诳纱┐髟O(shè)備的形狀參數(shù)和功率范圍的平衡內(nèi)都非常難實(shí)現(xiàn)。
多平面顯示器是一個(gè)非常優(yōu)秀的概念,但它們要么需要極高的空間光調(diào)制器和聚焦透鏡,要么需要多個(gè)顯示平面,而這兩個(gè)選項(xiàng)都顯著增加了系統(tǒng)的復(fù)雜性。光場(chǎng)顯示器同樣是一個(gè)非常優(yōu)秀的概念,但它們的空間角度分辨率從本質(zhì)上受到衍射的限制。
行業(yè)存在一種實(shí)際上是利用衍射來(lái)獲得極高圖像分辨率、對(duì)比度、深度和其他優(yōu)勢(shì)的顯示技術(shù):全息顯示。
在下面這個(gè)示例中,有人正拍攝一個(gè)光學(xué)記錄的全息圖,而這種全息圖曾在麻省博物館進(jìn)行過(guò)展出。但在它們誕生60年后,以及盡管它們擁有各種各樣的優(yōu)點(diǎn),全息顯示依然沒(méi)有成為主流技術(shù)。
要理解個(gè)中的原因,我們下面來(lái)討論近眼顯示器中的數(shù)字全息圖。
這是菲涅耳式全息近眼顯示器的插圖。激光器發(fā)射相干光,由透鏡準(zhǔn)直,并傳播到空間光調(diào)制器。在這里,光場(chǎng)相位以每像素的方式延遲,光場(chǎng)繼續(xù)傳播,而干擾會(huì)產(chǎn)生一個(gè)可見(jiàn)的強(qiáng)度圖案,亦即用戶可以通過(guò)放大透鏡(通常稱為目鏡)感知到的圖像。
相關(guān)論文:Neural Holography
如何計(jì)算SLM圖案是計(jì)算全息技術(shù)的核心挑戰(zhàn)之一,我們晚點(diǎn)再談。我們?cè)谧罱腟iggraph Asia論文中指出,這種顯示器的可實(shí)現(xiàn)視場(chǎng)取決于SLM大小和焦距,我們同時(shí)指出視窗的大小取決于像素間距,適眼距和波長(zhǎng)。
具體的執(zhí)行摘要是,現(xiàn)有的SLM可以獲得合理的視場(chǎng),但視窗通常非常小。要計(jì)算出在SLM顯示的相位圖案或目標(biāo)圖像,我們使用計(jì)算全息(CGH)。目前主要需兩種CGH算法:直接法和迭代法。直接法利用目標(biāo)強(qiáng)度,并將相應(yīng)的波場(chǎng)傳播到SLM平面。
因?yàn)榇蠖鄶?shù)現(xiàn)有的SLM只能調(diào)制入射光的相位,而不能調(diào)節(jié)入射光的強(qiáng)度。我們需要將傳播的復(fù)值場(chǎng)轉(zhuǎn)換成相位表示。自由空間傳播是一個(gè)經(jīng)過(guò)大量研究的課題。對(duì)于平行于SLM的目標(biāo)強(qiáng)度,我們只需使用傅里葉變換,應(yīng)用傳遞函數(shù),然后應(yīng)用傅里葉逆變換。
存在幾種不同類型的變換函數(shù),而每種會(huì)進(jìn)行不同的近似。這里我們給出了角譜變換。以這個(gè)2D圖像示例,我們可以計(jì)算這種傳播O( N²logN),這通常算起來(lái)很快。n是目標(biāo)圖像中的像素?cái)?shù)。有其他幾種方法可以將復(fù)值場(chǎng)轉(zhuǎn)換為純相位場(chǎng)。雙相位振幅編碼方法是其中之一,并且它將復(fù)值域表示成只有兩個(gè)交互的純相位場(chǎng)的總和。注意,這是一個(gè)啟發(fā)性算法,它并不總是有效。
對(duì)于三維全息圖,我們可以將目標(biāo)場(chǎng)景表示為點(diǎn)云,并將每個(gè)點(diǎn)傳播到這里描述的SLM平面。但即使我們一次傳播每個(gè)深度層,這種方法的計(jì)算復(fù)雜度通常過(guò)高。所以如何快速實(shí)現(xiàn)這一點(diǎn)依然是一個(gè)開(kāi)放的研究挑戰(zhàn)。
使用前述的自由空間傳播模型,我們同樣可以利用迭代方法。我們?cè)赟LM相位圖案和目標(biāo)強(qiáng)度之間迭代幾次,它的速度要比直接方法慢,但通常能給我們一個(gè)更好的目標(biāo)圖像的純相位表示。
總而言之,迭代方法通常較慢,但質(zhì)量更好,而直接方法速度較快,但通常質(zhì)量不太好。任何迭代方法,如經(jīng)典的Gerchberg–Saxton Algorithm和最近提出的Wirtinger Holography,我們可以迭代更長(zhǎng)時(shí)間以獲得稍好的圖像質(zhì)量,但存在一個(gè)上限。
在我們的ETec論文中,我們展示了一個(gè)簡(jiǎn)單的隨機(jī)梯度下降方法(stochastic gradient descent approach),在模擬中實(shí)現(xiàn)了最好的圖像質(zhì)量,并且我們開(kāi)發(fā)了一個(gè)全新的網(wǎng)絡(luò)架構(gòu)Holo Net,而它能夠?qū)崟r(shí)做到幾乎同樣的質(zhì)量。
我告訴你更多關(guān)于這種針對(duì)CGH的新方法。任何CGH方法的目標(biāo)是為了求解這里所示的一個(gè)目標(biāo)函數(shù)。f^是我們自由空間傳播的模擬模型,a是目標(biāo)振幅。注意,由于SLM的光學(xué)像差相位非線性和其他效應(yīng),顯示器中的物理光傳播f通常與f^略有不同。
這里是一個(gè)模擬的理想光傳播模型f^。現(xiàn)在我們可以使用簡(jiǎn)單的梯度下降更新規(guī)則進(jìn)行迭代。我們從一些SLM相位的初始猜測(cè)開(kāi)始,我們模擬正向模型,我們使用一些損失函數(shù)(如均方誤差)將模擬結(jié)果與我們的目標(biāo)進(jìn)行比較,然后我們向后傳播回相位。
如果反復(fù)應(yīng)用,這個(gè)簡(jiǎn)單的方法最終會(huì)獲得一個(gè)優(yōu)秀的分辨率。
為了測(cè)試這個(gè)算法和比較兩個(gè)備選方案,我們運(yùn)行模擬。所有方法看起來(lái)都非常好,不過(guò)Gerchberg–Saxton Algorithm總之會(huì)有不少的噪點(diǎn)。如果你仔細(xì)觀察,SGD的質(zhì)量最好。
這個(gè)模擬假設(shè),我們用來(lái)優(yōu)化相位圖案的自由空間傳播模型與用來(lái)模擬最終圖像的模型一樣,但我們來(lái)看看如果我們?cè)谀M模型和物理模型之間添加少量的模型不匹配會(huì)發(fā)生什么,方法是引入一點(diǎn)光學(xué)像差。你可以看到,所有的方法都失敗了,包括SGD。這并不奇怪,因?yàn)榧幢闶且怨獠ㄩL(zhǎng)的序列(傳播),模擬光傳播和物理光傳播的不匹配都會(huì)導(dǎo)致完全不同的干擾圖案。這意味著就現(xiàn)階段而言,在顯示器使用一個(gè)更好的物理光傳播模型可能會(huì)比使用更聰明的算法要好很多,但我們很難以所需的精度校準(zhǔn)全息顯示器。
我們提出了一系列以全自動(dòng)方式解決所述問(wèn)題的技術(shù)組合。我們稱之為Camera-in-the-loop Holograpy。這個(gè)概念十分簡(jiǎn)單,在循環(huán)中用一個(gè)相機(jī)捕捉物理顯示器的圖像,與目標(biāo)圖像進(jìn)行比較,然后反向傳播誤差。這聽(tīng)起來(lái)相當(dāng)容易,但實(shí)際操作并不簡(jiǎn)單。我沒(méi)有足夠的時(shí)間講解技術(shù)細(xì)節(jié),但你可以參閱我們的論文。下面我們來(lái)看看一些結(jié)果。這里直接變焦了采用了理想光傳播模型的SGD和采用Camera-in-the-loop模型的SGD。
相關(guān)論文:Neural Holography
我們可以看到,我們的概念可以實(shí)現(xiàn)顯著更好的圖像質(zhì)量。顏色和對(duì)比度大為改善,噪點(diǎn)明顯降低,如背景所示。另外,圖像看起來(lái)更好。我在這里不怕說(shuō),這是最先進(jìn)的CGH方法。但挑戰(zhàn)是每個(gè)目標(biāo)圖像都需要在循環(huán)中使用一個(gè)相機(jī)。為了克服這個(gè)限制,我們將優(yōu)化分解為訓(xùn)練階段和推理階段。在訓(xùn)練階段,我們使用相機(jī)來(lái)估計(jì)物理光傳播的基于模型的表示,我們使用了一組訓(xùn)練圖像。在推理階段,我們不需要相機(jī),只使用我們的校準(zhǔn)模型來(lái)優(yōu)化新的目標(biāo)圖像。我們比較了這種基于模型的方法,以及原本最好的CHG方法,結(jié)果表明我們的方法顯著更優(yōu)。
下面這里是對(duì)各種CHG迭代方法的整體對(duì)比,包括我們Camera-in-the-loop Holograpy的兩種變體,而這兩者都比現(xiàn)有的方法有了顯著的改進(jìn),其中最右邊的方法效果最好。
我們同時(shí)開(kāi)發(fā)了一個(gè)神經(jīng)網(wǎng)絡(luò)。它將sRGB空間中的目標(biāo)圖像作為輸入,并將其轉(zhuǎn)換為振幅。我們使用一個(gè)unit來(lái)預(yù)測(cè)目標(biāo)平面的相位。這個(gè)復(fù)值場(chǎng)通過(guò)我前面提到的校準(zhǔn)模型進(jìn)行調(diào)整,并在這里傳播到SLM平面。
我們通過(guò)另一個(gè)unit發(fā)送光場(chǎng)以計(jì)算純相位SLM圖案,然后再計(jì)算其他方面。我們使用產(chǎn)生的SLM圖案模擬正向模型,將結(jié)果與目標(biāo)圖像進(jìn)行比較,并在訓(xùn)練期間將誤差反向傳播到我們的兩個(gè)unit。
完成訓(xùn)練后,這個(gè)網(wǎng)絡(luò)能夠?qū)崟r(shí)工作。與今天最佳的直接方法相比,HoloNet顯著更好。在數(shù)量方面上,它不像我們的迭代方法那樣好,但已經(jīng)非常接近,而且它能夠?qū)崟r(shí)運(yùn)行。
這里是額外的比較。
所提出的方法同樣適用于三維全息圖。這里是一種全息變焦距顯示模式。在這種情況下,我們針對(duì)兩個(gè)平面來(lái)校準(zhǔn)模型,然后選擇一個(gè)或另一個(gè)來(lái)顯示一個(gè)圖像。這樣做的效果非常好。
我們同時(shí)探索了全息多平面顯示模式。在這種模式下,我們同時(shí)優(yōu)化了三個(gè)不同深度的平面。這里是相機(jī)實(shí)時(shí)捕捉到的畫面。對(duì)于綠色通道,我們將相機(jī)鏡頭聚焦到那三個(gè)平面。
我還沒(méi)有給你們看的是我們的原型裝置。它看起來(lái)像這樣。它包含一個(gè)激光器,準(zhǔn)直光學(xué)元件,SLM,我們用來(lái)阻擋部分更高的衍射階數(shù)(diffraction order)的4f系統(tǒng),以及一個(gè)用來(lái)捕捉結(jié)果的相機(jī)。好,我們縮放看看。
這是一個(gè)HoloNet的實(shí)時(shí)捕捉結(jié)果。內(nèi)容是實(shí)時(shí)生成并實(shí)時(shí)捕捉。白框是動(dòng)態(tài)顯示區(qū)域。這個(gè)框外的所有照明都不受算法的約束。盡管這些結(jié)果并不完美,但這可能是目前最好的實(shí)時(shí)方法。
我們?cè)谶@幀暫停,并看看一些比較結(jié)果。
下面是一個(gè)次優(yōu)的實(shí)時(shí)方法,而它的效果顯然更加糟糕。然后這里是Gerchberg–Saxton的結(jié)果,你可以看到畫面的噪點(diǎn)非常多。Wirtinger Holography的效果稍微好一點(diǎn),但也不是非常好。然后是我們的Camera-in-the-loop優(yōu)化方法,它依然不是最完美的方案,但在所有這些方法中,它肯定是最好的一個(gè),而且領(lǐng)先一大截。
再次說(shuō)明,與其他迭代方法類似,這個(gè)結(jié)果不是實(shí)時(shí)計(jì)算,而是從我們的RGB顯示器原型實(shí)時(shí)捕捉。
因?yàn)槠渌挠?jì)算顯示器使用成熟的微型顯示技術(shù),所以我們真的很難擊敗它們。變焦顯示器已經(jīng)發(fā)展到工業(yè)原型階段。多平面顯示器已經(jīng)出現(xiàn)在市場(chǎng)中,例如Magic Leap ML1有兩個(gè)焦平面。光場(chǎng)顯示器是一個(gè)非常棒的主意。但它們的分辨率受到衍射的限制。另一方面,全息顯示器則是通過(guò)衍射來(lái)實(shí)現(xiàn),但很難獲得像其他顯示器一樣高的圖像質(zhì)量。所以,光場(chǎng)顯示和全息顯示可能是這里最有趣的研究方向,而我想說(shuō)的重點(diǎn)是,這些都是非常互補(bǔ)的技術(shù)。
感謝你的觀看,我同時(shí)要感謝我團(tuán)隊(duì)的其他成員,以及我們的贊助商。謝謝。
原文鏈接:https://yivian.com/news/77837.html