來源:映維網 作者 夢秋
FRLR日前分享了關于沉浸式音頻研究方面的最新進展,并表示所述研究“與Facebook實現AR眼鏡的工作直接相關”。概括而言,團隊的目標是將相關技術應用到AR頭顯中,并允許你在嘈雜的環境中輕松地隔離人聲,同時再現虛擬聲音,使其聽起來像是來自周圍的真實世界。一個定制的頭相關傳輸函數(HRTF)是提供這種體驗的關鍵,但涉及過程耗時且昂貴。所以,FRLR團隊正在研究一種能夠根據耳朵照片生成精確HRTF的可擴展解決方案。
對于這項研究,Facebook德技術通訊經理麗莎·布朗·賈洛薩(Lisa Brown Jaloza)在一篇名為“音頻的未來”的博文對其進行了詳細介紹。下面是映維網的具體整理:
正如著名科幻作家阿瑟·克拉克所言:“任何卓越的先進技術都和魔法相差無幾。”我最近有幸見證了Facebook施展的最神奇魔術,而下面我將與大家一起分享個中的神奇。
但首先,我們先進行一定的背景介紹。
無論是甜美的愛人言語,抑或是激昂澎湃的歌曲樂章,聲音都包含著不同于其他感官體驗的豐富情感。然而,這種體驗常常會遭到噪音淹沒,因距離而減損,或因我們自身聽力的局限而喪失。
世界不需要是這樣。請想象這樣一個未來:穿戴一副VR頭顯或AR眼鏡后你將能運送到千里之外的地點,然后上課、上班或參加親戚的生日聚會,而一切仿佛就好像是現實生活一樣。這種體驗稱為“社交臨場”。今天的技術尚未實現這一承諾,部分原因是聲音不夠逼真。有多少次你因為嘈雜的背景而不得不重復自己的話語,或是因為分不清誰在說什么而感到糊里糊涂?
即便是身處同一地理位置,環境的類型同樣會影響人際關系的質量。嘈雜的背景會妨礙我們,令我們感到沮喪,或者最終不得不大喊大叫。現在想象一下,同樣的一副AR眼鏡能夠將你的聽力提升到全新的水平,允許你在諸如餐館、咖啡店和音樂會等嘈雜的空間里清晰地聽到你希望聽到的聲音。對于你的面對面交流,這將會產生什么影響呢?
Facebook Reality Labs Research(FRLR)正在構建增強現實和虛擬現實的未來。FRLR匯集了一支由研究科學家、工程師、設計師等組成的跨學科音頻團隊,并致力于通過激進的音頻創新來改善人類交流。這個小組的任務包括兩個:創造在感知方面無法與現實區分的虛擬音效;重新定義人類的聽覺能力。為了做到這一點,研究人員致力于提供兩種新功能:第一,音頻臨場感,亦即虛擬音效的來源仿佛是與聽者存在于同一空間,其保真度之高以至于你無法將真實世界的聲源區分開來;第二,感知超能力,亦即即便是在嘈雜的環境中,你將能夠將交流對方的音量調大,并對不需要的背景噪音調低,從而提升我們的交流體驗。
這支世界最大的音頻研究團隊之一正在探索各種相互關聯的研究問題。在短短六年的時間里,原本只有一個人的隊伍已經成長為世界級的專家團隊。由拉維什·梅赫拉(Ravish Mehra)領導的FRLR音頻研究團隊致力于解決新穎的研究問題,提出解決方案,并通過令人信服的體驗來證明它們。我有幸體驗了其中的一些體驗,而它們對未來音頻通信的影響十分驚人。這是一個關于未來通信的故事,并需要發明一套全新的硬件和軟件技術,從而提供逼真的具現體驗。
1. 耳聽為實:音頻臨場感
盡管小時候希望長大后能夠成為一名搖滾明星,但研究科學家帕布羅·霍夫曼(Pablo Hoffman)如今更接近于一名魔術師。他成功地開發了一個始終在線的音頻校準系統,并且可以有效地允許你通過一對耳機聽到超高保真度的聲音。這個演示采用了FRLR的全新算法和軟件處理技術,以及現成的硬件來展示個性化音頻和重現房間的聲學效果。
我坐在他位于華盛頓州雷德蒙德的辦公桌旁?;舴蚵f給我一副耳機,而麥克風專門放到我耳朵的入口處。在接下來的兩分鐘里,所述麥克風將從我的視覺記錄房間的聲音。這位研究科學家從不同的地方大聲而溫柔地說話,他甚至會彈吉他,并且一度把鑰匙丟到我的身后。
然后霍夫曼播放了錄音。音效非常逼真,和真實幾乎沒有什么區別。事實上,對于坐在他旁邊的我而言,我敢打賭當我瞄到他的時候他一定有在說話。但當我正眼看著他時,我能看到霍夫曼的嘴唇沒有動。來自霍夫曼方向的聲音完全是人工合成。這是兩分鐘長的既視感(Deja-vu)。
這正是感知方面與現實無法區分的虛擬音效。當你親身見證的時候,它就像是一種為善的魔法。研究負責人菲利普·羅賓遜(Philip Robinson)解釋說:“‘感知方面無法區分’說起來十分簡單。但當你親耳聽到的時候,這會是一種無比神奇的感覺。”
2. 逼真音頻的秘方
當有人在房間里跟你說話時,你的一只耳朵會先于另一只耳朵聽到聲音。每只耳朵的音量不同。另外,耳朵的形狀改變了我們每個人聽到聲音的方式。所有這些信號都在告訴大腦聲音來自哪里。聲音與你的環境相互作用,在進入你的耳朵之前從墻壁反彈。這一切都是核心要素。如果能精確再現,虛擬聲音就能復制真實聲音。
2017年,音頻研究團隊幫助研發了空間化音頻,亦即一種模擬真實聲音來源的虛擬音效。團隊同時發明了能夠提高虛擬環境可信度的高質量聲學模擬技術。這些技術推動了空間音頻技術的發展,并驅動著當今Quest和Rift平臺的眾多體驗,包括《First Steps》和《Oculus First Contact》。下一個前沿領域是個性化的空間音頻,以及模擬聲音與真實環境交互的方式。在我參觀雷德蒙德實驗室的后面兩站旅程中,團隊向我展示了他們在兩個方面的進展。
3. 個性化空間音頻
一位研究人員帶我進入一個消聲室。這是一個價值數百萬美元的設施,它與周圍的建筑相隔3英尺寬的空氣間隙,而四周4英寸厚的鋼板可吸收所有回聲。房間非常安靜,你甚至可以聽到自己的心跳。一個包含54個揚聲器的機械臂從上到下地進行360度的自由旋轉,并且一邊播放音調,從而測量聲音對我耳朵的獨特幾何形狀的反應。整個過程大約需要半個小時。最后,我可以看到我的個人聽覺空間化音頻體驗的數字表示,亦即頭相關傳輸函數(HRTF)。目前用于游戲和虛擬現實的解決方案屬于“通用式”HRTF,它不能為每個人提供完美的空間精度。個性化的HRTF測量克服了這一局限性,并允許每個人真正聽到仿佛真實聲音一般的虛擬聲音。
盡管消聲室顯然不是捕獲個性化HRTF的可擴展解決方案,但音頻研究小組正在考慮幾種全新的方法。作為一個例子,他們希望有一天能開發出一種可以根據耳朵照片來近似一個可行的個性化HRTF的算法。
4. 為房間的聲學建模
理解聲音如何在特定空間中傳播,并在到達耳朵之前從相關表面反彈,這是另一個幫助虛擬聲音復制真實聲音的有力工具。就如同視覺AR使用SLAM技術來獲取虛擬對象的幾何和光照一樣,我們在聲音方面同樣需要理解房間的聲學特性,以便將虛擬聲源無縫地放置到真實的空間之中。團隊邀請我嘗試一款游戲,并確定哪些聲音來自房間中的物理揚聲器,哪些是來自我所穿戴的耳機。我可以在空間中移動,并感受相應的聲音響應。我感覺自己有點像是音頻發燒友,但對于我區分哪些聲音是真實,哪些聲音是虛擬的努力,我只能做到50-50的水平。盡管是來自耳機,但空間化的音頻和模擬的聲音是如此逼真,我的大腦完全相信我聽到的聲音是來自于房間的揚聲器。我甚至不得不拔下耳機來確認聲音的真正來源。
羅賓遜表示:“想象一下,如果你在打電話,你會認為對方就在身邊,你會忘記你們實際上是相隔兩地。這就是我們正在開發的技術的愿景。”
為了明確這里的利害關系,團隊向我展示了一個關于遠程臨場感的演示,即感覺你仿佛是置身于另一個的位置。我坐在一個房間里并穿戴一個定制的Oculus Rift頭顯和一副耳機,但我感覺自己是在另一個地方,和眾多研究人員和同事圍坐在一張桌子旁。我可以通過頭顯看到會議室。32個麥克風陣列會捕獲會議室的聲音,并將空間化的音頻直接傳送到我的耳機中,這樣每個人的聲音聽起來都像是來自桌子旁邊的特定位置。我發現自己能夠十分自然地轉向每一個人。這有助于我跟蹤和參與談話,令我感覺自己就在房間里面(即使我實際上不在那里)。
這可能會顛覆你與遠方家人,朋友或同事所進行的視頻通話。對于今天的通話,對方的聲音聽起來像是從電話里傳來,所以大腦否定了對方可能和你位于同一位置的想法??臻g音頻模擬現實生活中的聲音和環境聲學的方向,所以你可以更為充分地感受社交臨場感。
當空間音頻與Codec Avatars(可實時動畫化的超逼真人類表示),超現實的三維重建,全身追蹤,共享虛擬空間等結合在一起時,我們將能夠解鎖真正的社交臨場感。通過允許你和對自己最為重要的家人或朋友置身于同一空間,我們可以從根本上改變你的生活、工作和娛樂方式。
羅賓遜說:“我一直牢記Facebook的總體使命,亦是聯結彼此。我們需要令虛擬音效如同現實一般的唯一原因是,我可以令一個虛擬人類出現在面前,并與其進行社交互動,就像對方真的是和你置身于同一空間。對于遠程交流或面對面交流,即便只是改善一點點,它都能夠真正促成更為深入、更具影響力的社交關系。”
盡管逼真的空間化音頻和逼真的室內聲學令人感到心曠神怡,但這只是FRLR音頻團隊任務的第一塊拼圖。梅赫拉解釋道:“當我們開始在虛擬現實中進行這項研究時,隨著虛擬現實技術的發展,我們意識到我們在這里構建的所有技術都是致力于實現一個更高的目標:改善人類的聽覺能力。”
5. AR眼鏡和感知超能力
對于FRLR音頻團隊的使命,第二塊拼圖是重新定義人類聽覺能力。當然,這是一個雄心勃勃的目標。不過,這同時與Facebook的AR眼鏡努力直接相關。
負責硬件研究的托尼·米勒(Tony Miller)解釋道。“人類聽覺是一種驚人的感覺,它允許我們通過口頭語言和音樂表達進行聯系。FRLR正在探索可以擴展、保護和提高聽覺能力,加強注意力,同時支持你與你關心的人和信息無縫互動的全新技術。這項研究的核心是致力于構建深深植根于聽覺感知,并通過信號處理和人工智能的最新發展加以增強的硬件。”
想象一下,你可以在擁擠的餐廳或酒吧里自由交談,不必提高嗓門或緊張兮兮地過分關注別人的言語。通過眼鏡搭載的多個麥克風,系統可以捕捉到你周圍的聲音。然后,利用你的頭部和眼睛運動模式,系統可以確定你最感興趣的聲音,從而為你增強正確的聲音,并衰減其他聲音。通過這樣的方式,團隊希望確保你真正希望聽到的聲音是清晰明朗,即使周圍充斥著吵鬧的背景噪音。
6. 所見即所聞
為了體驗這一點,我和研究科學家歐文·布里米金(Owen Brimijoi)坐在一間模擬餐廳的房間里。我戴著耳機和現成的眼動追蹤裝置,而眼動追蹤是FRLR正在探索的幾種解決方案之一。布里米金開始講話時,研究小組提高了背景噪音水平。令我驚訝的是,我依然可以很容易地聽到他的話語,而且交談十分自然。當我看著角落里的電視時,它正在播放的廣告聲音會越來越響,而其他聲音則變得越來越安靜。當布里米金再次開口說話時,我再次轉向他,然后我們的談話又重新開始。與霍夫曼的演示一樣,所述演示是將FRLR的軟件與現成硬件配對以說明增強聽力的體驗。
喧鬧的餐廳不僅令人討厭,同時會給員工帶來潛在的健康風險。事實上,如果長時間暴露在85分貝以上的噪音環境中(現在不少餐館和酒吧都超過了這一水平),這會造成我們的聽力會下降。通過降低噪音,我們或許可以幫助保護人們的聽力。
7. 新穎的輸入:捕捉聲音
接下來,團隊向我展示了一種叫做近場波束形成技術的創新應用,而它再次令我感覺自己仿佛時在見證一個魔術。但這次他們使用了FRLResearch開發的定制硬件。研究科學家弗拉基米爾·圖爾巴賓(Vladimir Tourbabin)戴著一副簡單的3D打印眼鏡,但其搭載了一個特殊的麥克風陣列,一種輸入原型。房間里有幾個物理揚聲器以最大音量播放音樂。我在另一個房間,圖爾巴賓打電話給我。我拿起話筒,他開始用正常的聲音誦讀一篇在線文章,而嘈雜的房間里的噪音非常容易淹沒圖爾巴賓的聲音。
然后圖爾巴賓打開了一個開關,突然之間,我清能夠晰地聽到他的聲音傳來,仿佛某人將背景音量調低了一樣。就像在搖滾音樂會或地鐵站接到一個朋友的電話,但不知怎么回事,我居然可以清晰地、明白地聽到對方的聲音。這一切都是因為上面提到的麥克風陣列將他的聲音與周圍的噪音隔離開來。你可以想象未來這項技術可允許我在嘈雜的房間里與人工智能助理清晰地通話,這可以為我提供更多的隱私和安全,并防止我的助手意外地拾取周遭人和物的聲音。
8. 輸出:控制音量
音頻團隊的目標是覆蓋人類能聽到的所有聲音,從20赫茲到20000赫茲。FRLR目前正在開發一種特殊的入耳式監聽器(in-ear monitor;IEM)。這種輸出原型將允許我們使用主動降噪技術來有效地降低背景噪聲的音量,從而幫助人們在嘈雜的環境中更清晰地、更安全地聽到聲音。當與FRLR的輸入原型(包括麥克風陣列)相結合時,這將能夠提供聽覺超能力的全面體驗。
音頻體驗負責人斯科特·賽爾豐(Scott Selfon)解釋說:“我們的IEM同時具有感知透明的聽覺功能,仿佛我耳朵里什么都沒有,而我能夠安全地聽到周圍的整個世界。”類似于霍夫曼早期的演示,但這次只是使用了一個小小的耳機。
9. 改善生活
這項研究的潛能十分巨大。盡管大多數感知超能力研究都集中在改變每個人的交流,但團隊相信其中一些可以為聽力科學領域的新研究提供支持。據約翰斯·霍普金斯大學研究稱,美國有大約五分之一的人口存在聽力損失問題。他們中的許多人都不使用助聽器,原因有很多,包括費用,社會恥辱感,不適和缺乏可靠性。
最近,研究小組迎來了著名的聽力科學家托馬斯·倫納(Thomas Lunner)。他早前的研究為1995年世界第一臺數字助聽器奠定了基礎,而他將進一步探索這條研究道路。倫納表示說:“通過將聽力受損人口與聽力正常的人員至于平等的地位,我們可以幫助他們更積極地參與社交活動。這與Facebook的使命非常契合,因為失聰常常致使人們遠離社交場合。”
技術項目經理阿曼達·巴里(Amanda Barry)補充道:“我從小就戴著助聽器。能夠在人們變老且聽力衰退時幫助他們與家人保持聯結的能力令人感到無比興奮。”
聽力科學是Facebook獨立于AR研究所探索的一個領域。它具有獨特的挑戰,而團隊希望能夠幫助推動科學前進。FRL計劃在日后分享更多的研究成果進步。
10. 我們十分關注隱私
要幫助智能AR眼鏡取得成功,我們需要深思熟慮地、負責任地開發技術。盡管依然處于研究的早期階段,但FRLR已經開始探索確保用戶隱私和安全的方法。當我們努力提高人們的聲音體驗時,我們必須保持對社會規范的認識和尊重。
梅赫拉指出:“我們的目標是在我們的創新周圍設置護欄,以負責任的方式進行創新,所以我們已經在考慮我們可以采取的潛在保障措施。例如,在我提高某人的聲音之前,我的眼鏡可能需要遵循一個協議并請求對方眼鏡的允許。”
研究小組強烈意識到的另一個問題是,敏感耳朵數據的捕獲,包括研究階段及以外。今天,在我們將收集到的任何數據提供給研究人員之前,所有數據都會經過加密,研究參與者的身份與數據分離。一旦收集,數據將存儲在安全的內部服務器中,只有少數擁有明確權限的研究人員能夠訪問相關服務器。團隊同時定期與隱私、安全和IT專家進行審查,以確保遵守協議并實施適當的保護措施。
“Deepfake”是我們正在思考的另一個問題。這種技術可以使用人工智能和預先存在的鏡頭來編造一個場景,比如一個人會說出實際上從未說過的話語。例如,我們正在討論在耳機和眼鏡中構建強大的身份驗證技術(如面部分析),從而確保只有你本人可以通過你的設備訪問與你的聲音綁定的虛擬化身。”
梅赫拉說道:“顯然,我們離在眼鏡和耳機中實現這類技術尚有一段距離,但我們希望思考這些技術的影響,以及與更廣泛社會相關的潛在解決方案。這同時是我們現在討論這項研究的原因之一。我們致力于將其公開化,并就這項技術的可接受用途進行公開討論。”
假如你可以忽視背景噪音或距離并輕松地聽到對方說話,假如你不必因為差旅問題而錯過特殊活動,假如你能用一個可穿戴設備取代你的高端立體聲系統、電視、手機……
這是我們相信的未來,我們正在努力使之成為現實。
11. 下一個前沿:聽覺機器感知
最終,我們的主要目標之一是提供一款時尚的AR眼鏡。它不僅可以理解周圍的視覺世界,同時可以理解周圍的聲學世界,并利用相關知識和背景幫助你在世界各地導航。為此,我們將使用一個包含共享和私有組件的虛擬地圖LiveMaps。對聲學聲景的理解可以為地圖添加信息,這樣人工智能就可以改善你的音頻體驗,同時能以其他方式幫助你。例如,當你走進一家餐館時,你的AR眼鏡能夠識別出發生在你周圍的不同類型的事件:人們在交談,空調的噪音,盤子和銀器的叮當聲。然后利用情境化的人工智能,你的AR眼鏡將能夠做出明智的決定,比如消除分散注意力的背景噪音。
賽爾豐補充說:“我們的AR眼鏡的另一個機遇是,它不僅可以幫助我們更好地聽到,而且可以幫助我們更好地理解。如果我因為背景噪音或語言障礙而無法跟蹤對話,我們可以使用情境化人工智能和語音識別來幫助我進行實時的視覺轉錄或翻譯。而且,與家里柜臺的語音助手不同,隨身攜帶的AI助手將具有完整的情景意識。因此,當你身處嘈雜的環境中時,它可以自動提高聲音,或者在圖書館等需要安靜的地方輕聲說話。”
這是我們剛剛開始探索的另一個領域,而我們將在日后分享更多的消息。
梅赫拉表示:“我們現在正處于AR/VR技術發展史上的關鍵時刻。如果是5年或10年后加入這個領域,他們只是跟在我們屁股后面。對于這一刻,我們實際上正在定義未來。我們可以提高體驗的真實感,以至于你不必為了參加會議或與你所愛的人聯系而旅行數百或數千英里。我們可以制造出用來改善人類聽力的技術。如果你對這一點充滿激情,我們就是你要加入的團隊,而且現在是時候讓它成為現實了。”
原文鏈接:https://yivian.com/news/77794.html