來源:智東西
虛擬數(shù)字人指存在于非物理世界中,由計算機手段創(chuàng)造及使用,并具有多重人類特征(外貌特征、人類表演能力、交互能力等)的綜合產物。虛擬數(shù)字人可按人格象征和圖形維度劃分,亦可根據(jù)人物圖形維度劃分。人物形象、語音生成模塊、動畫生成模塊、音視頻合成顯示模塊、交互模塊構成虛擬數(shù)字人通用系統(tǒng)框架。
1982 年世界第一位虛擬歌姬林明美誕生,虛擬數(shù)字人行業(yè)經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制作過程亦得到有效簡化,從最早的手工繪制到現(xiàn)在的 CG、人工智能合成。在虛擬數(shù)字人產業(yè)鏈中,基礎層提供軟硬件的支撐;平臺層為制作及開發(fā)提供技術;應用層為應用領域提供解決方案,賦能各領域發(fā)展。虛擬數(shù)字人產業(yè)進入門檻高,差異化顯著,受眾群體不斷拓展,因而虛擬數(shù)字人價值凸顯,應用領域不斷拓展,未來有望加速商業(yè)化進程。
本期的智能內參,我們推薦天風證券的報告《虛擬數(shù)字人:元宇宙的主角破圈而來》,揭秘虛擬數(shù)字人的概念、技術架構、行業(yè)和巨頭布局。
一、元宇宙主角,市場廣闊
虛擬人、數(shù)字人、虛擬數(shù)字人的目標是通過計算機圖形學技術(Computer Graphic,CG)創(chuàng)造出與人類形象接近的數(shù)字化形象,并賦予其特定的人物身份設定,在視覺上拉近和人的心理距離,為人類帶來更加真實的情感互動。按照各定義特征的要求,數(shù)字人的范疇包含虛擬人,虛擬人的范疇包含虛擬數(shù)字人。
▲數(shù)字人、虛擬人和虛擬數(shù)字人的關系圖
對于不要求必須具備交流互動能力時,數(shù)字人、虛擬人、虛擬數(shù)字人這三者概念可以認為是等同的。但在嚴格意義下它們又有細微的差別。虛擬人的身份是虛構的,現(xiàn)實世界中不存在的。數(shù)字人強調角色存在于數(shù)字世界。虛擬數(shù)字人強調虛擬身份和數(shù)字化制作特性。
虛擬數(shù)字人從最早的手工繪制到現(xiàn)在的 CG(Computer Graphics,電腦繪圖)、人工智能合成,虛擬數(shù)字人大致經歷了萌芽、探索、初級和成長四個階段。
▲虛擬數(shù)字人發(fā)展沿革
當前虛擬數(shù)字人理論和技術日益成熟,應用范圍不斷擴大,產業(yè)正在逐步形成、不斷豐富,相應的商業(yè)模式也在持續(xù)演進和多元化。
▲虛擬數(shù)字人產業(yè)鏈視圖
基礎層為虛擬數(shù)字人提供基礎軟硬件支撐,硬件包括顯示設備、光學器件、傳感器、芯片 等,基礎軟件包括建模軟件、渲染引擎。顯示設備是數(shù)字人的載體,既包括手機、電視、投影、LED 顯示等 2D 顯示設備,也包括裸眼立體、AR、VR 等 3D 顯示設備。光學器件用于視覺傳感器、用戶顯示器的制作。傳感器用于數(shù)字人原始數(shù)據(jù)及用戶數(shù)據(jù)的采集。芯片用于傳感器數(shù)據(jù)預處理和數(shù)字人模型渲染、AI 計算。建模軟件能夠對虛擬數(shù)字人的人體、衣物進行三維建模。渲染引擎能夠對燈光、毛發(fā)、衣物等進行渲染,主流引擎包括 UnityTechnologies 公司的 Unity 3D、Epic Games 公司的 Unreal Engine 等。總體來看,處于基礎層的廠商已經深耕行業(yè)多年,已經形成了較為深厚的技術壁壘。
▲虛擬數(shù)字人產業(yè)鏈基礎層概覽
平臺層包括軟硬件系統(tǒng)、生產技術服務平臺、AI 能力平臺,為虛擬數(shù)字人的制作及開發(fā) 提供技術能力。建模系統(tǒng)和動作捕捉系統(tǒng)通過產業(yè)鏈上游的傳感器、光學器件等硬件獲取真人/實物的各類信息,利用軟件算法實現(xiàn)對人物的建模、動作的重現(xiàn);渲染平臺用于模型的云端渲染。解決方案平臺基于自身技術能力為廣大客戶提供數(shù)字人解決方案。AI 能力平臺提供計算機視覺、智能語音、自然語言處理技術能力。平臺層匯聚的企業(yè)較多,騰訊、百度、搜狗、魔琺科技、相芯科技均有提供相應數(shù)字人技術服務平臺。
應用層是指虛擬數(shù)字人技術結合實際應用場景領域,切入各類,形成行業(yè)應用解決方案, 賦能行業(yè)領域。按照應用場景或行業(yè)的不同,已經出現(xiàn)了娛樂型數(shù)字人(如虛擬主播、虛擬偶像)、教育型數(shù)字人(如虛擬教師)、助手型數(shù)字人(如虛擬客服、虛擬導游、智能助手)、影視數(shù)字人(如替身演員或虛擬演員)等。不同外形、不同功能的虛擬數(shù)字人賦能影視、傳媒、游戲、金融、文旅等領域,根據(jù)需求為用戶提供定制化服務。
▲虛擬數(shù)字人產業(yè)生虛擬數(shù)字人應用領域、場景及充當角色
虛擬數(shù)字人基礎技術架構包括“五橫兩縱”。“五橫”是指用于數(shù)字人制作、交互的五大技術模塊,即人物生成、人物表達、合成顯示、識別感知、分析決策等模塊。其中,人物生成,即人物建模方面 2D 數(shù)字人較為簡單,3D 數(shù)字人需要額外使用三維建模技術。人物表達包括語音生成和動畫生成。動畫生成則包含驅動和渲染兩大部分。“兩縱”是指 2D、3D 數(shù)字人,2D 數(shù)字人和 3D 數(shù)字人在技術架構方面基本一致。3D 數(shù)字人需要額外使用三維建模技術生成數(shù)字形象,信息維度增加,所需的計算量更大。
建模技術分為靜態(tài)掃描建模和動態(tài)光場重建,目前主流技術仍為靜態(tài)掃描,相比靜態(tài)重建技術,具有高視覺保真度的動態(tài)光場三維重建技術不僅可以重建人物的幾何模型,還可一次性獲取動態(tài)的人物模型數(shù)據(jù),并高品質重現(xiàn)不同視角下觀看人體的光影效果,成為數(shù)字人建模重點發(fā)展方向。
靜態(tài)掃描建模技術可分為結構光掃描重建和相機陣列掃描重建,結構光掃描重建掃描時間長,對于人體這類運動目標在友好度和適應性方面都差強人意,更多的應用于工業(yè)生產、檢測領域。相機陣列掃描重建替代結構光掃描重建克服了以上問題成為人物建模主流方式。隨著拍照式相機陣列掃描重建得到飛速發(fā)展,目前可實現(xiàn)毫秒級高速拍照掃描(高性能的相機陣列精度可達到亞毫米級),并成功應用于游戲、電影、傳媒等行業(yè)。
▲結構光掃描重建與相機陣列掃描重建分類
國際上 IR、Ten24 等公司將靜態(tài)重建技術完全商業(yè)化,服務于好萊塢大型影視數(shù)字人制作。凌云光近年來大力發(fā)展立體視覺并研發(fā)了高精度人體3D建模系統(tǒng)——Human 3D+,其中核心的三維幾何和彩色數(shù)據(jù)采集部分均使用了以佳能專業(yè)鏡頭,配合佳能 SDK 軟件開發(fā)包及凌云光專用 3D 建模軟件能快速、清晰成像并高速儲存,自動完成高精度人體全身或局部重建,再利用三維動畫制作軟件對重建結果進行處理,得到高真實度數(shù)字人物。
動態(tài)光場重建是目前世界上最新的深度掃描技術,此技術可忽略材質,直接采集三維世界的光線,然后實時渲染出真實的動態(tài)表演者模型,為 3D 建模提供更加豐富的圖像信息,它主要包含人體動態(tài)三維重建和光場成像兩部分:
▲人體動態(tài)三維重建與光場成像的區(qū)別
驅動:智能合成,動作捕捉遷移成為主流動作生產方式。2D、3D 數(shù)字人嘴型動作智能合成的底層邏輯類似,均建立在輸入文本到輸出音頻與輸出視覺信息的關聯(lián)映射。其中 3D 視頻驅動方式為以下三個步驟:
1)視頻算法訓練:對已采集到的文本到語音和嘴型視頻的數(shù)據(jù)進行模型訓練,得到一個輸入任意文本均可驅動嘴型的模型。
2)語音自動識別:對語音進行標注,綁定數(shù)據(jù)與動作,使得虛擬數(shù)字人對特定詞語或語境做出相應動作。
3)動捕設備采集:需真人穿戴動捕設備,動捕設備與真人肢體動作相綁定,可實時傳遞到虛擬數(shù)字人身上。
通過將捕捉采集的動作遷移至數(shù)字人是目前 3D 數(shù)字人動作生成的主要方式,核心技術是動作捕捉。動作捕捉是指通過數(shù)字手段記錄現(xiàn)實人們的運動過程。同時,動作捕捉系統(tǒng)根據(jù)實現(xiàn)原理的不同,可以分成光學動作捕捉、慣性動作捕捉、Track 設備+IK 算法的動作捕捉、以人工智能為主的動作捕捉方案。現(xiàn)階段,光學式和慣性式動作捕捉占據(jù)主導地位,基于計算機視覺的動作捕捉成為聚焦熱點。
渲染:主打 Unreal 和 Unity 渲染引擎,真實性和實時性均大幅提升。當通過不同的設備記錄下動作方案之后,還需通過渲染引擎,對毛發(fā)、衣物等細節(jié)盡量還原。從引擎性能上來說,游戲領域的渲染引擎達到最好的渲染效果。PBR(PhysicallyBased Rendering,基于物理的渲染技術)渲染技術的進步以及重光照等新型渲染技術的出現(xiàn)使數(shù)字人皮膚紋理變得真實,突破了恐怖谷效應。
PBR 是基于真實物理世界的成像規(guī)律模擬的一類渲染技術的集合,它的關鍵在于微表面模型和能量守恒計算,通過更真實的反映模型表面反射光線和折射光線的強弱,使得渲染效果突破了塑料感。常見的幾款 3D 引擎,如 Unreal Engine 4, CryEngine 3, Unity 3D5,均有了各自的 PBR 實現(xiàn)。
二、落地場景豐富,偶像營銷或為先發(fā)賽道
虛擬人及數(shù)字人應用領域多元,主力文娛及服務行業(yè)。在畫面呈現(xiàn)方式日漸成熟的的基礎下,疊加 5G、算力、AI 等技術能力的提升,其落地場景日漸豐富。如今不再限于傳統(tǒng)文娛如影視、動畫在人物建模、CG 等方面在虛擬形象塑造的應用,還在社交、游戲、辦公等場景實現(xiàn)了真實人類虛擬化身的身份職能,并逐漸于直播電商、偶像造星、陪伴服務等AI 虛擬數(shù)字人領域實現(xiàn)商業(yè)變現(xiàn)。
1、游戲
中國游戲產業(yè)處存量博弈階段,角色扮演類游戲在市場收入方面居于首位。2021 年中國游戲市場實際銷售收入 2965.13 億元,yoy+6.4%。2021 年中國游戲用戶規(guī)模 6.66 億,yoy+0.22%,用戶數(shù)量漸趨飽和。2021 年中國移動游戲收入排名前 100 位產品中,角色扮演、卡牌、策略三類游戲占據(jù)半壁江山,表明了玩家的偏好,以及企業(yè)相對集中的市場供給;此外,角色扮演、多人在線戰(zhàn)術競技和射擊三類游戲占總收入 50%以上,反映這三類游戲用戶基數(shù)較大的客觀現(xiàn)實。
▲中國游戲整體市場規(guī)模(億元)
▲2021 收入排名前 100 移動游戲產品類型收入分布
游戲引擎作為虛擬世界的賣水人,有望破圈助力多行業(yè)數(shù)字人打造。以 Unity,Unreal 兩大游戲引擎為首,游戲引擎的強大性能使得數(shù)字人形象擬真度進一步提升。
Unity 的渲染技術 HDRP 是基于可編程渲染管線(SRP)構建的,具有完全統(tǒng)一基于物理的渲染以獲得超高的畫質表現(xiàn), HDRP 的設計遵循三個原則:1)渲染基于真實物理。2)光照統(tǒng)一、連貫。3)功能獨立于渲染路徑。HDRP 的強大性能讓數(shù)字人得以“逃離”恐怖谷,以更接近真人的狀態(tài)呈現(xiàn)在大眾面前。
2、偶像造星
虛擬偶像市場高速增長,帶動衍生產業(yè)空間廣闊。據(jù)艾媒咨詢,2020 年中國虛擬偶像核心產業(yè)規(guī)模為 34.6 億元,yoy+70.3%,預計 2021 年將達到 62.2 億元;另一方面,隨著商業(yè)
價值被不斷發(fā)掘,越來越多產業(yè)與虛擬偶像聯(lián)系在一起,虛擬偶像帶動產業(yè)規(guī)模 2020 年 達 645.6 億元,預計 2021 年達 1074.9 億元。同時八成以上網民有追星行為,其中喜歡虛擬偶像的網民占 63.6%,根據(jù)粉絲需求策劃的偶像,能最大程度滿足粉絲的想象,有利于積累更龐大的粉絲群體。
▲2017-2023 年中國虛擬偶像核心市場和帶動市場規(guī)模及預測
用戶對虛擬偶像付費意愿較強,周邊產品豐富帶動變現(xiàn)能力。據(jù)艾媒咨詢,八成網民為虛擬偶像每月花費在 1000 元以內,且 37.6%的網民表示愿意花更多的錢支持虛擬偶像。隨著虛擬偶像產業(yè)的延伸業(yè)態(tài)不斷發(fā)展,手辦、唱片等產品已經成為了虛擬偶像流量變現(xiàn)的重要渠道,粉絲愿意花費更多的金錢和精力去支持虛擬偶像。
虛擬偶像早期隨二次元文化滲透,國產 VUP 直播崛起。早期具有代表性的虛擬偶像包括以初音未來、洛天依為代表的虛擬歌姬(VSinger),此外還有主要在 YouTube、B 站開展活動的虛擬主播(VTuber/VUP)。20 年前,B 站虛擬直播區(qū)基本都被日系 VTuber 占領,而隨著中國 VUP 的崛起,據(jù) CEO 陳睿,截至 21 年 6 月,B 站擁有 3.2 萬位 VUP,每月有約4000 多個虛擬主播開播。據(jù) darkflame,20 年 B 站 VUP 總收入約 1.8 億元,21 年至今(截至 11 月 21 日)已達 4.5 億元,是去年全年的 2.5 倍。
分季度看,21Q3VUP 直播收入近 1.5億元,月付費人數(shù)提升至約 30 萬人。目前頭部 VUP 每月的直播收入在 50-200 萬元不等,20 年全球收入最高 VTuber 收入約 1.5 億日元(約 840 萬元),已被 VUP 全面趕上。從專業(yè)機構來看,VirtualReal 和 A-SOUL 兩個專業(yè)化程度較高的機構一直占據(jù)收入榜首位。
互聯(lián)網大廠青睞虛擬藝人領域,破圈走向主流文化已是大勢所趨。大廠布局分為兩類:1)推出技術平臺。2)搭建虛擬藝人的商業(yè)場景。
▲互聯(lián)網公司虛擬藝人行業(yè)布局
3、品牌營銷
虛擬代言人市場空間充足,商業(yè)價值釋放領域多元。虛擬代言人可劃分為兩種類型:1)品牌自主打造符合自身特性的虛擬代言人。2)品牌與外部團隊商業(yè)合作,外部團隊基于技術引擎開發(fā)具有高擬真人類形態(tài)的虛擬形象,并獨立運營。
虛擬數(shù)字人商業(yè)價值集中于:1)社交賬號潛力無限。大部分虛擬數(shù)字人的注冊時間集中于 2020-2021 年,雖然時間較短,但是部分賬號漲粉迅速。同時在微博上,百萬粉絲量級的虛擬數(shù)字人 KOL 較少,仍有流量洼地可供挖掘。
2)活躍在社交平臺累積用戶粘性。虛擬數(shù)字人賬號在社交平臺上的活躍,通過抽獎、科普、安利等多種形式和用戶進行高頻互動,共創(chuàng)內容。
3)多種方式釋放商業(yè)價值。虛擬數(shù)字人可以通過數(shù)字化、科技化、大數(shù)據(jù)為一體的諸多功能屬性,進行與真人一樣的品牌營銷模式。視頻大片、直播連線、聯(lián)名產品、封面雜志、產品上身等。為粉絲帶去更具想象并貼近完美的營銷場景,釋放更多商業(yè)價值。
虛擬代言人深度洞察 Z 世代消費新需求、助力品牌破圈。品牌打造符合自身文化和品牌調性的虛擬形象代言人,成為與年輕人建立溝通的突破口。從屈臣氏推出首位虛擬偶像代言人屈晨曦 Wilson 拉進與年輕人距離,王者榮耀借勢時下最流行電競虛擬男團“無限王者團”全面打開社交屬性,到歐萊雅推出首位虛擬代言人“M 姐”迎合年輕人走進圈層,花西子推出首個品牌虛擬形象“花西子“引領國貨新風尚,虛擬形象代言人正幫助品牌迅速吸引年輕人的注意力,助力品牌俘獲更多的目標用戶。
4、社交
數(shù)字人為次世代社交重要象征,用戶對個性化社交虛擬化身需求提升。次世代社交指的是一個與現(xiàn)實平行、實時在線的虛擬世界,用戶可以憑借自己的虛擬化身,并基于自己的興趣圖譜或推薦,體驗多樣的沉浸式社交場景,在接近真實的共同體驗中一起交流、娛樂,最終找到志同道合的伙伴、建立社交連接。
▲數(shù)字人社交代表產品
5、影視
數(shù)字人于影視行業(yè)成熟運用,計算機化虛擬動捕已成為電影主流特效。技術發(fā)展并非一蹴而就, 而由大量技術突破和創(chuàng)作實踐積累疊加而成。通過觀察影史中虛擬形象的典型應用案例,我們將虛擬動捕技術概括為影史中的四個不同發(fā)展階段:萌芽期(1990-1999)、起步期(2000-2006)、成熟期(2006-2015)、新時期(2016-至今)。
▲電影史上虛擬數(shù)字人動捕技術發(fā)展沿革
三、巨頭布局
國內廠商在產業(yè)鏈基礎層、平臺層和應用層發(fā)展較為均衡,虛擬數(shù)字人從開發(fā)到落地的體 系逐漸趨于完整。基礎層相關廠商主要著力點在人工智能、動作捕捉、建模渲染以及虛擬數(shù)字人的技術服務。科大訊飛、捷成股份、新華網、標貝科技、追一科技和小冰等專注人工智能,云舶科技專研動作捕捉,環(huán)球墨非、億真科技、虛谷未來科技、半人貓、疊鏡數(shù)字、相芯科技以及 Tatame 等專注建模渲染,中科深智、魔琺科技和萬像文化等負責虛擬數(shù)字人的技術服務。
產業(yè)鏈平臺層建設為虛擬數(shù)字人運營,主要包括虛擬數(shù)字人的外觀設計、包裝、宣傳、落地和培養(yǎng),相關企業(yè)有上海禾念、樂華娛樂、動圖宇宙、次世文化、創(chuàng)壹視頻、虛擬影業(yè)、魔塔時空和世悅星承等。應用層主要投入在游戲、直播、動畫、影視、音樂以及社交平臺等,應用于娛樂和營銷。騰訊音樂、芒果超媒、奧飛娛樂和嗶哩嗶哩等將虛擬主播和虛擬偶像等應用于娛樂內容。藍色光標、浙文互聯(lián)、引力傳媒、星期六(遙望網絡)、華揚聯(lián)眾和天下秀等已推出或籌備推出虛擬 IP 形象,著重廣告營銷,星期六(遙望網絡)預計推出虛擬數(shù)字人與真人的互動直播。中國移動、阿里巴巴、騰訊、百度、網易等綜合型廠商支持旗下相關公司或事業(yè)部向虛擬數(shù)字人賽道發(fā)力。
▲國內廠商-全鏈條
海外廠商主要聚焦于產業(yè)鏈基礎層的建設,因起步較早,綜合實力強于國內廠商。在技術領域方面,有一部分海外廠商如 Intel、Microsoft、Google 以及 Meta(Facebook)這類綜合型廠商提供全棧式的技術服務。也有一部分海外廠商從不同的技術細分上發(fā)力,其中包括人工智能,渲染建模,動作捕捉以及 VRAR 的應用等。在 AI 虛擬形象生成技術廠商中,主要有 Soul-Machine、Oben 以及 Loom.ai 等廠商提供個性化的人機交互系統(tǒng)來強調擬人化的情緒帶來的商業(yè)價值的提升。
在渲染建模方面,主要海外廠商有 Epic Games、Unity 以及 NVIDIA 等。其開發(fā)的引擎 Unreal engine、Unity 以及 NVIDIA Omniverse 提供了 3D 實時模擬和協(xié)作的工具和平臺。關于動態(tài)捕捉的海外廠商有關注光學動態(tài)捕捉技術的 VICON、Motion Analysis、Opti Track,以及關注慣性動作捕捉技術的 Xsens 等。在 VRAR 方面,主要有 Wave 和 Stageverse 這樣的海外廠商使用 VRAR 技術向用戶提供虛擬服務的平臺以及應用程序。
智東西認為,數(shù)字人是元宇宙基礎交互單元,將為元宇宙和物理世界交互提供基礎技術支持;數(shù)字人是虛擬化身,幫助物理世界的每個個體建立元宇宙數(shù)字形象。從某種程度上說,虛擬數(shù)字人是元宇宙的一個分支,元宇宙的發(fā)展拉動了數(shù)字人等虛擬產業(yè)的火爆,從長線來看,這些產業(yè)代表著科技主導下未來的發(fā)展方向之一。