Apple Vision Pro 的無手柄設(shè)計引發(fā)了大量討論,它挑戰(zhàn)了我們對 XR 用戶體驗(yàn)的傳統(tǒng)認(rèn)知,提供了一種全新的、更為直觀的交互方式。然而,盡管這種去手柄化的趨勢在某些場景下可能有其獨(dú)特的優(yōu)勢,但手柄在 XR 頭顯的交互方式中的重要性仍然不容忽視。
手柄作為一種成熟且被廣泛接受的交互工具,在需要精確輸入或復(fù)雜操作的情況下,例如一些游戲或繪畫、手術(shù)模擬等專業(yè)訓(xùn)練中,通?梢蕴峁└玫捏w驗(yàn)。此外,手柄能夠?yàn)橛脩籼峁┯|覺反饋,這是目前無手柄方案難以實(shí)現(xiàn)的,而觸覺對于創(chuàng)建沉浸式體驗(yàn)又至關(guān)重要。
不過,傳統(tǒng)的手柄往往體積較大,重量較重,長時間使用可能會引起用戶的疲勞。因此,許多 XR 廠商一直致力于研發(fā)更輕、更小巧的手柄設(shè)備,以提升用戶體驗(yàn)。
但是,輕量化手柄的研發(fā)面臨多個難點(diǎn),其中一項主要的挑戰(zhàn)便是高精度追蹤的問題:首先,小型化設(shè)備限制了傳感器的大小和數(shù)量;其次,由于手柄小,用戶可能會更頻繁地做出快速和復(fù)雜的手勢,這也對追蹤系統(tǒng)的穩(wěn)定性和準(zhǔn)確性提出了更高的要求;設(shè)備的小型化還可能會限制攝像頭的視場角,使得手柄在一些極端姿態(tài)下無法被有效追蹤。此外,高精度的追蹤通常需要進(jìn)行更多的計算,因此功耗管理也是小型化手柄研發(fā)中的一個重要挑戰(zhàn)。
融合光學(xué)追蹤與裸手識別算法,實(shí)現(xiàn)遮擋情況下穩(wěn)定追蹤
基于 AI 方面的積累,PICO 創(chuàng)新性地提出了一種多模態(tài)的手柄追蹤解決方案,成功在小型化手柄上實(shí)現(xiàn)了穩(wěn)定的高精度追蹤。
「我們在人手握姿的實(shí)時估計方法、多模態(tài)下的數(shù)據(jù)融合方法,以及基于 IMU(Inertial Measurement Unit,慣性測量單元)的高精度預(yù)測方法等方面,取得了一些突破創(chuàng)新,」PICO 研發(fā)團(tuán)隊表示:「提出了一種多模態(tài)的手持控制器追蹤方法,能夠提供更廣的追蹤范圍,減小追蹤盲區(qū),為用戶帶來更好的體驗(yàn)。」
PICO 此次自研的 Centaur多模態(tài)追蹤算法,將光學(xué)追蹤算法與 CV 模態(tài)下的手柄追蹤算法融合,其中光學(xué)追蹤算法通過識別手柄中 LED 燈發(fā)射出的紅外光(IR),實(shí)現(xiàn)對手柄的定位追蹤;CV 模態(tài)手柄追蹤算法,能夠在手柄上的 LED 燈被遮擋時,也即在極少 IR 或沒有 IR 的情況下,通過追蹤裸手的特征,準(zhǔn)確還原出手柄控制器的 6DoF 信息,從而保持對手柄的穩(wěn)定追蹤。
【圖說】 Centaur 多模態(tài)融合算法,將視覺信息與慣性信息融合,得到手柄位姿及速度的最優(yōu)估計。具體說,多模態(tài)追蹤算法使用從頭顯攝像頭、內(nèi)置IMU模塊、3-DOF模塊、深度學(xué)習(xí)手勢檢測及追蹤模塊、光學(xué)定位模塊采集到的多種模態(tài)數(shù)據(jù),分析手部特征、手柄運(yùn)動信息、LED位置,以及全局上下文信息,進(jìn)行精準(zhǔn)的位姿預(yù)測和估計。最后,通過多幀融合濾波器對所有獲取的信息進(jìn)行融合計算,產(chǎn)生高精度、高幀率的手柄位置、旋轉(zhuǎn)及速度信息,供上層應(yīng)用使用。
光學(xué)追蹤算法在 XR 產(chǎn)品中有著廣泛的應(yīng)用,主要用于實(shí)現(xiàn)精準(zhǔn)、低延遲的位置和運(yùn)動追蹤。這些算法通常利用攝像頭(或其他光學(xué)傳感器)捕獲的圖像數(shù)據(jù),通過識別和追蹤特定的視覺特征,如顏色、紋理、形狀等,來計算物體(如用戶的頭部、手部或控制器)的位置和運(yùn)動。
PICO采用的是基于紅外光(IR)的主動式光學(xué)定位追蹤方案,這種技術(shù)可以通過頭顯攝像頭,觀測到手柄上發(fā)射的 IR,并通過光斑檢測和多視圖幾何原理來計算手柄的位置和姿態(tài)。與傳統(tǒng)的電磁定位和超聲波定位相比,具有高精度、低成本、低功耗等優(yōu)點(diǎn)。
針對小型化手柄的一系列工程和技術(shù)挑戰(zhàn),PICO 組建了一個跨部門的攻關(guān)小組,包括交互感知內(nèi)部的數(shù)據(jù)交互團(tuán)隊、裸手追蹤算法團(tuán)隊和手柄追蹤算法團(tuán)隊。
經(jīng)過多次論證后,團(tuán)隊設(shè)計了一套基于神經(jīng)網(wǎng)絡(luò)(AI 模型追蹤技術(shù)結(jié)構(gòu))的多模態(tài)手柄追蹤框架,其核心技術(shù)即上文提到的 Centaur多模態(tài)追蹤算法,該框架融合了 IMU、光學(xué)傳感器和手部圖像這幾種不同模態(tài)的信息,在手柄被遮擋的情況下,裸手追蹤能夠提供更加精準(zhǔn)的觀測,同時手柄給手部追蹤提供更準(zhǔn)確的預(yù)測,兩者深度融合,相互輔助。
【圖說】 Centaur多模態(tài)追蹤算法,融合了 IMU、光學(xué)傳感器和手部圖像等不同模態(tài)的信息,在手柄被遮擋的情況下,裸手追蹤可以補(bǔ)充提供精準(zhǔn)的觀測。
裸手追蹤(hand-tracking),也叫手部追蹤或手勢追蹤,通過直接捕獲和分析用戶的手部姿態(tài)、位置和運(yùn)動,使用戶可以在 XR 環(huán)境中直接用手勢進(jìn)行交互,無需穿戴特殊設(shè)備(如手套或指環(huán)),也免去了學(xué)習(xí)復(fù)雜的控制器操作過程,大幅降低了使用門檻,因而在 XR 領(lǐng)域備受關(guān)注。
不過,盡管裸手追蹤能夠提供更加流暢、自然的交互體驗(yàn),但也面臨諸多挑戰(zhàn)。例如,裸手追蹤需要高精度和低延遲,以便能夠?qū)崟r準(zhǔn)確地捕捉用戶的動作。此外,光照條件、背景干擾、用戶的手部形狀和顏色差異等因素,也可能影響裸手追蹤的表現(xiàn)。
「CV 模態(tài)手柄追蹤場景下,由于手柄的遮擋,導(dǎo)致裸手視覺特征不明顯,常常引發(fā)追蹤失效。」PICO 裸手算法團(tuán)隊成員表示:「針對該難點(diǎn)問題,我們創(chuàng)新性地融合了 Down-Top 的端到端 6DoF 追蹤算法,通過有效利用多目時序的全局上下文信息,比如身體的骨骼信息以及結(jié)合時間順序判斷,一次性準(zhǔn)確且穩(wěn)定地預(yù)測手部位姿,能夠在手柄追蹤失效時,及時提供魯棒的位姿!
【圖說】在計算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域,Top-Down 和 Down-Top 是對象檢測和識別的兩種常見策略。Top-Down 通常從全局或更大尺度的視角開始,逐漸向更精細(xì)的細(xì)節(jié)進(jìn)行;Down-Top 則從小尺度的細(xì)節(jié)開始,逐漸構(gòu)建出全局的視圖。PICO 團(tuán)隊采用 Down-Top 方案,能夠在精度相近的情況下,提高手柄的檢出率,從原先的 36% 提升到了93%。從上圖中看,右側(cè) Down-Top 圖中連貫的綠線即表示系統(tǒng)有在持續(xù)并且穩(wěn)定地追蹤。
裸手追蹤算法團(tuán)隊設(shè)計的這個端到端 6DoF 追蹤算法,融合了 PICO 研發(fā)團(tuán)隊在過去一年多的時間里取得的多項技術(shù)突破:
• 手部多視角協(xié)同自監(jiān)督學(xué)習(xí)方法 HaMuCo:利用多視角的信息,通過自監(jiān)督學(xué)習(xí)和一致性損失函數(shù),能夠在沒有大規(guī)模 3D 標(biāo)注數(shù)據(jù)集的情況下,獲得優(yōu)秀的手部姿態(tài)預(yù)測結(jié)果。這項工作也獲得了 ECCV HANDS22 Challenge 第一名。
• 手部姿態(tài)預(yù)測和圖像對齊框架 DIR:DIR 是「解耦合迭代修正框架」(Decoupled Iterative Refinement)的縮寫,該框架解決了二維視覺特征空間和三維節(jié)點(diǎn)特征空間的耦合問題,DIR 在二維視覺特征空間中處理圖像信息,在三維節(jié)點(diǎn)特征空間中處理手部姿態(tài)信息。DIR 使用節(jié)點(diǎn)特征作為二維和三維空間之間的「橋梁」,使得這兩個空間可以相互溝通,從而實(shí)現(xiàn)特征增強(qiáng)和姿態(tài)修正。在最具挑戰(zhàn)性的雙手?jǐn)?shù)據(jù)集上取得了 SOTA 精度,在處理復(fù)雜數(shù)據(jù)集和泛化到新情況方面也表現(xiàn)出色。該工作入選 ICCV2023 Oral 論文,足以證明其質(zhì)量。
【圖說】圖片來自 DIR 論文:https://arxiv.org/abs/2302.02410
• 從單視圖中重建雙手姿態(tài)的新方案:由于單視角固有的歧義性以及雙手具有相似的外觀、自遮擋嚴(yán)重等問題,從單視圖中重建雙手是一項巨大的挑戰(zhàn),團(tuán)隊轉(zhuǎn)變思路,首先構(gòu)建了一個雙手互動的先驗(yàn),然后將互動重建任務(wù)定義為從這個先驗(yàn)中進(jìn)行條件采樣的任務(wù)。具體說,團(tuán)隊通過運(yùn)動捕捉(MoCap)系統(tǒng)構(gòu)建了一個大規(guī)模的雙手交互數(shù)據(jù)集,然后利用這些數(shù)據(jù)建立了一個基于 VAE 的雙手交互先驗(yàn)網(wǎng)絡(luò),再利用 ViT 從單視角圖像中提取特征,并充分融合雙手交互先驗(yàn)的相關(guān)性,從而獲得了雙手重建的 SOTA 結(jié)果。
• XR 場景全身姿態(tài)估計技術(shù):提出了一個能夠建模全身關(guān)節(jié)點(diǎn)相關(guān)性的兩階段框架,基于 XR 場景下能夠獲取的有限的跟蹤信息(包括關(guān)節(jié)點(diǎn)位置特征、關(guān)節(jié)點(diǎn)旋轉(zhuǎn)特征以及輸入特征),回歸出準(zhǔn)確、平滑和合理的全身姿態(tài)序列。模型在虛擬數(shù)據(jù)集(AMASS)和實(shí)采數(shù)據(jù)集上的實(shí)驗(yàn)中,展現(xiàn)出了優(yōu)于現(xiàn)有方法的準(zhǔn)確率、平滑性和物理合理性,極大地提高了用戶的沉浸式體驗(yàn)。
「這是團(tuán)隊協(xié)作的成果,」PICO 攻關(guān)小組負(fù)責(zé)人表示:「數(shù)據(jù)交互團(tuán)隊基于高精度動作捕捉系統(tǒng)完成了數(shù)據(jù)采集和標(biāo)注;裸手追蹤算法團(tuán)隊設(shè)計了 SOTA 的端到端 6DoF 位姿估計模型,提升了手部追蹤的穩(wěn)定性;手柄追蹤算法團(tuán)隊則提升了光學(xué)追蹤的穩(wěn)定性和整個算法框架的實(shí)現(xiàn),多模態(tài)的手柄追蹤算法在手柄被遮擋情況下仍然能保持穩(wěn)定追蹤!
「光學(xué)追蹤和裸手追蹤這兩大類算法,從追蹤框架上不是獨(dú)特唯一,也不是我們最先研究的,但是將它們?nèi)诤掀饋聿a(chǎn)品化,截至目前我們是第一家!
從研究到產(chǎn)品:新一代無燈環(huán)小手柄
PICO 最新推出的小手柄,采用無燈環(huán)設(shè)計,配合頭顯進(jìn)行雙手空間定位捕捉,通過頭顯的 inside-out 光學(xué)追蹤定位原理,計算出手柄的空間運(yùn)動軌跡,并結(jié)合 6 軸傳感器完成無線控制器的 6DoF 捕捉,進(jìn)而結(jié)合控制器的物理按鍵、馬達(dá)反饋、搖桿等反映到虛擬現(xiàn)實(shí)世界中,用于增強(qiáng)虛擬現(xiàn)實(shí)人機(jī)交互的能力,提升沉浸感。
【圖說】PICO 最新一代無燈環(huán)小手柄。新手柄 LED 燈減少且均在手柄內(nèi),更容易被手部遮擋,因此對手柄追蹤的魯棒性帶來重大挑戰(zhàn)。
相比上一代手柄,無燈環(huán)小手柄更加輕巧便攜,重心偏手心位置(電池和馬達(dá)更集中),握持手感更好;雙手柄的相互干涉概率更小,整體交互會更自然。重量相比上一代手柄輕約15g,高度減少50%。
追蹤效果方面,采用自研 Centaur 多模態(tài)追蹤算法方案,有效解決了雙手遮擋情況下的手柄追蹤精度問題,毫米級追蹤精度,延遲<5ms。
能耗方面,根據(jù) PICO 內(nèi)部測試的結(jié)果,在每天運(yùn)動 1 小時的情況下,可以持續(xù)工作超過 80 天。
實(shí)際上,在 PICO 4 早期的研發(fā)階段,團(tuán)隊就有過制作無燈環(huán)小型手柄的想法。2022 年 6 月,小手柄研發(fā)項目正式啟動后,團(tuán)隊探索過多種追蹤方案,包括自追蹤和其他傳感器的追蹤方案,考慮到精度及成本等因素,最終決定以光學(xué)追蹤為基礎(chǔ),結(jié)合裸手追蹤的最新技術(shù),探索出了一條多模態(tài)的追蹤方案。
「以高精度光學(xué)位姿解算和裸手追蹤為基礎(chǔ),實(shí)時估算手柄和手掌的相對位置關(guān)系。在光學(xué)解算失效的情況下,使用裸手檢測的結(jié)果還原出手柄控制器的 6DoF 信息!筆ICO 裸手追蹤算法團(tuán)隊成員表示。
「這樣我們的手柄控制器追蹤系統(tǒng)不僅能夠使用紅外 LED 做到高精度的追蹤,也能夠利用裸手檢測“隔山打牛”,最終實(shí)現(xiàn)了抓握圓盤的握持方式下依然穩(wěn)定的追蹤效果,通過了極客玩家的挑剔測試!
【圖說】小手柄會面臨更多低 LED 觀測數(shù)量下的初始化與追蹤問題,從數(shù)學(xué)上解算難度更大。上圖為僅有 3 顆 LED 燈時手柄靜止?fàn)顟B(tài)下的追蹤效果,可以看出,多幀緊耦合比單幀松耦合的結(jié)果更加精確,追蹤更加穩(wěn)定,波動顯著減小。
手柄交互+裸手交互,雙線布局應(yīng)對未來
光學(xué)追蹤和裸手追蹤兩大類算法,經(jīng)歷了 PICO Neo3 和 PICO 4 兩代產(chǎn)品的打磨,對用戶需求更了解,技術(shù)廣度和深度有足夠的積累。
作為最早將光學(xué)追蹤產(chǎn)品化的 XR 企業(yè)之一,PICO 的光學(xué)追蹤系統(tǒng)在許多技術(shù)點(diǎn)上表現(xiàn)出優(yōu)勢,精度和性能等指標(biāo)目前處于全球第一梯隊。PICO 的裸手追蹤技術(shù)則在這兩年間快速積累,已經(jīng)可以實(shí)現(xiàn)相當(dāng)精確和穩(wěn)定的手部和指尖追蹤。
「在高難度的快速運(yùn)動場景下,我們通過不斷優(yōu)化端到端的時序模型、千萬級高精訓(xùn)練集,以及 MTP(Motion to Photon,動顯延遲)測試方案,目前算法延遲與追蹤丟失率在全球范圍能做到技術(shù)領(lǐng)先,給用戶在游戲與運(yùn)動場景帶來了流暢且穩(wěn)定的體驗(yàn)!
如今,數(shù)據(jù)驅(qū)動的 AI 正以前所未有的方式塑造著未來,尤其在 XR 領(lǐng)域,由于硬件和算法持續(xù)快速迭代,數(shù)據(jù)的效率、質(zhì)量和可擴(kuò)展性對于開發(fā)交互式 AI 算法至關(guān)重要。
PICO 擁有行業(yè)領(lǐng)先的全方位自研軟硬件基建,覆蓋數(shù)據(jù)生產(chǎn)平臺(含相機(jī)陣列與仿真系統(tǒng))和測試平臺等,特別關(guān)注高效數(shù)據(jù)獲取、高精度數(shù)據(jù)標(biāo)注和數(shù)據(jù)應(yīng)用相關(guān)的工作,也為技術(shù)和產(chǎn)品的研發(fā)奠定了堅實(shí)的基礎(chǔ)。
「為了生產(chǎn)高精數(shù)據(jù),我們在小手柄裸手姿態(tài)數(shù)據(jù)的高精標(biāo)注任務(wù)中,一方面采用了自研的業(yè)內(nèi)領(lǐng)先的基于相機(jī)陣列的多視角手部姿態(tài)標(biāo)注技術(shù)方案;另一方面針對該特定任務(wù)進(jìn)行了預(yù)重建,進(jìn)一步提升了手部姿態(tài)數(shù)據(jù)的精度。」PICO 數(shù)據(jù)交互團(tuán)隊表示。
【圖說】PICO高精度數(shù)據(jù)采集與自動標(biāo)注流程
(多視角采集方案示意圖)
【圖說】AI合成方案,通過仿真手部模型擴(kuò)大數(shù)據(jù)采集樣本
「我們在數(shù)據(jù)生產(chǎn)上也提供了多套技術(shù)方案,如相機(jī)陣列的真實(shí)采集與仿真合成平臺方案,多種方案結(jié)合,有力保障 AI 訓(xùn)練數(shù)據(jù)的支撐!
結(jié)語
當(dāng)前,XR 領(lǐng)域技術(shù)快速更迭,PICO 在光學(xué)追蹤和裸手追蹤兩條技術(shù)路線上雙線布局,表明了其在對技術(shù)發(fā)展趨勢的洞察上具有一定的前瞻性。
「裸手+手柄」的融合式交互方案,結(jié)合了裸手追蹤的直觀性和手柄輸入的精確性,既可以提供自然、直觀的體驗(yàn),又可以實(shí)現(xiàn)精確、細(xì)致的操作,在游戲、教育、醫(yī)療、設(shè)計等領(lǐng)域,很多 XR 應(yīng)用中都是一個非常有吸引力的選項,有望成為未來 2~3 年行業(yè)的主流交互趨勢。
作為國內(nèi)最早參與 XR 領(lǐng)域的企業(yè)之一,PICO 憑借前瞻性的技術(shù)意識和充分的技術(shù)積累,確立了其在行業(yè)中的領(lǐng)先地位。此次自研 Centaur 多模態(tài)追蹤算法,申請專利并成功產(chǎn)品化,再加上全方位自研的軟硬件基礎(chǔ)設(shè)施,這些都是技術(shù)優(yōu)勢的體現(xiàn),也是 PICO 能持續(xù)領(lǐng)跑行業(yè)的關(guān)鍵。
在科技產(chǎn)業(yè),尋找創(chuàng)新與保持一致性之間的平衡是挑戰(zhàn)也是藝術(shù)。一方面,創(chuàng)新性和差異性是推動行業(yè)向前發(fā)展的引擎,為用戶帶來更高效、更具吸引力的體驗(yàn)。另一方面,一致性對于確保平穩(wěn)過渡和降低過渡成本具有至關(guān)重要的作用。PICO 的融合式交互方案巧妙地展現(xiàn)出了這樣的一致與創(chuàng)新。正如混合動力汽車為消費(fèi)者和制造商提供了平滑過渡到全電動汽車的途徑。同樣,手柄+裸手的融合式交互技術(shù)也提供了一條路徑,使得 XR 行業(yè)可以更加平順地邁向下一階段。人機(jī)交互的設(shè)計應(yīng)當(dāng)始終以用戶為中心,包括那些有特殊需求或身體限制的人。讓我們期待 PICO 的這份執(zhí)著和專注,繼續(xù)為玩家?guī)砀喑较胂蟮捏@喜。
參考資料
• 高效數(shù)據(jù)獲取 HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning,https://arxiv.org/abs/2302.00988
• 高精度數(shù)據(jù)標(biāo)注 Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image,Reconstructing Interacting Hands with Interaction Prior from Monocular Images, https://arxiv.org/abs/2 302.02410
• 單視圖中重建雙手Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2308.14082
• 數(shù)據(jù)應(yīng)用 Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling,https://arxiv.org/abs/2308.08855