英特爾實驗室通過兩種新的AI模型推進計算機視覺開發(fā)
VI-Depth 1.0 和 MiDaS 3.1 開源 AI 模型改進了計算機視覺的深度估計。
深度估計是一項具有挑戰(zhàn)性的計算機視覺任務,需要在機器人技術、增強現(xiàn)實 (AR) 和虛擬現(xiàn)實 (VR) 中創(chuàng)建廣泛的應用程序?,F(xiàn)有的解決方案往往難以正確估計距離,而這是在視覺導航方面幫助規(guī)劃運動和避開障礙物的關鍵方面。英特爾實驗室的研究人員正在通過發(fā)布兩種用于單眼深度估計的 AI 模型來解決這個問題:一種用于視覺慣性深度估計,一種用于穩(wěn)健的相對深度估計 (RDE)。
最新的 RDE 模型 MiDaS 3.1 版僅使用單個圖像作為輸入來預測穩(wěn)健的相對深度。由于其在大型和多樣化的數(shù)據(jù)集上進行訓練,它可以在更廣泛的任務和環(huán)境中有效地執(zhí)行。最新版本的 MiDaS 通過其更大的訓練集和更新的編碼器骨干將 RDE 的模型精度提高了約 30%。
MiDaS 已被納入許多項目,最著名的是 Stable Diffusion 2.0,它啟用了深度到圖像的功能,可以推斷輸入圖像的深度,然后使用文本和深度信息生成新圖像。例如,數(shù)字創(chuàng)作者Scottie Fox使用 Stable Diffusion 和 MiDaS 的組合來創(chuàng)建 360 度 VR 環(huán)境。這項技術可能會帶來新的虛擬應用,包括法庭案件的犯罪現(xiàn)場重建、醫(yī)療保健的治療環(huán)境和身臨其境的游戲體驗。
雖然 RDE 具有良好的通用性和實用性,但缺乏規(guī)模會降低其對需要度量深度的下游任務的實用性,例如地圖繪制、規(guī)劃、導航、對象識別、3D 重建和圖像編輯。英特爾實驗室的研究人員正在通過發(fā)布 VI-Depth 來解決這個問題,VI-Depth 是另一種提供準確深度估計的人工智能模型。
VI-Depth 是一種視覺慣性深度估計管道,它集成了單目深度估計和視覺慣性里程計 (VIO),以生成具有公制尺度的密集深度估計。這種方法提供了準確的深度估計,有助于場景重建、映射和對象操作。
結合慣性數(shù)據(jù)可以幫助解決尺度歧義。大多數(shù)移動設備已經(jīng)包含慣性測量單元 (IMU)。全局對齊確定適當?shù)娜直壤芗壤龑R (SML) 在本地運行并將區(qū)域推向或拉向正確的度量深度。SML 網(wǎng)絡利用 MiDaS 作為編碼器主干。在模塊化管道中,VI-Depth 將數(shù)據(jù)驅(qū)動的深度估計與 MiDaS 相對深度預測模型以及 IMU 傳感器測量單元相結合。數(shù)據(jù)源的組合允許 VI-Depth 為圖像中的每個像素生成更可靠的密集度量深度。
MiDaS 3.1和VI-Depth 1.0可在 GitHub 上獲得開源 MIT 許可。
有關更多信息,請參閱“用于密集預測的視覺變換器”和“邁向穩(wěn)健的單眼深度估計:混合數(shù)據(jù)集以進行零樣本跨數(shù)據(jù)集傳輸”。