資訊詳情

英特爾實驗室通過兩種新的AI模型推進計算機視覺開發(fā)

2023-03-27 10:43:304636

VI-Depth 1.0 和 MiDaS 3.1 開源 AI 模型改進了計算機視覺的深度估計。

深度估計是一項具有挑戰(zhàn)性的計算機視覺任務，需要在機器人技術、增強現(xiàn)實 (AR) 和虛擬現(xiàn)實 (VR) 中創(chuàng)建廣泛的應用程序?，F(xiàn)有的解決方案往往難以正確估計距離，而這是在視覺導航方面幫助規(guī)劃運動和避開障礙物的關鍵方面。英特爾實驗室的研究人員正在通過發(fā)布兩種用于單眼深度估計的 AI 模型來解決這個問題：一種用于視覺慣性深度估計，一種用于穩(wěn)健的相對深度估計 (RDE)。

最新的 RDE 模型 MiDaS 3.1 版僅使用單個圖像作為輸入來預測穩(wěn)健的相對深度。由于其在大型和多樣化的數(shù)據(jù)集上進行訓練，它可以在更廣泛的任務和環(huán)境中有效地執(zhí)行。最新版本的 MiDaS 通過其更大的訓練集和更新的編碼器骨干將 RDE 的模型精度提高了約 30%。

MiDaS 已被納入許多項目，最著名的是 Stable Diffusion 2.0，它啟用了深度到圖像的功能，可以推斷輸入圖像的深度，然后使用文本和深度信息生成新圖像。例如，數(shù)字創(chuàng)作者Scottie Fox使用 Stable Diffusion 和 MiDaS 的組合來創(chuàng)建 360 度 VR 環(huán)境。這項技術可能會帶來新的虛擬應用，包括法庭案件的犯罪現(xiàn)場重建、醫(yī)療保健的治療環(huán)境和身臨其境的游戲體驗。

雖然 RDE 具有良好的通用性和實用性，但缺乏規(guī)模會降低其對需要度量深度的下游任務的實用性，例如地圖繪制、規(guī)劃、導航、對象識別、3D 重建和圖像編輯。英特爾實驗室的研究人員正在通過發(fā)布 VI-Depth 來解決這個問題，VI-Depth 是另一種提供準確深度估計的人工智能模型。

VI-Depth 是一種視覺慣性深度估計管道，它集成了單目深度估計和視覺慣性里程計 (VIO)，以生成具有公制尺度的密集深度估計。這種方法提供了準確的深度估計，有助于場景重建、映射和對象操作。

結合慣性數(shù)據(jù)可以幫助解決尺度歧義。大多數(shù)移動設備已經(jīng)包含慣性測量單元 (IMU)。全局對齊確定適當?shù)娜直壤芗壤龑R (SML) 在本地運行并將區(qū)域推向或拉向正確的度量深度。SML 網(wǎng)絡利用 MiDaS 作為編碼器主干。在模塊化管道中，VI-Depth 將數(shù)據(jù)驅(qū)動的深度估計與 MiDaS 相對深度預測模型以及 IMU 傳感器測量單元相結合。數(shù)據(jù)源的組合允許 VI-Depth 為圖像中的每個像素生成更可靠的密集度量深度。

MiDaS 3.1和VI-Depth 1.0可在 GitHub 上獲得開源 MIT 許可。

有關更多信息，請參閱“用于密集預測的視覺變換器”和“邁向穩(wěn)健的單眼深度估計：混合數(shù)據(jù)集以進行零樣本跨數(shù)據(jù)集傳輸”。

无码一区二区三区|无码国产精品一区二区免费式芒果|无码精品国产d在线观看|无码精品前田一区二区|无码精品日韩专区|无码精品尤物一区二区三区

資訊詳情

英特爾實驗室通過兩種新的AI模型推進計算機視覺開發(fā)

人工智能價格下跌：如何利用、挑戰(zhàn)和主要考慮因素

數(shù)字化轉(zhuǎn)型如何為銀行業(yè)帶來變革

相關資訊