向機器人教授具有神經(jīng)輻射場(NeRF)的工具
密歇根大學(xué)的一項新研究通過創(chuàng)建神經(jīng)輻射場(NeRF) 對象來展示這些對象的移動方式,從而為機器人提供了一種了解工具機制和其他現(xiàn)實世界鉸接對象機制的方法,從而可能允許機器人進行交互與它們一起使用,無需繁瑣的專用預(yù)配置。
通過利用工具(或任何具有合適參考的對象)內(nèi)部運動的已知源參考,NARF22 可以合成工具及其移動范圍和操作類型的逼真近似。
需要做的不僅僅是避開行人或執(zhí)行精心預(yù)編程的例程(對于這些不可重復(fù)使用的數(shù)據(jù)集可能已被標(biāo)記并花費一定費用進行訓(xùn)練)的機器人,如果它們要使用相同的材??料和我們其他人必須應(yīng)對的對象。
迄今為止,為機器人系統(tǒng)注入這種多功能性存在許多障礙。其中包括缺乏適用的數(shù)據(jù)集,其中許多數(shù)據(jù)集的對象數(shù)量非常有限;生成逼真的、基于網(wǎng)格的 3D 模型所涉及的絕對成本,這些模型可以幫助機器人在現(xiàn)實世界的環(huán)境中學(xué)習(xí)工具;以及這些數(shù)據(jù)集的非真實感質(zhì)量,實際上可能適合挑戰(zhàn),導(dǎo)致物體看起來與機器人在周圍世界中感知的脫節(jié),并訓(xùn)練它尋找永遠不會出現(xiàn)的卡通物體現(xiàn)實。
為了解決這個問題,密歇根研究人員的論文標(biāo)題為NARF22:用于配置感知渲染的神經(jīng)鉸接輻射場,他們開發(fā)了一個兩階段的管道,用于生成具有“真實世界”外觀的基于 NeRF 的鉸接對象,其中包含任何特定鉸接對象的運動和隨之而來的限制。
雖然看起來更復(fù)雜,但 NARF22 管道的基本兩個階段涉及渲染運動工具的靜態(tài)部分,然后將這些元素合成到第二個數(shù)據(jù)集中,該數(shù)據(jù)集被告知這些部分相對于彼此具有的運動參數(shù)。來源:https://arxiv.org/pdf/2210.01166.pdf
該系統(tǒng)被稱為神經(jīng)鉸接輻射場- 或 NARF22,以將其與另一個類似名稱的項目區(qū)分開來。
NARF22
確定一個未知對象是否有潛在的關(guān)節(jié)連接需要幾乎不可思議的人類先驗知識。例如,如果您以前從未見過封閉的抽屜,它可能看起來是任何其他類型的裝飾鑲板——直到您真正打開了一個,您才將“抽屜”內(nèi)化為具有單一運動軸的鉸接對象(向前和向后)。
因此,NARF22 并非旨在作為一個探索性系統(tǒng)來拾取物品并查看它們是否具有可操作的移動部件 - 幾乎是猿類行為,這將帶來許多潛在的災(zāi)難性場景。相反,該框架以通用機器人描述格式(URDF) 中可用的知識為基礎(chǔ)——這是一種基于 XML 的開源格式,廣泛適用并適用于該任務(wù)。URDF 文件將包含對象中可用的運動參數(shù),以及對象部分的描述和其他標(biāo)記方面。
在傳統(tǒng)的管道中,有必要從本質(zhì)上描述對象的關(guān)節(jié)能力,并標(biāo)記相關(guān)的關(guān)節(jié)值。這不是一項廉價或易于擴展的任務(wù)。相反,NaRF22 工作流程在將每個靜態(tài)組件“組裝”成基于 NeRF 的關(guān)節(jié)表示之前渲染對象的各個組件,并了解 URDF 提供的運動參數(shù)。
在該過程的第二階段,創(chuàng)建一個包含所有部分的全新渲染器。盡管在早期階段簡單地連接各個部分并跳過后續(xù)步驟可能更容易,但研究人員觀察到最終模型(在 AMD 5600X CPU 下的 NVIDIA RTX 3080 GPU 上訓(xùn)練)在反向傳播期間具有較低的計算需求而不是這樣突然和過早的組裝。
此外,第二階段模型的運行速度是串聯(lián)的“蠻力”裝配速度的兩倍,任何可能需要利用模型靜態(tài)部分信息的輔助應(yīng)用程序都不需要自己訪問 URDF 信息,因為這已經(jīng)被合并到最后階段的渲染器中。
數(shù)據(jù)和實驗
研究人員進行了多項實驗來測試 NARF22:一項評估每個對象的配置和姿勢的定性渲染;將渲染結(jié)果與現(xiàn)實世界機器人看到的類似觀點進行比較的定量測試;以及使用 NARF22 執(zhí)行基于梯度的優(yōu)化的配置估計和 6 DOF(景深)細化挑戰(zhàn)的演示。
訓(xùn)練數(shù)據(jù)取自當(dāng)前工作的幾位作者的早期論文的Progress Tools數(shù)據(jù)集。Progress Tools 包含大約 6000 個 640×480 分辨率的 RGB-D(即包括深度信息,對機器人視覺至關(guān)重要)圖像。使用的場景包括八個手動工具,分為它們的組成部分,包括網(wǎng)格模型和對象運動特性的信息(即,它們被設(shè)計為移動的方式,以及移動的參數(shù))。
Progress Tools 數(shù)據(jù)集具有四個明確的工具。上面的圖像是來自 NARF22 的基于 NeRF 的渲染。
對于這個實驗,最終的可配置模型僅使用線工鉗、長嘴鉗和夾具(見上圖)進行了訓(xùn)練。訓(xùn)練數(shù)據(jù)包含夾具的單一配置,以及每個鉗子的配置。
NARF22 的實現(xiàn)基于FastNeRF,修改了輸入?yún)?shù)以專注于工具的連接和空間編碼姿勢。FastNeRF 使用分解多層感知器 (MLP) 與體素采樣機制配對(體素本質(zhì)上是像素,但具有完整的 3D 坐標(biāo),因此它們可以在三維空間中運行)。
對于定性測試,研究人員觀察到夾子有幾個被遮擋的部分(即中央脊椎,不能通過觀察對象來知道或猜測,而只能通過與其交互來了解或猜測,并且系統(tǒng)很難創(chuàng)建這個“未知”幾何。
工具的定性渲染。
相比之下,鉗子能夠很好地推廣到新穎的配置(即,它們在 URDF 參數(shù)內(nèi)的部分的擴展和移動,但在模型的訓(xùn)練材料中沒有明確解決。
然而,研究人員觀察到,鉗子的標(biāo)簽錯誤導(dǎo)致工具非常詳細的提示的渲染質(zhì)量下降,對渲染產(chǎn)生負面影響——這個問題與對計算機中的標(biāo)簽物流、預(yù)算和準(zhǔn)確性的更廣泛關(guān)注有關(guān)視覺研究部門,而不是 NARF22 管道中的任何程序缺陷。
渲染精度測試的結(jié)果。
對于配置估計測試,研究人員從初始“剛性”姿態(tài)執(zhí)行姿態(tài)改進和配置估計,避免了 FastNeRF 本身使用的任何緩存或其他加速解決方法。
然后,他們從 Progress Tools 的測試集中(在訓(xùn)練期間被擱置)訓(xùn)練了 17 個有序的場景,在 Adam 優(yōu)化器下運行了 150 次梯度下降優(yōu)化迭代。據(jù)研究人員稱,該程序“非常好”地恢復(fù)了配置估計。
配置估計測試的結(jié)果。
2022年10月5日首次發(fā)布。