從運(yùn)動(dòng)控制到體現(xiàn)智能
使用人類(lèi)和動(dòng)物的動(dòng)作來(lái)教機(jī)器人運(yùn)球,并模擬人形角色搬運(yùn)箱子和踢足球。
人形角色通過(guò)反復(fù)試驗(yàn)學(xué)習(xí)穿越障礙課程,這可能會(huì)導(dǎo)致特殊的解決方案。海斯等人。“豐富環(huán)境中運(yùn)動(dòng)行為的出現(xiàn)”(2017 年)。
五年前,我們接受了教授一個(gè)完全清晰的人形角色穿越障礙課程的挑戰(zhàn)。這展示了強(qiáng)化學(xué)習(xí) (RL) 可以通過(guò)反復(fù)試驗(yàn)來(lái)實(shí)現(xiàn)什么,但也突出了解決具身智能的兩個(gè)挑戰(zhàn):
重用先前學(xué)習(xí)的行為:代理需要大量數(shù)據(jù)才能“起步”。在沒(méi)有任何初步知識(shí)對(duì)每個(gè)關(guān)節(jié)施加什么力的情況下,代理開(kāi)始隨機(jī)抽搐并迅速跌倒在地。這個(gè)問(wèn)題可以通過(guò)重用以前學(xué)習(xí)的行為來(lái)緩解。
特殊行為:當(dāng)智能體最終學(xué)會(huì)導(dǎo)航障礙路線時(shí),它會(huì)以不自然(盡管很有趣)的運(yùn)動(dòng)模式進(jìn)行,這對(duì)于機(jī)器人等應(yīng)用來(lái)說(shuō)是不切實(shí)際的。
在這里,我們描述了一個(gè)解決這兩個(gè)挑戰(zhàn)的解決方案,稱(chēng)為神經(jīng)概率運(yùn)動(dòng)原語(yǔ) (NPMP),涉及使用源自人類(lèi)和動(dòng)物的運(yùn)動(dòng)模式進(jìn)行引導(dǎo)學(xué)習(xí),并討論如何在我們的Humanoid Football 論文中使用這種方法,該論文今天發(fā)表在 Science Robotics 上。
我們還討論了這種相同的方法如何通過(guò)視覺(jué)實(shí)現(xiàn)人形全身操作,例如攜帶物體的人形,以及現(xiàn)實(shí)世界中的機(jī)器人控制,例如運(yùn)球的機(jī)器人。
使用 NPMP 將數(shù)據(jù)提取為可控電機(jī)原語(yǔ)
NPMP 是一種通用電機(jī)控制模塊,可將短視距電機(jī)意圖轉(zhuǎn)換為低級(jí)控制信號(hào),并通過(guò)模仿運(yùn)動(dòng)捕捉 (MoCap) 數(shù)據(jù)離線或通過(guò) RL進(jìn)行訓(xùn)練,這些數(shù)據(jù)由跟蹤器記錄的人類(lèi)或動(dòng)物執(zhí)行以下動(dòng)作興趣。
一個(gè)學(xué)習(xí)模仿 MoCap 軌跡的智能體(以灰色顯示)。
該模型有兩個(gè)部分:
采用未來(lái)軌跡并將其壓縮為運(yùn)動(dòng)意圖的編碼器。
一個(gè)低級(jí)控制器,在給定代理的當(dāng)前狀態(tài)和這個(gè)運(yùn)動(dòng)意圖的情況下產(chǎn)生下一個(gè)動(dòng)作。
我們的 NPMP 模型首先將參考數(shù)據(jù)提取到低級(jí)控制器(左)。然后,該低級(jí)控制器可用作新任務(wù)的即插即用電機(jī)控制模塊(右)。
訓(xùn)練后,低級(jí)控制器可以重新用于學(xué)習(xí)新任務(wù),其中高級(jí)控制器被優(yōu)化以直接輸出電機(jī)意圖。這可以實(shí)現(xiàn)有效的探索——因?yàn)榧词故请S機(jī)采樣的運(yùn)動(dòng)意圖也會(huì)產(chǎn)生連貫的行為——并限制最終的解決方案。
人形足球中的緊急團(tuán)隊(duì)協(xié)調(diào)
足球一直是體現(xiàn)智力研究的長(zhǎng)期挑戰(zhàn),需要個(gè)人技能和協(xié)調(diào)的團(tuán)隊(duì)合作。在我們最新的工作中,我們使用 NPMP 作為指導(dǎo)學(xué)習(xí)運(yùn)動(dòng)技能的先驗(yàn)。
結(jié)果是一群球員從學(xué)習(xí)追球技巧發(fā)展到最終學(xué)會(huì)協(xié)調(diào)。以前,在一項(xiàng)具有簡(jiǎn)單實(shí)施例的研究中,我們已經(jīng)表明協(xié)調(diào)行為可以出現(xiàn)在相互競(jìng)爭(zhēng)的團(tuán)隊(duì)中。NPMP 使我們能夠觀察到類(lèi)似的效果,但在需要更先進(jìn)的電機(jī)控制的情況下。
代理首先模仿足球運(yùn)動(dòng)員的運(yùn)動(dòng)來(lái)學(xué)習(xí) NPMP 模塊(上)。使用 NPMP,代理然后學(xué)習(xí)足球特定技能(底部)。
我們的代理人獲得了包括敏捷運(yùn)動(dòng)、傳球和分工在內(nèi)的技能,這些技能由一系列統(tǒng)計(jì)數(shù)據(jù)(包括現(xiàn)實(shí)世界體育分析中使用的指標(biāo))證明。球員們表現(xiàn)出敏捷的高頻運(yùn)動(dòng)控制和長(zhǎng)期決策,包括預(yù)測(cè)隊(duì)友的行為,從而實(shí)現(xiàn)協(xié)調(diào)的團(tuán)隊(duì)合作。
使用多智能體 RL 學(xué)習(xí)有競(jìng)爭(zhēng)力地踢足球的智能體。
使用視覺(jué)的全身
學(xué)習(xí)使用手臂與物體交互是另一個(gè)困難的控制挑戰(zhàn)。NPMP 還可以實(shí)現(xiàn)這種類(lèi)型的全身操作。通過(guò)與盒子交互的少量 MoCap 數(shù)據(jù),我們能夠訓(xùn)練一個(gè)智能體將一個(gè)盒子從一個(gè)位置帶到另一個(gè)位置,使用以自我為中心的視覺(jué)并且只有一個(gè)稀疏的獎(jiǎng)勵(lì)信號(hào):
使用少量 MoCap 數(shù)據(jù)(上),我們的 NPMP 方法可以解決一個(gè)盒子搬運(yùn)任務(wù)(下)。
同樣,我們可以教智能體接球和扔球:
模擬人形接球和投球。
使用 NPMP,我們還可以處理涉及運(yùn)動(dòng)、感知和記憶的迷宮任務(wù):
模擬人形機(jī)器人在迷宮中收集藍(lán)色球體。
安全高效地控制現(xiàn)實(shí)世界的機(jī)器人
NPMP 還可以幫助控制真正的機(jī)器人。有規(guī)律的行為對(duì)于在崎嶇地形上行走或處理易碎物體等活動(dòng)至關(guān)重要。抖動(dòng)的動(dòng)作可能會(huì)損壞機(jī)器人本身或其周?chē)h(huán)境,或者至少會(huì)耗盡其電池。因此,通常會(huì)投入大量精力來(lái)設(shè)計(jì)學(xué)習(xí)目標(biāo),使機(jī)器人能夠按照我們的意愿行事,同時(shí)以安全有效的方式行事。
作為替代方案,我們調(diào)查了使用源自生物運(yùn)動(dòng)的先驗(yàn)是否可以為有腿機(jī)器人提供規(guī)則化、外觀自然和可重復(fù)使用的運(yùn)動(dòng)技能,例如適合部署在現(xiàn)實(shí)世界機(jī)器人上的步行、跑步和轉(zhuǎn)彎.
從人類(lèi)和狗的 MoCap 數(shù)據(jù)開(kāi)始,我們采用 NPMP 方法在模擬中訓(xùn)練技能和控制器,然后可以分別部署在真正的類(lèi)人機(jī)器人 (OP3) 和四足機(jī)器人 (ANYmal B) 上。這允許用戶通過(guò)操縱桿操縱機(jī)器人或以自然且穩(wěn)健的方式將球運(yùn)到目標(biāo)位置。
ANYmal 機(jī)器人的運(yùn)動(dòng)技能是通過(guò)模仿狗的動(dòng)作捕捉來(lái)學(xué)習(xí)的。
然后可以將運(yùn)動(dòng)技能重新用于可控步行和運(yùn)球。
使用神經(jīng)概率運(yùn)動(dòng)原語(yǔ)的好處
總之,我們已經(jīng)使用 NPMP 技能模型來(lái)學(xué)習(xí)模擬和現(xiàn)實(shí)世界機(jī)器人中具有人形角色的復(fù)雜任務(wù)。NPMP 以可重用的方式打包了低級(jí)運(yùn)動(dòng)技能,從而更容易學(xué)習(xí)通過(guò)非結(jié)構(gòu)化試錯(cuò)法難以發(fā)現(xiàn)的有用行為。使用動(dòng)作捕捉作為先驗(yàn)信息的來(lái)源,它將運(yùn)動(dòng)控制的學(xué)習(xí)偏向自然運(yùn)動(dòng)的學(xué)習(xí)。
NPMP 使具體代理能夠使用 RL 更快地學(xué)習(xí);學(xué)習(xí)更多自然主義的行為;學(xué)習(xí)更安全、高效、穩(wěn)定的適用于現(xiàn)實(shí)世界機(jī)器人的行為;并將全身運(yùn)動(dòng)控制與更長(zhǎng)視野的認(rèn)知技能相結(jié)合,例如團(tuán)隊(duì)合作和協(xié)調(diào)。
- 上一篇
您需要了解的關(guān)于Web3的內(nèi)容
Web3是支持者認(rèn)為將重新定義日常數(shù)字體驗(yàn)的下一代互聯(lián)網(wǎng)技術(shù)。在密碼學(xué)和分布式賬本技術(shù)的幫助下,Web3承諾創(chuàng)建一個(gè)用戶擁有和用戶控制的互聯(lián)網(wǎng)。許多Web3項(xiàng)目已經(jīng)出現(xiàn),在娛樂(lè)
- 下一篇
關(guān)于機(jī)器學(xué)習(xí)未來(lái)的5個(gè)預(yù)測(cè)
機(jī)器學(xué)習(xí)是一項(xiàng)革命性技術(shù),目前已成為眾多新興和成熟行業(yè)的關(guān)鍵方面。該技術(shù)允許計(jì)算機(jī)訪問(wèn)隱藏的洞察力并預(yù)測(cè)結(jié)果,從而為企業(yè)帶來(lái)顯著變化。英特爾副總裁兼總經(jīng)理魏磊表示:&l
相關(guān)資訊
- 數(shù)據(jù)科學(xué)與數(shù)據(jù)分析
- 什么是差分隱私?
- 低代碼/無(wú)代碼的優(yōu)缺點(diǎn)
- 2022年深度學(xué)習(xí)的五大趨勢(shì)
- 大數(shù)據(jù)與數(shù)據(jù)挖掘的區(qū)別
- 關(guān)于機(jī)器學(xué)習(xí)未來(lái)的5個(gè)預(yù)測(cè)
- 元宇宙發(fā)展的五項(xiàng)關(guān)鍵技術(shù)
- 什么是5G物聯(lián)網(wǎng)?
- 如何使用量子加密術(shù)保護(hù)物聯(lián)網(wǎng)應(yīng)
- Wi-Fi和移動(dòng)數(shù)據(jù)有什么區(qū)別?