谷歌推出改進(jìn)強(qiáng)化學(xué)習(xí)的新方法
谷歌的人工智能研究人員提出了一種改進(jìn)強(qiáng)化學(xué)習(xí) (RL) 的新方法——重用先前的計(jì)算工作。
在論文Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress中,該團(tuán)隊(duì)提議在 RL 代理到另一個(gè)代理的設(shè)計(jì)迭代之間重用記錄的數(shù)據(jù)或?qū)W習(xí)模型。
研究人員表示,重用計(jì)算工作可以“顯著提高現(xiàn)實(shí)世界 RL 的采用率,并有助于進(jìn)一步民主化”。
該論文的作者表示,重生強(qiáng)化學(xué)習(xí) (RRL) 是“比白板強(qiáng)化學(xué)習(xí)更(更多)計(jì)算效率更高的研究工作流程,并且可以幫助進(jìn)一步使研究民主化”。
該論文在 NeurIPS 2022 會(huì)議之前發(fā)表,代碼可通過(guò)GitHub獲得。
降低研究人員的計(jì)算成本
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)訓(xùn)練方法,其中期望的行為得到獎(jiǎng)勵(lì),而未尋求的行為則受到懲罰。實(shí)際上,這是一種試錯(cuò)法,系統(tǒng)會(huì)逐漸學(xué)習(xí)其任務(wù)和周圍的環(huán)境。RL 可用于改進(jìn)機(jī)器人、自動(dòng)駕駛汽車本文和對(duì)話代理等領(lǐng)域的部署。
大多數(shù)基于代理的系統(tǒng)都是使用 RL 的白板方法開發(fā)的,因?yàn)樗鼈兪菑念^開始構(gòu)建的,而不使用先前學(xué)習(xí)的有關(guān)問(wèn)題的知識(shí)。
谷歌的研究團(tuán)隊(duì)認(rèn)為,tabula rasa RL 方法“通常是解決大規(guī)模 RL 問(wèn)題的例外而不是規(guī)范”。他們認(rèn)為,重新訓(xùn)練大型系統(tǒng)“成本高得令人望而卻步”,尤其是考慮到許多系統(tǒng)經(jīng)歷了多次設(shè)計(jì)變更和修改。
“tabula rasa RL 研究的低效率可能使許多研究人員無(wú)法解決計(jì)算要求高的問(wèn)題,”作者在谷歌博客文章中寫道。
相反,研究人員認(rèn)為,他們的新可重用方法將使研究人員受益,因?yàn)椴恍枰^(guò)多的計(jì)算資源。
谷歌研究人員表示:“RRL 可以實(shí)現(xiàn)基準(zhǔn)測(cè)試范式,研究人員可以在其中不斷改進(jìn)和更新現(xiàn)有的訓(xùn)練有素的代理,特別是在提高性能對(duì)現(xiàn)實(shí)世界產(chǎn)生影響的問(wèn)題上,例如(平流層)氣球?qū)Ш交蛐酒O(shè)計(jì)。”
然而,該論文確實(shí)指出,對(duì)于自然語(yǔ)言處理 (NLP) 和計(jì)算機(jī)視覺來(lái)說(shuō),重新強(qiáng)化學(xué)習(xí)將是困難的,因?yàn)樵谶@些領(lǐng)域,預(yù)訓(xùn)練的模型很少(如果有的話)從頭開始復(fù)制或重新訓(xùn)練,但幾乎總是按原樣使用。
作者寫道:“由于從頭開始的再現(xiàn)性涉及再現(xiàn)現(xiàn)有的計(jì)算工作,它可能比訓(xùn)練白板更昂貴,這超出了進(jìn)行輪回的目的。”
- 上一篇
區(qū)塊鏈開發(fā):內(nèi)部與外包你更喜歡哪個(gè)?
我們都看到了區(qū)塊鏈如何成為越來(lái)越廣泛的企業(yè)的首選技術(shù)堆棧,為加密貨幣、金融應(yīng)用程序、供應(yīng)鏈系統(tǒng)等提供動(dòng)力。此外,隨著web 3.0的出現(xiàn),企業(yè)除了實(shí)施區(qū)塊鏈技術(shù)在新連接的互
- 下一篇
什么是道德黑客及其如何運(yùn)作?
我們生活在一個(gè)前所未有的網(wǎng)絡(luò)犯罪時(shí)代,無(wú)論是數(shù)量還是質(zhì)量。這些攻擊可以采取多種形式,可以顯著影響國(guó)家安全和商業(yè)利益。對(duì)于組織來(lái)說(shuō),應(yīng)對(duì)這些挑戰(zhàn)比以往任何時(shí)候都更加重要
相關(guān)資訊
- 當(dāng)數(shù)字化轉(zhuǎn)型項(xiàng)目失敗時(shí),50%的企
- 使用云技術(shù)的公司的7個(gè)企業(yè)應(yīng)用
- 邊緣計(jì)算的五個(gè)潛在陷阱
- 大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈技術(shù)在互
- 關(guān)于AI驅(qū)動(dòng)的網(wǎng)絡(luò)攻擊,您應(yīng)該了解
- 云計(jì)算在大型數(shù)據(jù)分析中的優(yōu)勢(shì)有
- 2023年影響設(shè)建筑施管理發(fā)展的技
- 用好這些AI工具,讓你工作效率翻倍
- 樓宇自動(dòng)化系統(tǒng)有哪些優(yōu)缺點(diǎn)
- 投資創(chuàng)新:智慧城市的未來(lái)