強化學習模型容易受到成員推理攻擊
隨著機器學習成為我們每天使用的許多應用程序的一部分,人們越來越關(guān)注識別和解決機器學習模型的安全和隱私威脅。
然而,不同機器學習范式的安全威脅各不相同,機器學習安全的某些領(lǐng)域仍未得到充分研究。尤其是強化學習(RL)算法的安全性近年來并未受到太多關(guān)注。
麥吉爾大學、Mila和滑鐵盧大學的研究人員進行的一項新研究側(cè)重于深度強化學習算法的隱私威脅。研究人員提出了一個框架,用于測試強化學習模型對成員推理攻擊的脆弱性。
研究結(jié)果表明,對手可以對深度RL系統(tǒng)進行有效攻擊,并可能獲得用于訓練模型的敏感信息。他們的發(fā)現(xiàn)意義重大,因為強化學習正在進入工業(yè)和消費者應用領(lǐng)域。
成員推斷攻擊
成員推理攻擊觀察目標機器學習模型的行為并預測用于訓練它的示例。
每個機器學習模型都在一組示例上進行訓練。在某些情況下,訓練示例包括敏感信息,例如健康或財務數(shù)據(jù),或其他個人身份信息。
成員推理攻擊是一系列試圖強制ML模型泄露其訓練集數(shù)據(jù)的技術(shù)。雖然對抗性示例(一種更廣為人知的針對機器學習的攻擊類型)側(cè)重于改變ML模型的行為并被視為安全威脅,但成員推理攻擊側(cè)重于從模型中提取信息,并且更多的是隱私威脅.
成員推理攻擊已經(jīng)在有監(jiān)督的ML算法中進行了深入研究,其中模型是在標記示例上進行訓練的。
與監(jiān)督學習不同,深度強化學習系統(tǒng)不使用標記示例。RL代理從它與環(huán)境的交互中獲得獎勵(或懲罰)。它通過這些相互作用和強化信號逐漸學習和發(fā)展其行為。
“[強化學習中的]獎勵不一定代表標簽;因此,它們不能充當其他學習范式中成員推理攻擊設計中經(jīng)常使用的預測標簽,”該論文的作者在書面評論中告訴TechTalks。
研究人員在他們的論文中寫道,“沒有關(guān)于直接用于訓練深度強化學習代理的數(shù)據(jù)的潛在成員泄漏的研究。”
這種缺乏研究的部分原因是強化學習在現(xiàn)實世界中的應用有限。
“盡管深度強化學習領(lǐng)域取得了實質(zhì)性進展,例如AlphaGo、AlphaFold和GT Sophy,但深度強化學習模型仍未在工業(yè)規(guī)模上得到廣泛采用,”作者說。“另一方面,數(shù)據(jù)隱私是一個應用非常廣泛的研究領(lǐng)域,深度強化學習模型在實際工業(yè)應用中的缺乏極大地延遲了這一基礎(chǔ)和重要研究領(lǐng)域的研究,導致對強化學習系統(tǒng)的攻擊與其他相關(guān)領(lǐng)域相比,研究不足。”
隨著在現(xiàn)實世界場景中工業(yè)規(guī)模應用RL算法的需求不斷增長,從對抗性和算法的角度對解決RL算法隱私方面的框架的關(guān)注和嚴格要求變得越來越明顯,相關(guān)的。
深度強化學習中成員推斷的挑戰(zhàn)
“我們在開發(fā)第一代保護隱私的深度強化學習算法方面所做的努力使我們意識到從隱私的角度來看,經(jīng)典機器學習(ML)算法和強化學習算法之間存在根本的結(jié)構(gòu)差異,”作者說。
研究人員發(fā)現(xiàn),更關(guān)鍵的是,考慮到潛在的隱私后果,深度強化學習與其他學習范式之間的根本差異在為實際應用部署深度RL模型方面提出了嚴峻挑戰(zhàn)。
“在這種認識的推動下,對我們來說最大的問題是:深度RL算法對隱私攻擊(如成員推斷攻擊)的脆弱性有多大?”作者說。“現(xiàn)有的MIA攻擊模型是專門為其他學習范式設計的,因此DRL算法對這類攻擊的脆弱程度在很大程度上是未知的。鑒于在世界范圍內(nèi)部署對隱私的嚴重影響,這種對未知事物的好奇心以及提高研究和工業(yè)界意識的必要性是本研究背后的主要動機。”
在訓練過程中,強化學習模型會經(jīng)歷一個情節(jié),每個情節(jié)都由一個軌跡或一系列動作和狀態(tài)組成。因此,一個成功的強化學習成員推理攻擊算法必須同時學習用于訓練模型的數(shù)據(jù)點和軌跡。一方面,這使得針對RL系統(tǒng)設計成員推理算法變得更加困難,另一方面,也使得評估RL模型對抗此類攻擊的魯棒性變得困難。
“與其他類型的ML相比,在RL中MIA很困難,因為在訓練過程中使用的數(shù)據(jù)點具有順序和時間相關(guān)的性質(zhì)。訓練和預測數(shù)據(jù)點之間的多對多關(guān)系從根本上不同于其他學習范式,”作者說。
RL和其他ML范式之間的根本區(qū)別使得在設計和評估用于深度強化學習的成員推理攻擊時以新的方式思考至關(guān)重要。
設計針對RL系統(tǒng)的成員推理攻擊
在他們的研究中,研究人員專注于“off-policy”強化學習算法,其中數(shù)據(jù)收集和模型訓練過程是分開的。離策略強化學習使用“重放緩沖區(qū)”來解相關(guān)輸入軌跡,并使RL代理可以從同一組數(shù)據(jù)中探索許多不同的軌跡。
Off-policy RL對于許多實際應用程序尤其重要,在這些應用程序中,訓練數(shù)據(jù)預先存在并提供給正在訓練RL模型的ML團隊。Off-policy RL對于創(chuàng)建成員推理攻擊模型也至關(guān)重要。
離策略強化學習使用“重放緩沖區(qū)”在模型訓練期間重用先前收集的數(shù)據(jù)
“探索和開發(fā)階段在真正的離策略RL模型中是分離的。因此,目標策略不會影響訓練軌跡,”作者說。“這種設置特別適合在黑盒環(huán)境中設計MIA框架時,對手既不知道目標模型的內(nèi)部結(jié)構(gòu),也不知道用于收集訓練軌跡的探索策略。”
在黑盒MIA攻擊中,攻擊者只能觀察訓練好的強化學習模型的行為。在這種特殊情況下,攻擊者假設目標模型已經(jīng)在從一組私有數(shù)據(jù)生成的軌跡上進行了訓練,這就是非策略RL的工作原理。
在他們的研究中,研究人員選擇了“批量約束深度Q學習”(BCQ),這是一種最先進的離策略RL算法,在控制任務中表現(xiàn)出卓越的性能。然而,他們表示他們的成員推理攻擊技術(shù)可以擴展到其他離策略的RL模型。
進行MIA攻擊的一種方法是開發(fā)“影子模型”。這是一個分類器ML模型,它已經(jīng)在來自與目標模型的訓練數(shù)據(jù)和其他地方的相同分布的數(shù)據(jù)混合上進行了訓練。訓練后,影子模型可以區(qū)分屬于目標ML模型訓練集的數(shù)據(jù)點和模型以前未見過的新數(shù)據(jù)。由于目標模型訓練的順序性,為RL代理創(chuàng)建影子模型很棘手。研究人員通過幾個步驟實現(xiàn)了這一點。
首先,他們?yōu)镽L模型訓練器提供一組新的非私有數(shù)據(jù)軌跡,并觀察目標模型生成的軌跡。然后,攻擊訓練器使用訓練和輸出軌跡來訓練ML分類器,以檢測在目標RL模型訓練中使用的輸入軌跡。最后,為分類器提供了新的軌跡,將其分類為訓練成員或新數(shù)據(jù)示例。
針對強化學習模型訓練成員推理攻擊的影子模型。
針對RL系統(tǒng)測試MIA
研究人員以不同的模式測試了他們的成員推理攻擊,包括不同的軌跡長度、單軌跡與多軌跡,以及相關(guān)軌跡與去相關(guān)軌跡。
研究人員在他們的論文中指出:“結(jié)果表明,我們提出的攻擊框架在推斷RL模型訓練數(shù)據(jù)點方面非常有效……獲得的結(jié)果表明,采用深度強化學習時存在很高的隱私風險。”
他們的研究結(jié)果表明,具有多個軌跡的攻擊比單個軌跡更有效,并且隨著軌跡變得更長且相互關(guān)聯(lián),攻擊的準確性也會提高。
“自然設置當然是個體模型,對手有興趣在用于訓練目標RL策略的訓練集中識別特定個體的存在(在RL中設置整個軌跡),”作者說.“然而,集體模式下MIA的更好性能表明,除了訓練策略的特征捕獲的時間相關(guān)性之外,對手還可以利用目標策略的訓練軌跡之間的互相關(guān)性。”
研究人員表示,當然,這也意味著攻擊者需要更復雜的學習架構(gòu)和更復雜的超參數(shù)調(diào)整來利用訓練軌跡之間的互相關(guān)和軌跡內(nèi)的時間相關(guān)性。
“了解這些不同的攻擊模式可以讓我們更深入地了解對數(shù)據(jù)安全和隱私的影響,因為它可以讓我們更好地了解可能發(fā)生攻擊的不同角度以及對隱私泄露的影響程度,”研究人員說。
現(xiàn)實世界中針對RL系統(tǒng)的成員推理攻擊
圖片來源:123RF
研究人員測試了他們對基于OpenAI Gym和MuJoCo物理引擎的三項任務訓練的RL模型的攻擊。
“我們目前的實驗涵蓋了三個高維運動任務,Hopper、Half-Cheetah和Ant,”研究人員說。“這些任務都屬于機器人仿真任務的范疇,這些任務主要推動將實驗擴展到現(xiàn)實世界的機器人學習任務。”
該論文的研究人員表示,另一個應用成員推斷攻擊的令人興奮的方向是對話系統(tǒng),例如Amazon Alexa、Apple Siri和Google Assistant。在這些應用程序中,數(shù)據(jù)點由聊天機器人和最終用戶之間的完整交互軌跡呈現(xiàn)。在此設置中,聊天機器人是經(jīng)過訓練的RL策略,用戶與機器人的交互形成輸入軌跡。
“在這種情況下,集體模式就是自然環(huán)境。換句話說,當且僅當攻擊者正確推斷出代表訓練集中用戶的一批軌跡時,攻擊者才能推斷出用戶在訓練集中的存在,”作者說。
該團隊正在探索此類攻擊可能影響RL系統(tǒng)的其他實際應用程序。他們可能還會研究這些攻擊如何應用于其他環(huán)境中的強化學習。
“這一研究領(lǐng)域的一個有趣擴展是在白盒環(huán)境中針對深度強化學習模型研究MIA,其中目標策略的內(nèi)部結(jié)構(gòu)也為對手所知,”作者說。
研究人員希望他們的發(fā)現(xiàn)能夠闡明現(xiàn)實世界中強化學習應用程序的安全和隱私問題,并提高ML社區(qū)的意識,以便在該領(lǐng)域進行更多研究。