主動學(xué)習(xí)以及樣本不均衡在圖數(shù)據(jù)場景的探索
一、問題背景
首先和大家簡單介紹一下圖問題的背景。
圖這種數(shù)據(jù)形式在我們的生活中無處不在。從宇宙的角度來看,太陽、地球和月亮之間的關(guān)系可以被建模成一個圖;從生物的角度來看,微觀級別的分子之間的相互關(guān)系也可以被視作一種微觀的圖關(guān)系;在日常生活場景中,已經(jīng)有許多探索分析是基于社交網(wǎng)絡(luò)的圖數(shù)據(jù)進行的;而在風(fēng)控場景中,用戶交易網(wǎng)絡(luò)實際上也可以被建模成一個圖結(jié)構(gòu)的數(shù)據(jù),從而進行相關(guān)的分析。
接下來將對風(fēng)控場景下的圖問題進行介紹。近年來,關(guān)于如何利用圖數(shù)據(jù)進行分析和建模以控制風(fēng)險的問題引起了廣泛關(guān)注,其中一個重要的應(yīng)用領(lǐng)域是欺詐檢測。許多情況下,我們可以將欺詐檢測建模成一個圖的問題。在這個圖中,涵蓋了各種各樣的節(jié)點和相互之間的關(guān)系。舉例而言,我們可以探究黑產(chǎn)是否會通過某些鏈路向其他用戶發(fā)送欺詐信息,這就涉及到鏈路預(yù)測的問題。此外,正如之前提到的,黑產(chǎn)往往是一個群體的行為。因此,我們的分析也需要考慮群體異常檢測,以便識別出這些異常行為,這可以被視為一種社區(qū)檢測,即識別出在整個網(wǎng)絡(luò)中相互關(guān)聯(lián)的群體。另一個關(guān)鍵領(lǐng)域是用戶風(fēng)險分析。在這方面,我們關(guān)心的問題是如何確定某個特定用戶是否存在風(fēng)險。這可以被視為對圖中節(jié)點進行分類的任務(wù),我們需要判斷每個節(jié)點是否屬于“風(fēng)險用戶”的類別。
現(xiàn)在我們進一步審視一下。在近幾年里,圖神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于風(fēng)險控制領(lǐng)域的多個問題中,并且取得了顯著的成效。然而,我們也必須認識到,這個方法仍然存在兩個極其重要的問題:
樣本標簽的獲取相當(dāng)具有挑戰(zhàn)性。這一點可以理解,因為我們大多數(shù)時候只能觀察到普通正常用戶的行為,他們出于合法需求注冊并使用平臺。然而,那些從事不正當(dāng)行為的用戶,比如那些試圖濫用系統(tǒng)的薅羊毛用戶,在總體用戶中所占比例較小。因此,我們能夠獲得的有關(guān)這些少數(shù)不良用戶的標簽相對較少。這種標簽的稀缺性也導(dǎo)致了另一個問題。
樣本不均衡。由于不良用戶的數(shù)量較少,這就造成了不同類別之間樣本數(shù)量的不平衡。這種情況會進一步影響模型的訓(xùn)練和性能。標簽獲取困難以及樣本不均衡問題都會影響模型的效果和穩(wěn)健性。
接下來,將專注于這兩個問題展開分享和探討。
二、圖數(shù)據(jù)上的語義感知的主動學(xué)習(xí)
在數(shù)據(jù)樣本稀缺的情況下,我們應(yīng)該如何應(yīng)對呢?在深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域,我們都了解樣本的重要性。如果我們能夠為大多數(shù)樣本提供準確的標簽信息,就能夠更好地學(xué)習(xí)到分類的決策邊界。這將使得對新用戶進行分類變得更加容易,我們可以輕松地確定他們應(yīng)該歸入紅色類別還是紫色類別。然而,當(dāng)數(shù)據(jù)樣本本身的標簽非常有限時,情況就會變得復(fù)雜。在這種情況下,我們可能會陷入困境。因此,標簽信息的可用性至關(guān)重要。但是,標簽的獲取卻面臨兩個主要問題:
標簽獲取通常具有挑戰(zhàn)性,這是由于其難以獲取。
標簽獲取也可能非常昂貴。在風(fēng)控數(shù)據(jù)等領(lǐng)域,情況并不像在計算機視覺領(lǐng)域那樣普遍。雖然大多數(shù)人都可以成為計算機視覺數(shù)據(jù)的標注員,但是在我們的問題中,數(shù)據(jù)的標注與業(yè)務(wù)場景緊密相關(guān)。這就導(dǎo)致了數(shù)據(jù)反饋和收集的周期較長,以及成本較高的問題。
因此,如何利用策略來更快、更好地縮短數(shù)據(jù)標注的流程,無論是時間還是數(shù)量,成為了一個備受關(guān)注的焦點。正是在這種背景下,主動學(xué)習(xí)的概念應(yīng)運而生。主動學(xué)習(xí)旨在通過一些策略來更有效地選擇需要標注的樣本,從而加速學(xué)習(xí)過程,降低標注成本,這是我們接下來將深入探討的內(nèi)容。
現(xiàn)在我們來探討一下主動學(xué)習(xí)的思路。既然我們需要進行一部分數(shù)據(jù)標注,那么我們肯定希望這些標注能夠提供更多有價值的信息。因此,主動學(xué)習(xí)著眼于如何對未標注的數(shù)據(jù)進行巧妙的區(qū)分和排序,精選出對模型訓(xùn)練最有價值的未標注數(shù)據(jù),從而訓(xùn)練出高效準確的模型。這樣的策略可以讓我們在有限的標注資源下,充分發(fā)揮數(shù)據(jù)的信息價值。一種常見的做法是將這些選取出的重要的樣本推薦給專家進行標注。
在圖像領(lǐng)域中,我們經(jīng)常會遇到所謂的 valuable samples。通常情況下,我們會使用 uncertainty 這個概念來衡量這些有價值樣本。換句話說:“我是否需要更多的信息來更好地判斷這個樣本是處于邊界附近,還是距離邊界較遠?” 這就引出了我們所稱的 the hardest samples 或者 informative examples 的概念。在圖像領(lǐng)域這種數(shù)據(jù)獨立同分布的情況下,每張圖片之間都被認為是相互獨立的。因此,我們通常會選擇那些難度較大、不確定性最高的樣本作為有價值樣本。這樣做的目的是為了更好地捕捉樣本的邊界情況,從而更有效地訓(xùn)練我們的模型。
然而,圖數(shù)據(jù)的情況比較特殊。因為圖中的每個節(jié)點并不是孤立的,它們之間通過邊相互連接以傳遞信息。不同類別之間也會存在邊緣的連接信息。因此,在這個背景下,業(yè)界的研究員和工程師們開始思考,如何在圖數(shù)據(jù)上應(yīng)用主動學(xué)習(xí)。這個問題可以分成兩種方法:
我們在選擇樣本時,不僅會利用模型對樣本進行分類并選擇不確定性最高的樣本,還會考慮圖結(jié)構(gòu)本身的特性。例如,我們會關(guān)注節(jié)點的度以及中心性等。這些信息與圖的結(jié)構(gòu)緊密相關(guān),會指導(dǎo)我們制定具體的算法。這種方法的一個重點在于,在提高不確定性的同時,也要考慮選取代表性樣本,以增強主動學(xué)習(xí)在圖數(shù)據(jù)上的效果。
借鑒社交網(wǎng)絡(luò)或圖分析中的關(guān)鍵節(jié)點發(fā)現(xiàn)的思想。舉個例子,我們要思考哪些節(jié)點的信息傳播對整個圖的影響最大,還要考慮信息的多樣性,通過引入多樣性來增強模型的穩(wěn)健性。
然而,我們也注意到了一個問題,即使一個節(jié)點具有較高的信息傳播能力,由于圖神經(jīng)網(wǎng)絡(luò)通常會對信息進行聚合和平滑處理,兩個不同類別的節(jié)點屬性可能存在差異。因此,簡單地根據(jù)信息傳播的影響來選擇樣本可能會導(dǎo)致語義混淆??紤]到這一點,我們提出了一個名為“語義感知的圖主動學(xué)習(xí)”的解決方案,以應(yīng)對這種挑戰(zhàn)。
https://arxiv.org/abs/2308.08823。
我們采用了一種通用的主動學(xué)習(xí)方法,在這個過程中,涵蓋了幾個關(guān)鍵步驟:
我們首先需要獲得一些用戶以及他們之間的關(guān)聯(lián)關(guān)系。利用圖神經(jīng)網(wǎng)絡(luò)(例如GNN、GCN)來學(xué)習(xí)他們的一些基本嵌入信息。基于這些嵌入信息,我們能夠計算節(jié)點的影響力。節(jié)點的影響力表示的是在整個圖中節(jié)點自身的信息變化如何影響到其他節(jié)點信息的一種衡量。
此外,我們還希望結(jié)合節(jié)點的語義信息對其進行修正。我們的目標是,盡管節(jié)點可能在結(jié)構(gòu)上具有較大的影響力,但這種影響力應(yīng)僅體現(xiàn)在與其同類的節(jié)點上。通過這些步驟,我們得到了一種正向的影響力衡量方式。利用這個衡量方法,我們可以選擇那些對相同類型的節(jié)點產(chǎn)生更大影響的一組數(shù)據(jù)樣本。隨后,在對這些數(shù)據(jù)樣本進行標注時,我們可以基于其影響力進行有針對性的標注工作。
在上述基礎(chǔ)之上,還有一點需要考慮,就是在機器學(xué)習(xí)中樣本的選擇。我們希望選取的樣本在整個數(shù)據(jù)中分布在不同的中心位置,以增加更多的不確定性,從而提升模型的穩(wěn)健性。通常情況下,人們會嘗試通過聚類或計算樣本間的相似性來實現(xiàn)這一點。然而,這些方法的效率可能較低。在此背景下,我們借鑒了“prototype”這一概念。對于選取出的節(jié)點樣本,我們計算它們的中心,即計算可直接獲得的中心點。然后,我們對每個樣本計算其與這些中心點之間的距離,通過這種方式,我們能夠快速計算樣本與中心的相似性。我們希望選擇那些距離特定類型中心更遠的樣本,因為這意味著這些樣本可能具有更多的信息量。這樣的選擇方式不僅增加了樣本的不確定性,還提升了模型的穩(wěn)健性。綜合起來,我們將影響力和不確定性作為評價的指標,計算出分數(shù),從而得到最終的樣本集合。這些樣本集合會被推薦給標注專家進行進一步標注。標注專家將針對這些樣本進行不斷的標注工作,并將反饋信息回饋到模型中。通過幾輪的迭代,我們可以逐步達到預(yù)期的效果。以上就是在圖數(shù)據(jù)上應(yīng)用主動學(xué)習(xí)的整體流程。
我們也在多個不同類型的公開數(shù)據(jù)集以及我們?nèi)A為自身金融場景中的交易數(shù)據(jù)上進行了一些研究探索。從實驗結(jié)果來看,我們發(fā)現(xiàn)整體效果相較于現(xiàn)有的 SOTA 方法(如基于隨機選擇或節(jié)點度量,以及基于不確定性熵的方法等)要更為顯著。在這些實驗中,我們的方法在效果提升方面表現(xiàn)出明顯的優(yōu)勢。
通過融合語義信息并采用基于 prototype 多樣性的方法,我們的效果得到了明顯提升。與其他 baseline 模型相比,我們的方法在效果上表現(xiàn)出相對優(yōu)勢,并且在效率方面也表現(xiàn)出色。僅利用少量的標注樣本,我們就能夠?qū)崿F(xiàn)更高水平的實際效果。以上我們介紹了在圖數(shù)據(jù)中應(yīng)用主動學(xué)習(xí),特別是在樣本不足的情況下,探索了借助如何更有效的選擇樣本并借助專家標注的方式來提升學(xué)習(xí)效果。
三、不均衡圖上的節(jié)點標注問題探索
正如前面所提到的,在風(fēng)險控制領(lǐng)域,數(shù)據(jù)的標注相對不足的情況下,例如針對黑產(chǎn)用戶、薅羊毛用戶等,這些正樣本數(shù)量本身就非常有限。因此,樣本分布呈現(xiàn)出明顯的不均衡。針對這樣的樣本不均衡問題,我們可以探究以下幾個方面。
我們可以考慮采取一些樣本平衡的策略。比如,對于數(shù)量較少的類型樣本進行過采樣,對于數(shù)量較多的樣本進行降采樣,以實現(xiàn)兩類樣本的相對平衡。
我們還可以在損失函數(shù)中進行優(yōu)化,對不同類型的樣本賦予不同的權(quán)重。對于樣本數(shù)量較少的類型,可以賦予較大的權(quán)重,以期在模型學(xué)習(xí)過程中更加關(guān)注這些樣本。
這些方法在處理數(shù)據(jù)不均衡問題時都具有實際效果,但在圖數(shù)據(jù)上的拓展則相對復(fù)雜。如何在圖數(shù)據(jù)上處理樣本不均衡問題并不是一件容易的事情。
從2021年開始,針對樣本不均衡問題,人們開始嘗試各種方法。在采樣方面,有一個經(jīng)典的方法叫做 SMOTE,即通過函數(shù)對少樣本數(shù)據(jù)進行合成。在圖數(shù)據(jù)中,需要考慮節(jié)點屬性信息以及邊的連接方式。節(jié)點屬性信息相對較易合成,但在連接節(jié)點時需要思考哪些節(jié)點應(yīng)該與新合成的節(jié)點相連。這一問題具有重要意義。在這方面,GraphSMOTE 提供了一個有趣的技術(shù)。盡管在實際嘗試時,該方案的計算復(fù)雜度相對較高,但它為解決這一問題提供了有價值的嘗試和思路,值得借鑒。
GraphSMOTE 的方法包括以下幾個關(guān)鍵步驟。首先,我們需要生成節(jié)點屬性。這可以通過獲取原始數(shù)據(jù)并通過一層或兩層的圖模型(如 GNN )得到不同節(jié)點的嵌入來實現(xiàn)。然后,在新的樣本空間中,我們可以進行節(jié)點屬性的合成。在合成屬性后,接下來的問題是如何確定邊的連接方式。前面提到過,節(jié)點的連接關(guān)系可以看作是鏈接預(yù)測的問題。因此,我們可以在模型中將鏈接預(yù)測作為一項額外的任務(wù),將其融合進模型中。具體做法是隨機地選擇一些現(xiàn)有節(jié)點,并判斷新合成的節(jié)點與哪些節(jié)點連接會對整個模型訓(xùn)練更有效。因此,GraphSMOTE 的核心思想是將連接預(yù)測作為一個額外的任務(wù),并將其納入模型中。最終的損失函數(shù)設(shè)計包括兩部分,一部分用于改進節(jié)點分類效果,另一部分用于確保合成節(jié)點的邊連接更加準確。通過這種方式,既能提升節(jié)點分類準確性,又能更準確地表示節(jié)點屬性。
還有一些新的研究工作涉及如何根據(jù)圖的特性來進行采樣,因為在某些情況下,圖的結(jié)構(gòu)并不適合進行降采樣或過采樣。在這方面,例如 Renode 和 TAM 這兩項研究,它們從節(jié)點的結(jié)構(gòu)信息出發(fā),根據(jù)分類邊界上的距離以及節(jié)點的拓撲信息,設(shè)計了如何選擇樣本的方法。然而,需要指出的是,這些工作主要是基于現(xiàn)有的機器學(xué)習(xí)方法,結(jié)合了圖的節(jié)點特性,進而調(diào)整用于處理樣本不均衡問題的策略。
然而,在我們進一步探究樣本分類和節(jié)點分類問題時,除了處理樣本不均衡的問題外,還存在一類情況:其中一部分節(jié)點已經(jīng)被標注,但大多數(shù)節(jié)點仍然未標注。這并非典型的樣本不均衡問題,而是純粹的信息不完整問題。因此,我們的出發(fā)點非常簡單,我們是否可以采用某種方式為它們打上標簽?zāi)??例如:把那些可能性很大是正樣本(少?shù)類樣本)的節(jié)點,我們直接將它們添加到模型中進行訓(xùn)練。這種思路與自監(jiān)督學(xué)習(xí)非常相似。然而,如果直接將現(xiàn)有的自監(jiān)督學(xué)習(xí)方法應(yīng)用于圖問題,實際上會遇到許多問題。特別是在初始階段,標注樣本數(shù)量有限,樣本不均衡問題非常嚴重,因此模型效果可能會嚴重下降?;谶@一觀察和發(fā)現(xiàn),我們開始考慮是否可以通過利用圖數(shù)據(jù)本身的特性來提升相應(yīng)的方法。
因此,我們提出了一個名為“雙通道信息對齊”的機制,以選擇更具信息價值的節(jié)點。在具體實踐中,對于一個新的圖數(shù)據(jù),我們旨在通過一個簡單的 GNN 模型進行預(yù)訓(xùn)練,從而獲得不同節(jié)點的嵌入表示。通過這些嵌入表示,我們可以同時進行兩種任務(wù):
分類任務(wù):預(yù)測節(jié)點所屬的類型;
聚類任務(wù):獲得節(jié)點應(yīng)當(dāng)歸屬于的簇。
我們利用這兩個信息來進行信息的對齊。換句話說,在預(yù)測節(jié)點任務(wù)中,當(dāng)模型對某節(jié)點的類型預(yù)測更加 confident 時,我們認為該節(jié)點的信息更加可靠。同時,在聚類的角度來看,如果節(jié)點距離聚類中心更近,我們也將其視為更加可靠。因此,我們選擇了在幾何和置信度兩方面都較高的節(jié)點作為備選節(jié)點,從而解決了初始信息不足和樣本不均衡問題,提高了樣本選擇的可靠性。
同時,值得注意的是,對于那些存在于兩個不同社區(qū)之間的節(jié)點,其信息的不確定性較大。因此,將這些節(jié)點引入模型可能會對其產(chǎn)生影響。因此,我們還需要考慮節(jié)點的中心性。對于某個節(jié)點,我們不僅要考慮其在當(dāng)前社區(qū)中的距離,還要考慮其與其他潛在社區(qū)的距離。我們希望選擇那些距離自身中心較近,同時與其他中心較遠的節(jié)點。這些節(jié)點被視為更具確定性,從而可以作為可信的標簽用于輔助模型訓(xùn)練。通過這種方式,我們在不改變圖結(jié)構(gòu)的情況下,實現(xiàn)了對少數(shù)樣本的良好擴增,從而有效解決了樣本不均衡問題。
四、結(jié)論
我們對不同場景的數(shù)據(jù)進行了一些實驗和分析。例如,我們運用在諸如 Cora 和 Citeseer 等數(shù)據(jù)集上,通過一些綜合的方法來調(diào)整樣本比例進行了金融分析。在我們的實驗中,我們發(fā)現(xiàn)這種方法在不同的不均衡比例場景下都表現(xiàn)出色。盡管文章中只提及了少數(shù)實驗,但實際上,我們進行了大量的實驗,證明了通過不同的信息對齊策略,能夠有效解決未標注數(shù)據(jù)不均衡的節(jié)點分類問題,并取得了良好的效果。
另外對于樣本不均衡問題,一方面,我們進行了自身的樣本采樣,以調(diào)整不均衡的比例。另一方面,我們也在一些已有的公開數(shù)據(jù)集中處理了類別不均衡的情況,例如,我們在 Computer-Random 數(shù)據(jù)集中遇到了1:25的樣本不均衡比例。我們觀察到,我們的方法在這些情況下同樣也表現(xiàn)出色。同時,類似TAM這樣的方法也是一個可行的選擇,它可以作為一個插件加入到損失函數(shù)中,通過根據(jù)分類邊界的邊緣來調(diào)整樣本權(quán)重。這樣的方法可以與其他策略如Renode和GraphEns相結(jié)合。再有,我們也對比了Re-weight方法,它在計算機視覺領(lǐng)域被廣泛使用,提供了一個簡單但strong的baseline。
以上就是我們在風(fēng)險控制場景中對于樣本不均衡問題所做的一系列探索和調(diào)研的工作。