核心機器學(xué)習(xí)指標(biāo)
在使用機器學(xué)習(xí)時,正確評估模型性能是一項至關(guān)重要的任務(wù)。我們可以使用很多指標(biāo)來做到這一點。對于剛開始涉足這一領(lǐng)域的人來說,這可能是個問題——至少對我來說是這樣。
我將從描述真/假陰性/陽性等概念開始,因為它們是更復(fù)雜指標(biāo)的基礎(chǔ)。然后我會提到并解釋準(zhǔn)確度、精確度、召回率或校準(zhǔn)誤差等指標(biāo)。我還將解釋混淆矩陣背后的基礎(chǔ)知識以及有關(guān)如何構(gòu)建混淆矩陣的簡短代碼片段。
為什么?
在線查找資源并閱讀它們很簡單。每個人都可以做到,我也做到了,但我錯過了所有內(nèi)容的綜合詞匯表。這是我寫這篇文章的主要動機。首先,我將描述我在之前的項目中接觸到的所有指標(biāo)。
我認(rèn)為這樣的指標(biāo)詞匯表對所有剛接觸機器學(xué)習(xí)模型的人都有用。
指標(biāo)
讓我們從真陽性和其他陽性/陰性組合開始。為了便于閱讀,我將其制成表格形式。
真/假陽性/陰性
混淆矩陣
不太常見的是誤差矩陣,它是我們模型性能的基本視覺表示。這個概念之所以得名,是因為它可以很容易地看出系統(tǒng)是否混淆了兩個或多個類。此外,在多類的情況下,我們可以很容易地確定一對類是模型最難區(qū)分的。
在大多數(shù)情況下,它在行中表示實際類的實例,而在列中表示預(yù)測類的實例。然而,當(dāng)列是標(biāo)簽而行是預(yù)測時,也可以有反向表示,但這種情況不太常見。
準(zhǔn)確性
它是模型性能的基本指標(biāo)。它描述了我們的模型做出正確預(yù)測的頻率——通常,測量值以百分比表示。
準(zhǔn)確性的問題在于它是一個非常差的指標(biāo)并且很容易玩弄。最值得注意的是,我們可以相當(dāng)輕松地在相當(dāng)復(fù)雜的任務(wù)中實現(xiàn)高精度。
例如在反洗錢的情況下,你總是可以只返回零——這意味著這個人沒有洗錢——你肯定會達(dá)到95%以上的準(zhǔn)確率。因為大多數(shù)人實際上并沒有試圖做任何洗錢的事情。問題是:如此高的準(zhǔn)確性是否意味著您的模型很好,或者您將需要一些其他指標(biāo)來驗證您的模型性能?我留給你的答案。
此外,當(dāng)僅基于準(zhǔn)確性時,很容易過度擬合模型。我們可能會在我們的代碼中做出太多僅適用于我們的測試集并且可能根本無法概括的假設(shè)。
另一個問題是當(dāng)我們錯誤地準(zhǔn)備測試集時。會和train set過于相似,或者train set中會包含部分test set。我們可以再次以相當(dāng)高的準(zhǔn)確性結(jié)束,但泛化模型很差。
至于準(zhǔn)確性的方程式——我們可以用真陽性和真陰性來表達(dá)它們。因此,它可以被視為與整個人口相比正確預(yù)測的比率。
TP + TN - 正確的預(yù)測
P + N - 總?cè)丝?/strong>
精確
檢查實際上正確識別了多少陽性。表示正確預(yù)測的正類與所有預(yù)測為正的項目的比率。
這可以看作是TP與TP和FP之和的比率。高精度意味著我們可以輕松識別陽性。此外,精度有助于我們形象化機器學(xué)習(xí)模型在分類正類時的可靠性。
TP+FP-分類陽性總數(shù)
記起
不太常見的是敏感性。它試圖回答正確識別了多少實際陽性的問題。表示正確預(yù)測的正類與所有實際為正的項目的比率。
因此,它可以表示為TP與TP和FN之和的比值。高召回率意味著我們能夠正確識別大部分陽性。而低召回率意味著該模型錯誤地識別了正值。
TP+FN-所有正樣本
準(zhǔn)確率和召回率問題
為了全面評估模型性能,我們需要知道這兩個指標(biāo)。然而,它們之間的關(guān)系卻相當(dāng)復(fù)雜。通常,提高準(zhǔn)確率的行為會降低召回率,反之亦然;增加召回率的行動會導(dǎo)致精確率下降。因此,您必須仔細(xì)權(quán)衡并選擇哪個指標(biāo)對您的模型用例最重要。
信心分?jǐn)?shù)
一個從0到1的數(shù)字(如果使用百分比表示法,則為0到100)用于表示我們的模型對其預(yù)測的確定程度。一般來說,置信度得分越高越好。低于0.5(50)的置信度分?jǐn)?shù)可能表示隨機或半隨機預(yù)測。
在評估模型的準(zhǔn)確性結(jié)果時,您還應(yīng)該考慮置信度得分。您沒有理由需要一個精度高但置信度低的模型。實際上是一個完全不確定其預(yù)測的模型。我們的目標(biāo)應(yīng)該是在一定的置信度分?jǐn)?shù)內(nèi)表達(dá)我們模型的準(zhǔn)確性。
ROC和AUC分?jǐn)?shù)
ROC是Receiver Operating Characteristic Curve的縮寫。它是二進制分類預(yù)測能力的圖形表示。描述在各種閾值設(shè)置下召回率(或真陽性率)和假陽性率(FPR)之間的關(guān)系。
AUC是曲線下面積的縮寫。而AUROC是Area Under Receiver Operating Characteristic Curve的縮寫。它是一個從零到一的數(shù)字,描述了位于ROC曲線下方的繪圖部分。它可以用來描述我們的模型能多好地區(qū)分正樣本和負(fù)樣本。根據(jù)AUC的值,您的模型會有不同的行為。
對于AUC值等于:
- 1—模型將正確預(yù)測所有標(biāo)簽。
- 從0.5到1,AUC越高,我們的模型正確預(yù)測結(jié)果的機會就越大。
- 0.5—模型無法區(qū)分陽性和陰性。
- 0—模型將錯誤地預(yù)測所有標(biāo)簽(它將所有正類分類為負(fù)類,反之亦然)。
IUO
較長形式的并集或Jaccard指數(shù)的交集。它是描述兩個數(shù)據(jù)集之間相似性的度量,范圍從0到1(或0到100或用百分比表示)。值越高,兩個群體越相似。
對于IOU等于:
- 1—共享所有成員的集。
- 0.5—集合共享一半的成員。
- 0—集不共享任何成員。
該指標(biāo)大量用于對象檢測和分割,以計算段之間的重疊程度。
雖然它很容易解釋,但它對小樣本非常敏感,可能會給出錯誤的結(jié)果,尤其是對于非常小的樣本或缺少觀察值的數(shù)據(jù)集。
它可以通過以下等式表示:
杰卡德指數(shù)=(兩組中的數(shù)字)/(任一組中的數(shù)字)*100
在更多的數(shù)學(xué)符號中:
在這里您還可以看到為什么將其稱為并集的交集,因為第一個操作稱為交集,而第二個操作稱為并集。
校準(zhǔn)錯誤
它描述了模型的預(yù)測輸出概率與地面實況分布的實際概率的匹配程度。校準(zhǔn)誤差可用于可視化給定模型結(jié)果與實際結(jié)果的差距。
F1分?jǐn)?shù)
以調(diào)和平均值的形式將精度和召回率混合到一個指標(biāo)中,它旨在更好地處理不平衡的數(shù)據(jù)集。當(dāng)只需要一個指標(biāo)來顯示某些結(jié)果時,它也是默認(rèn)使用的指標(biāo)。準(zhǔn)確率和召回率都被賦予同等的權(quán)重,因此沒有一個比另一個具有更大的影響。
我們可以預(yù)期,如果兩者都很高,那么F1也會很高,類似于精度和召回率的低值。然而,重要的是,如果一個高而另一個低,F(xiàn)1值將介于兩者之間。和往常一樣,度量值越高,我們的模型性能越好。
選擇哪個指標(biāo)?
遲早會出現(xiàn)一個問題,即向利益相關(guān)者展示哪個指標(biāo),或者我們應(yīng)該關(guān)注哪個指標(biāo)以使我們的模型更好。這里的答案很簡單——視情況而定。
可以肯定的是,您不應(yīng)該僅根據(jù)準(zhǔn)確性來評估模型性能,而應(yīng)考慮更多指標(biāo)。但是,另一方面,如果您必須僅使用一個指標(biāo)來呈現(xiàn)某些結(jié)果,則F1分?jǐn)?shù)或AUC是非常好的選擇。
至于其他指標(biāo),它們的重要性在很大程度上取決于模型的目的和缺點:
- 如果您評估由FN引起的錯誤更不可取,那么您應(yīng)該關(guān)注Recall。
- 如果您評估這兩種類型的錯誤都是不可取的,那么請關(guān)注F1。
- 如果你想讓你的模型更確定它的預(yù)測,那么你應(yīng)該專注于增加置信度分?jǐn)?shù)和減少校準(zhǔn)誤差。
此外,如果您想顯示或查看模型的缺點,則可以使用混淆矩陣輕松可視化哪些類可能有問題。
結(jié)論
有許多指標(biāo)可用于驗證機器學(xué)習(xí)模型的性能,它們的使用在很大程度上取決于您的模型用例。
但是,請記住,您永遠(yuǎn)不應(yīng)僅基于準(zhǔn)確性,而應(yīng)使用其他指標(biāo)來驗證模型是否按預(yù)期執(zhí)行。如果您需要向利益相關(guān)者展示單一指標(biāo),F1分?jǐn)?shù)可能是一個不錯的選擇。感謝您的時間。