十大抱抱臉(Hugging Face)數(shù)據(jù)集
任何機(jī)器學(xué)習(xí)模型中最重要的任務(wù)是找到或構(gòu)建一個(gè)完美適應(yīng)您的算法的數(shù)據(jù)集。如果沒(méi)有正確的基礎(chǔ),您的機(jī)器學(xué)習(xí)模型可能無(wú)法按預(yù)期方式執(zhí)行。
雖然Kaggle等知名網(wǎng)站允許您下載和使用數(shù)以千計(jì)的數(shù)據(jù)集,但其他一些數(shù)據(jù)集提供商的受歡迎程度正在增加。在本文中,我們將介紹一種稱為抱抱臉的方法。
Hugging Face是一個(gè)開(kāi)源數(shù)據(jù)集提供商,主要用于其自然語(yǔ)言處理(NLP)數(shù)據(jù)集。什么是NLP數(shù)據(jù)集?它有哪些用途?
NLP是人工智能的一個(gè)分支,負(fù)責(zé)使用自然語(yǔ)言進(jìn)行計(jì)算機(jī)和人類交互。它專注于處理大量人類可以理解的語(yǔ)言(通常是文本格式)以提取隱藏的模式和見(jiàn)解。
NLP有許多好處和現(xiàn)實(shí)生活中的應(yīng)用,例如:對(duì)項(xiàng)目(文本)進(jìn)行分類、檢測(cè)仇恨言論以及過(guò)濾掉垃圾郵件和消息。
下面我們將深入探討Hugging Face提供的NLP數(shù)據(jù)集,它們包含哪些數(shù)據(jù),如何組織,以及它們可以用于什么。
十大擁抱人臉數(shù)據(jù)集列表
1.IMDB數(shù)據(jù)集
IMDB數(shù)據(jù)集為用戶提供了超過(guò)50,000條高度極性的電影評(píng)論,這些評(píng)論根據(jù)書(shū)面評(píng)論被標(biāo)記為“正面”或“負(fù)面”。
數(shù)據(jù)被分成兩等份,一份用于訓(xùn)練數(shù)據(jù)集,另一份用于測(cè)試數(shù)據(jù)集,如果用戶需要,則帶有額外的未標(biāo)記數(shù)據(jù)。該數(shù)據(jù)集可以檢測(cè)不同短信中的正面和負(fù)面電影反饋。此外,它可以幫助識(shí)別電影特別喜歡或不喜歡的特征。
2.亞馬遜極性數(shù)據(jù)集
該數(shù)據(jù)集包含來(lái)自亞馬遜的超過(guò)3500萬(wàn)條產(chǎn)品評(píng)論。每個(gè)數(shù)據(jù)點(diǎn)都包括客戶的評(píng)論和給定產(chǎn)品的評(píng)級(jí)。每個(gè)數(shù)據(jù)點(diǎn)都被分類為正面評(píng)論或負(fù)面評(píng)論,具體取決于客戶是喜歡還是不喜歡該產(chǎn)品。
這種類型的標(biāo)記數(shù)據(jù)集在NLP和機(jī)器學(xué)習(xí)中很有用。通過(guò)使用亞馬遜極性數(shù)據(jù)集,公司可以提高他們的廣告和營(yíng)銷能力。與營(yíng)銷的情況一樣,使用NLP技術(shù)可以讓營(yíng)銷人員看到客戶喜歡哪些產(chǎn)品,并知道哪些功能使客戶決定購(gòu)買(mǎi)產(chǎn)品。
類似的數(shù)據(jù)集包括Yelp評(píng)論完整數(shù)據(jù)集,其中包含大量按給定評(píng)分(從1到5)標(biāo)記的評(píng)論。與前面提到的亞馬遜數(shù)據(jù)集類似,在NLP中使用這樣的數(shù)據(jù)集可以使餐廳或服務(wù)公司的營(yíng)銷工作受益。
此外,Amazon Polarity Datasets或Yelp評(píng)論數(shù)據(jù)集可用于推薦系統(tǒng),以將產(chǎn)品或企業(yè)分類為不同的類別。分類有助于應(yīng)用程序或網(wǎng)站過(guò)濾客戶偏好并增加組織。
3.情緒數(shù)據(jù)集
情緒數(shù)據(jù)集將英文Twitter消息分為六類:
悲傷
喜悅
愛(ài)
憤怒
恐懼
驚喜
這種類型的數(shù)據(jù)集可用于訓(xùn)練和測(cè)試NLP模型,該模型專注于通過(guò)讀取用戶的文本段落來(lái)捕捉用戶的情緒。其他用途包括通過(guò)利用憤怒和悲傷數(shù)據(jù)點(diǎn)類別來(lái)檢測(cè)和消除令人沮喪的消息(仇恨言論)。
類似的數(shù)據(jù)集是基于Twitter的數(shù)據(jù)集。該數(shù)據(jù)集將用戶的推文分類為不同的表情符號(hào),包括笑聲、愛(ài)情、幸福等等。與之前的數(shù)據(jù)集一樣,推文評(píng)估數(shù)據(jù)集也可用于NLP,它專注于以表情符號(hào)表示的不同情緒。
4.通用語(yǔ)音數(shù)據(jù)集
該數(shù)據(jù)集包含記錄和文本數(shù)據(jù)點(diǎn)的混合。Common Voice數(shù)據(jù)集包含超過(guò)9000小時(shí)的記錄消息及其書(shū)面記錄副本。還可以使用其他數(shù)據(jù)點(diǎn),例如說(shuō)話者的年齡、性別和口音,以幫助提高模型的語(yǔ)音檢測(cè)性能。
該數(shù)據(jù)集可用于創(chuàng)建語(yǔ)音檢測(cè)模型并提高其準(zhǔn)確性,該模型能夠理解來(lái)自世界各地的60多種語(yǔ)言。利用語(yǔ)音檢測(cè)模型的程序在Google Home、Alexa和Siri等主流技術(shù)中變得越來(lái)越根深蒂固,所有這些都需要了解多個(gè)用戶的語(yǔ)音輸入。
5.硅膠數(shù)據(jù)集
該數(shù)據(jù)集將句子分類為承諾性、指示性、信息性或只是一個(gè)普通問(wèn)題。Silicone數(shù)據(jù)集涵蓋各種不同的領(lǐng)域,包括電話對(duì)話、電視對(duì)話等。所有給定的日期點(diǎn)都是用英文寫(xiě)的。
該數(shù)據(jù)集可用于訓(xùn)練和評(píng)估自然語(yǔ)言模型以及理解專為口語(yǔ)設(shè)計(jì)的系統(tǒng)。
6.雅虎問(wèn)答主題數(shù)據(jù)集
雅虎答案數(shù)據(jù)集包含大量問(wèn)題及其各自的答案,將每個(gè)數(shù)據(jù)點(diǎn)(問(wèn)題和答案)分類為給定類別。此類類型包括體育、商業(yè)與金融、社會(huì)與文化、科學(xué)與數(shù)學(xué)、家庭與人際關(guān)系、計(jì)算機(jī)與互聯(lián)網(wǎng)等。
該數(shù)據(jù)集可用于訓(xùn)練模型以將某些問(wèn)題和答案分類為這些類別之一。
7.仇恨言論數(shù)據(jù)集
內(nèi)容警告:請(qǐng)注意,此數(shù)據(jù)集包含攻擊性文本。仇恨言論數(shù)據(jù)集包含從Stormfront論壇獲得的文本消息樣本。每個(gè)數(shù)據(jù)點(diǎn)根據(jù)其內(nèi)容被標(biāo)記為仇恨或非仇恨消息。顧名思義,這種類型的數(shù)據(jù)集可用于訓(xùn)練模型以通過(guò)不同的在線論壇檢測(cè)仇恨言論。
類似的數(shù)據(jù)集是包含此類內(nèi)容的仇恨言論攻擊性數(shù)據(jù)集。該數(shù)據(jù)集可用于訓(xùn)練模型以過(guò)濾和禁止某些詞在論壇、視頻游戲(有兒童人口統(tǒng)計(jì))和搜索欄查詢中出現(xiàn)。
8.掃描數(shù)據(jù)集
掃描數(shù)據(jù)集是一個(gè)簡(jiǎn)單的語(yǔ)言驅(qū)動(dòng)任務(wù),用于研究組合學(xué)習(xí)和零樣本泛化。
您可能在掃描的數(shù)據(jù)集中找到的數(shù)據(jù)點(diǎn)示例將被拆分為命令,例如向左走兩次,因此預(yù)期的實(shí)際動(dòng)作應(yīng)該是向右走兩次。
9.SMS垃圾郵件數(shù)據(jù)集
SMS垃圾郵件數(shù)據(jù)集包含超過(guò)5,000條英文SMS消息,它們被歸類為垃圾郵件或非垃圾郵件(非垃圾郵件)。
過(guò)濾掉垃圾郵件是使用NLP的主要用途之一。您還可以使用標(biāo)記的垃圾郵件數(shù)據(jù)集或任何需要垃圾郵件過(guò)濾的系統(tǒng)來(lái)訓(xùn)練電子郵件過(guò)濾系統(tǒng)。
10.銀行77數(shù)據(jù)集
Banking77數(shù)據(jù)集更為復(fù)雜,包含發(fā)送給銀行的超過(guò)13,000條客戶信息(投訴和問(wèn)題)。
每個(gè)數(shù)據(jù)點(diǎn)都被歸類為七十七種不同的意圖之一。意圖包括客戶詢問(wèn)卡到達(dá)、卡不工作問(wèn)題、卡上的額外費(fèi)用以及被拒絕的轉(zhuǎn)賬問(wèn)題。
使用這種類型的數(shù)據(jù)集將使銀行能夠快速響應(yīng)并將不同的客戶問(wèn)題分類為更有條理的結(jié)構(gòu)以供以后使用??梢詾槊刻旖邮沾罅靠蛻粽?qǐng)求的任何企業(yè)構(gòu)建類似的模型。但首先需要提供一個(gè)良好的過(guò)濾和處理數(shù)據(jù)集來(lái)運(yùn)行模型。
其他有趣的抱抱臉數(shù)據(jù)集
以下是Hugging Face的另外三個(gè)有趣的數(shù)據(jù)集可供探索。
1.巢穴數(shù)據(jù)集
Lair數(shù)據(jù)集包含來(lái)自世界各地的政治家的12,000多條帶標(biāo)簽的聲明。
每個(gè)陳述被分類為錯(cuò)誤的、半正確的、大部分正確的和正確的。
使用Lair數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型可能能夠檢測(cè)類似未來(lái)陳述的可信度。
2.谷歌格式良好的查詢數(shù)據(jù)集
這個(gè)Google查詢數(shù)據(jù)集通過(guò)眾包來(lái)自Parallax語(yǔ)料庫(kù)的25,100個(gè)查詢的“格式良好”注釋創(chuàng)建,根據(jù)查詢的信息量來(lái)標(biāo)記每個(gè)數(shù)據(jù)點(diǎn)。
五個(gè)用戶將每個(gè)查詢注釋為消息靈通或不靈通。
通過(guò)使用這個(gè)數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型可以進(jìn)一步預(yù)測(cè)給定查詢的消息靈通程度。
3.Jfleg數(shù)據(jù)集
Jfleg數(shù)據(jù)集被認(rèn)為是黃金標(biāo)準(zhǔn)基準(zhǔn),是一個(gè)英語(yǔ)語(yǔ)法糾錯(cuò)數(shù)據(jù)集。每個(gè)數(shù)據(jù)點(diǎn)都包含一個(gè)書(shū)面句子(有多個(gè)語(yǔ)法和拼寫(xiě)錯(cuò)誤)和另外四個(gè)由四個(gè)不同的人編寫(xiě)的語(yǔ)法和拼寫(xiě)正確的句子。
使用這種類型的數(shù)據(jù)集進(jìn)行訓(xùn)練將使我們的模型能夠檢測(cè)和糾正它發(fā)現(xiàn)的語(yǔ)法錯(cuò)誤。請(qǐng)注意,與大多數(shù)機(jī)器學(xué)習(xí)模型類似,此模型可能無(wú)法保證在所有情況下都能進(jìn)行完美的語(yǔ)法和拼寫(xiě)更正。另一個(gè)注意事項(xiàng):根據(jù)任務(wù)的預(yù)期結(jié)果(垃圾郵件過(guò)濾器、仇恨言論檢測(cè)器、評(píng)論),選擇正確的數(shù)據(jù)集將顯著影響模型性能。
嘗試在上述幾個(gè)數(shù)據(jù)集上運(yùn)行您的模型,然后檢查實(shí)現(xiàn)的性能。您還可以搜索自己的數(shù)據(jù)集并將它們與此處介紹的數(shù)據(jù)集進(jìn)行比較。
使用擁抱人臉數(shù)據(jù)集
有如此多的潛在用途,例如將項(xiàng)目(文本)組織成不同的類別(用于進(jìn)一步的推薦系統(tǒng)處理)、檢測(cè)仇恨言論和過(guò)濾垃圾郵件,使用NLP是一項(xiàng)值得學(xué)習(xí)的技能。
在本文中,我們探索了Hugging Face,這是一個(gè)包含大量NLP數(shù)據(jù)集(主要致力于NLP機(jī)器學(xué)習(xí)模型)的開(kāi)源網(wǎng)站,并涵蓋了10個(gè)數(shù)據(jù)集,以幫助您開(kāi)始改善您的機(jī)器學(xué)習(xí)事業(yè)。
我們建議嘗試上面的一些示例,并學(xué)習(xí)如何將這些數(shù)據(jù)集與您的機(jī)器學(xué)習(xí)模型一起使用。您可以隨時(shí)在Hugging Face或其他網(wǎng)站上查看其他數(shù)據(jù)集,以滿足您模型的要求。
- 上一篇
了解元宇宙的潛在商機(jī)
雖然被統(tǒng)稱為元宇宙的虛擬世界中的機(jī)會(huì)在每個(gè)企業(yè)中看起來(lái)都不同,但組織已經(jīng)開(kāi)始利用的主要價(jià)值是能夠以不同于其他在線渠道的方式與消費(fèi)者互動(dòng)。根據(jù)麥肯錫6月份的一份報(bào)告,
- 下一篇
為什么世界要適應(yīng)區(qū)塊鏈技術(shù)?
區(qū)塊鏈網(wǎng)絡(luò)影響的不僅僅是比特幣。全球無(wú)數(shù)行業(yè)都在投資,因此到 2029年,區(qū)塊鏈的市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到1630億美元。如今,幾乎所有人都可以使用手機(jī)、筆記本電腦和互聯(lián)網(wǎng)。我們的
相關(guān)資訊
- 如何創(chuàng)造獨(dú)特的AI應(yīng)用生態(tài)?
- 市場(chǎng)上飛速發(fā)展的七大物聯(lián)網(wǎng)趨勢(shì)
- 如何預(yù)防人工智能項(xiàng)目中常見(jiàn)的法
- 數(shù)字化轉(zhuǎn)型如何幫助制造商提供更
- 從數(shù)據(jù)池或大數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖
- 關(guān)于數(shù)字化轉(zhuǎn)型的五個(gè)誤解
- 為什么內(nèi)存分配彈性對(duì)物聯(lián)網(wǎng)至關(guān)
- 如何實(shí)時(shí)優(yōu)化物理空間和資產(chǎn)
- 云計(jì)算如何改變醫(yī)療保健行業(yè)
- wifi會(huì)中病毒嗎?