未來已來:數(shù)據(jù)如何驅(qū)動AI大模型的競爭
隨著人工智能的迅猛發(fā)展,高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。以大型語言模型為例,近年來的飛躍式進展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2,GPT-3在模型架構(gòu)上的改變微乎其微,更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進行訓(xùn)練。例如,ChatGPT與GPT-3的模型架構(gòu)類似,但使用了RLHF(來自人工反饋過程的強化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標注數(shù)據(jù)。
認識到這一現(xiàn)象,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運動,這是一種新的理念,它主張在模型架構(gòu)相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護數(shù)據(jù)等。因此,未來在大模型開發(fā)中,數(shù)據(jù)成本(包括數(shù)據(jù)采集、清洗、標注等成本)所占的比例可能會逐步提高。
AI大模型需要的數(shù)據(jù)集應(yīng)具備以下特性:
(1)高質(zhì)量:高質(zhì)量的數(shù)據(jù)集可以提高模型的精度和可解釋性,同時縮短模型收斂到最優(yōu)解的時間,也就是訓(xùn)練時長。
(2)大規(guī)模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸縮法則",即獨立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蜓娱L模型訓(xùn)練時間,預(yù)訓(xùn)練模型的效果會持續(xù)提升。
(3)多樣性:數(shù)據(jù)的多樣性有助于提高模型的泛化能力,過于單一的數(shù)據(jù)可能會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)集的生成與處理
數(shù)據(jù)集的建立流程主要包括以下步驟:
數(shù)據(jù)采集:數(shù)據(jù)采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數(shù)據(jù)采集常用的方式有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及ETL。
數(shù)據(jù)清洗:因為采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,數(shù)據(jù)清洗就顯得尤為重要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后的數(shù)據(jù)質(zhì)量在很大程度上決定了AI算法的有效性。
數(shù)據(jù)標注:這是流程中最重要的一個環(huán)節(jié)。管理員會根據(jù)不同的標注需求,將待標注的數(shù)據(jù)劃分為不同的標注任務(wù)。每一個標注任務(wù)都有不同的規(guī)范和標注點要求,一個標注任務(wù)將會分配給多個標注員完成。
模型訓(xùn)練:模型訓(xùn)練人員會利用標注好的數(shù)據(jù)訓(xùn)練出需要的算法模型。
模型測試:測試人員進行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員,模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型。
產(chǎn)品評估:產(chǎn)品評估人員需要反復(fù)驗證模型的標注效果,并對模型是否滿足上線目標進行評估。只有經(jīng)過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。
然而,盡管中國的數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,數(shù)據(jù)無法在市場上自由流通等因素,導(dǎo)致優(yōu)質(zhì)的中文數(shù)據(jù)集仍然稀缺。據(jù)統(tǒng)計,ChatGPT的訓(xùn)練數(shù)據(jù)中,中文資料的比重不足千分之一,而英文資料占比超過92.6%。此外,加利福尼亞大學(xué)和Google研究機構(gòu)的研究發(fā)現(xiàn),目前機器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集有50%是由12家頂級機構(gòu)提供,其中10家為美國機構(gòu),1家為德國機構(gòu),只有1家機構(gòu)來自中國,即香港中文大學(xué)。
我們認為,國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因主要有以下幾點:
高質(zhì)量數(shù)據(jù)集需要巨大的資金投入,但目前國內(nèi)對數(shù)據(jù)挖掘和數(shù)據(jù)治理的投入不足。
國內(nèi)相關(guān)公司往往缺乏開源意識,導(dǎo)致數(shù)據(jù)無法在市場上自由流通。
國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對于國外公司要少。
在學(xué)術(shù)領(lǐng)域,中文數(shù)據(jù)集的重視程度低。
國產(chǎn)數(shù)據(jù)集的市場影響力和普及度相對較低。
目前,國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要通過公開數(shù)據(jù)和自身特有數(shù)據(jù)來訓(xùn)練大模型。例如,百度的“文心”大模型使用的特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里的“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達摩院。騰訊的“混元”大模型的特有訓(xùn)練數(shù)據(jù)主要來自微信公眾號、微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為的“盤古”大模型的訓(xùn)練數(shù)據(jù),除了公開數(shù)據(jù),還有B端行業(yè)數(shù)據(jù)加持,包括氣象、礦山、鐵路等行業(yè)數(shù)據(jù)。商湯的“日日新”模型的訓(xùn)練數(shù)據(jù)中,包括了自行生成的Omni Objects 3D多模態(tài)數(shù)據(jù)集。
中國的數(shù)據(jù)環(huán)境和未來
盡管現(xiàn)狀尚有不足,但中國的數(shù)據(jù)環(huán)境仍有巨大的潛力。首先,中國是全球最大的互聯(lián)網(wǎng)用戶群體,日產(chǎn)數(shù)據(jù)量巨大,為構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集提供了基礎(chǔ)。其次,中國政府對于AI和數(shù)據(jù)治理的重視,無論是政策支持還是資金投入,都為數(shù)據(jù)環(huán)境的改善和發(fā)展提供了有利條件。
未來,中國需要在以下幾個方面進行努力:
建立數(shù)據(jù)采集和清洗系統(tǒng):建立一套完整的數(shù)據(jù)采集和清洗系統(tǒng),確保數(shù)據(jù)的質(zhì)量和有效性,為后續(xù)的模型訓(xùn)練提供可靠的數(shù)據(jù)基礎(chǔ)。
提高公開數(shù)據(jù)的可獲取性和使用性:鼓勵公司、研究機構(gòu)等公開數(shù)據(jù),讓數(shù)據(jù)在市場中自由流通,從而提高數(shù)據(jù)的可獲取性和使用性。
加大數(shù)據(jù)標注投入:通過提高標注效率和質(zhì)量,降低標注成本,從而獲取更多、更高質(zhì)量的標注數(shù)據(jù)。
培養(yǎng)更多的數(shù)據(jù)科學(xué)家和AI工程師:通過教育和培訓(xùn),增加數(shù)據(jù)科學(xué)家和AI工程師的數(shù)量和素質(zhì),以推動中國的AI研究和應(yīng)用。
加強國內(nèi)外的數(shù)據(jù)合作:通過數(shù)據(jù)合作,借鑒國外的成功經(jīng)驗,改進數(shù)據(jù)的采集、處理、使用等方面的技術(shù)和方法,以提升中國數(shù)據(jù)的質(zhì)量和價值。
數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。