資訊詳情

大模型研發(fā)核心：數(shù)據(jù)工程、自動(dòng)化評(píng)估及與知識(shí)圖譜的結(jié)合

沃卡惠2023-08-18 09:28:214636

一、大模型研發(fā)中的數(shù)據(jù)工程

1、什么是大模型的數(shù)據(jù)工程-以數(shù)據(jù)為中心的AI

什么是大模型的數(shù)據(jù)工程？現(xiàn)在大家去做GPT模型或者BERT等模型，都會(huì)有兩個(gè)方向。第一個(gè)是以模型為中心，不怎么關(guān)注數(shù)據(jù)，不斷地優(yōu)化模型的結(jié)構(gòu)；第二個(gè)是以數(shù)據(jù)為中心（Data-Driven），也是目前做算法的一個(gè)共識(shí)，算法本質(zhì)上是在做數(shù)據(jù)，核心是說模型不變，通過改進(jìn)數(shù)據(jù)質(zhì)量來提升模型效果，不斷提升訓(xùn)練數(shù)據(jù)的質(zhì)量。

以數(shù)據(jù)為中心的 AI 核心在于訓(xùn)練數(shù)據(jù)開發(fā)，推理數(shù)據(jù)開發(fā)以及數(shù)據(jù)維護(hù)。

訓(xùn)練數(shù)據(jù)開發(fā)包括很多的pipeline，包括如何收集數(shù)據(jù)，如何定數(shù)據(jù)源，如何做高質(zhì)量的數(shù)據(jù)標(biāo)注，如何做數(shù)據(jù)的預(yù)處理或者數(shù)據(jù)的縮減或增強(qiáng)。比如做領(lǐng)域微調(diào)數(shù)據(jù)，如果行業(yè)數(shù)據(jù)只有幾萬條，需要增強(qiáng)到幾十萬條或者幾百萬條，才能真正地把領(lǐng)域或行業(yè)的數(shù)據(jù)加進(jìn)去。

推理數(shù)據(jù)開發(fā)，就是怎么評(píng)估之前的訓(xùn)練樣本，更好的評(píng)估測試集外的數(shù)據(jù)。

數(shù)據(jù)維護(hù)，做數(shù)據(jù)相關(guān)的事情需要實(shí)現(xiàn)成一個(gè)閉環(huán)，包括對(duì)數(shù)據(jù)的理解。使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)如果發(fā)現(xiàn)數(shù)據(jù)有問題，需要可以定位到問題來源于哪個(gè)數(shù)據(jù)集，做定點(diǎn)的追蹤和優(yōu)化。

大模型的數(shù)據(jù)工程主要解決的幾個(gè)關(guān)鍵問題如下：

需要什么數(shù)據(jù)？
數(shù)據(jù)從哪兒來？
數(shù)據(jù)怎么處理？
數(shù)據(jù)怎么評(píng)估？
數(shù)據(jù)怎么管理，版本迭代？

解決上面的問題，就可以比較好的搭一個(gè)相對(duì)完整的pipeline了。

2、回顧：現(xiàn)有大模型基本情況

回顧一下現(xiàn)有大模型的基本情況，這里基于四張圖進(jìn)行闡述。

左上圖反映了到2023年3月為止，語言模型的模型大小，餅越大，其對(duì)應(yīng)的參數(shù)就越大?？梢钥吹?，國外的MT-NLG、PaLM還有OPT的參數(shù)規(guī)模是比較大的；國內(nèi)的GLM-130B的參數(shù)是比較大的，已經(jīng)到了千億級(jí)水平。

右上圖比較形象地揭示了現(xiàn)在不同段位的大模型的玩法：

波音787，大家都可以買票乘坐，包含有 GPT-4、 PaLM 等，提供API調(diào)用。
小型私人飛機(jī)，一些中小公司能夠研發(fā)出來私有部署，包含有Flan-T5、Pythia等。
紙飛機(jī)，平民玩法，可以做一些領(lǐng)域微調(diào)，得到一個(gè)私有部署模型，包含有Alpaka、Koala等。

現(xiàn)在做大模型大家基本是分散在這3個(gè)層級(jí)內(nèi)。

左下圖描述了截止2022年12月DeepMind的模型，DeepMind在不斷地更新一些模型，先后提出了Gopher-280B、Chinchilla-70B、Flamingo-80B 等不同代號(hào)的模型，可以看到，現(xiàn)在做大模型的時(shí)候都喜歡用動(dòng)物來命名，所以現(xiàn)在動(dòng)物園的名稱可能后面也會(huì)卷的不行。

右下圖描述了代碼生成模型的規(guī)模。目前比較大有CodeGen，有16B參數(shù)；然后有清華的CodeGeeX，有13B參數(shù)。現(xiàn)在也有一個(gè)趨勢，就是把文本和代碼就混合去訓(xùn)練，訓(xùn)練后的 COT 能力有一定提升。

3、回顧：現(xiàn)有大模型應(yīng)用場景

上圖列出了大模型的應(yīng)用場景，大家不斷在探索大模型的邊界，分了幾個(gè)層級(jí)：

S，比如GPT-3 13B 做的主要是Debuging或者是閱讀理解。
M，比如GPT-3 175B，隨著參數(shù)量增大，到了175B的時(shí)候，可以完成語言學(xué)的解題或者情感分析、GRE考試。
L，比如PaLM-540B，可以完成一些語音或者推理的任務(wù)。
XL，比如GPT-4，可以完成高考題或者其他一些更先進(jìn)的工作。
Next...，可能就會(huì)更偏向于落地，解決更長文本的處理等問題。

4、起底：GPT背后的預(yù)訓(xùn)練數(shù)據(jù)

這些模型背后都用了什么數(shù)據(jù)呢？

我們先來看ChatGPT的變化，2018 年6月的 GPT-1 只用了 5GB 的預(yù)訓(xùn)練數(shù)據(jù)，有1.17億參數(shù)；半年之后2019年2月的GPT-2，使用了40 GB 的預(yù)訓(xùn)練數(shù)據(jù)，有15億參數(shù)；2020年5月的 GPT-3，有1750億參數(shù)，預(yù)訓(xùn)練數(shù)據(jù)45TB，但是它并不是實(shí)際使用了45TB，而是總量是有45TB，篩選出了750GB數(shù)據(jù)用于預(yù)訓(xùn)練。

右上圖看一下GPT-3具體數(shù)據(jù)上的分布，60%的數(shù)據(jù)是Common Crawl，也就是低質(zhì)量的網(wǎng)頁；占比22%的WebText2是抓取的高質(zhì)量網(wǎng)頁；Books1、Books2是比較高質(zhì)量的書籍，分別占比8%；維基百科Wikipedia占比3%。

可以發(fā)現(xiàn)：

第一、數(shù)據(jù)主要還是靠大規(guī)模的隨機(jī)網(wǎng)頁做支撐的，主打的是多樣性，因?yàn)榫W(wǎng)頁里面什么都有，多樣性是很好的。
第二、高質(zhì)量，書籍的質(zhì)量特別高，然后是Wikipedia，Wikipedia有個(gè)很重要的點(diǎn)，就是它的多語種能力，有100 多個(gè)版本，大家后面會(huì)發(fā)現(xiàn)，即使GPT里邊中文只占比只有 0.1%，但是中文的能力也有的。

5、起底：英文主流大模型預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成-多語種能力

從多語種能力上看一下英文主流大模型。比如說BLOOM，有46種語言，最多的還是English，所以現(xiàn)在大家去做領(lǐng)域微調(diào)進(jìn)行技術(shù)選型的時(shí)候， BLOOM是一個(gè)比較好的底座，和LLaMA相比，BLOOM的多語言能力比較強(qiáng)。GPT-3有90種語言，當(dāng)然絕大部分約92.7%還是English，中文的話大約是0.1%。PaLM有122種語言， 74.1%是English，其中還加了一些code。

6、起底：英文主流大模型預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成

分析一下主流大模型訓(xùn)練數(shù)據(jù)的構(gòu)成。我們先拉出來一個(gè)維度，基本上包括維基百科、書籍、期刊、Reddit鏈接（WebText)、Common Crawl等。

GPT-1 基本上使用書籍訓(xùn)練的。
GPT-2 主要用Reddit鏈接。
GPT-3 使用維基百科、書籍、期刊、Reddit鏈接（WebText)、Common Crawl。
The Pile這個(gè)數(shù)據(jù)解壓之后是1.2T，大家基本上都可以拿到使用。這個(gè)數(shù)據(jù)集的一個(gè)特點(diǎn)就是多樣性特別高，如果沒記錯(cuò)的話有 22 個(gè)不同來源的數(shù)據(jù)，還包括Github，Books等。
LLaMA 主打的一個(gè)點(diǎn)是在參數(shù)量不遜千億的情況下，訓(xùn)練數(shù)據(jù)盡可能豐富，使用了1.4T的Token，數(shù)據(jù)來源也是比較多的，包括維基百科、書籍、期刊、Common Crawl。

可以看到很多大模型Common Crawl都是占了比較大的比重。

除了文本大模型，還有多模態(tài)大模型。

OpenAI有DALL-E會(huì)有Conceptual Captions等數(shù)據(jù)集，谷歌的多模態(tài)模型也是一樣，但是跟文本大模型相比，數(shù)據(jù)集相對(duì)比較少，而且多模態(tài)的參數(shù)量跟純文本相比還是相差一定量級(jí)的。

GPT-3有一個(gè)很重要的數(shù)據(jù)集叫Common Crawl，從Common Crawl中通過清洗的方式可以獲取英語語料比如C4，C4中很多數(shù)據(jù)都是專利數(shù)據(jù)（patents.google.com）。我們?cè)倏匆幌翯PT-3 TOP10 的一些Datasets，包括Wikipedia、Google、Libgen等。

上圖列出了幾個(gè)預(yù)訓(xùn)練數(shù)據(jù)內(nèi)部構(gòu)成：

The Pile v1版本包括PubMed Central，所以在生物醫(yī)藥方面Pile是有一定優(yōu)勢的；包括ArXiv(papers)、法律相關(guān)的FreeLaw、數(shù)學(xué)相關(guān)的DM Mathematics、Ubuntu的用戶日志、多語種的EuroParl數(shù)據(jù)集等。如果需要做多語種翻譯，或者增強(qiáng)多語種能力，Pile數(shù)據(jù)集是可以利用的。
WebText包括Google、Archive、GitHub等等。
C4包括有0.48%專利數(shù)據(jù)（只用了專利的背景），所以 GPT-3進(jìn)行一些專利方向的交互，回答也會(huì)不錯(cuò)，對(duì)專利感興趣的同學(xué)可以關(guān)注C4 數(shù)據(jù)集，做一些比較好的遷移。

7、起底：英文主流大模型常用預(yù)訓(xùn)數(shù)據(jù)

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-維基百科、書籍。

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-論文期刊。ArXiv有2000多萬的文章，都可以下載到。

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-WebText、Conmmon Crawl。也是大家可以下載到的。

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)The Pile及代碼、論壇。左下是Pile數(shù)據(jù)集的內(nèi)部分布。代碼數(shù)據(jù)集公開的比較多，能下載到的有上T級(jí)別的。

8、起底：中文主流大模型預(yù)訓(xùn)數(shù)據(jù)構(gòu)成

下面介紹一下中文主流大模型預(yù)訓(xùn)數(shù)據(jù)構(gòu)成，目前中文的開源數(shù)據(jù)集和英文相比差距還是比較大的。

比如華為盤古大模型，使用中文文本語料共1.1TB。

開源數(shù)據(jù)集只用了27.9GB，數(shù)據(jù)來源基本上是開源的評(píng)測數(shù)據(jù)，如百度QA、DuReader、CAIL2018法律文本（幾百萬的法律文書數(shù)據(jù)）、搜狗 CA（搜狗的一個(gè)文本分類的數(shù)據(jù)集）等。
百科數(shù)據(jù)包括百度百科，搜狗百科等，以及之前大家卷知識(shí)圖譜的時(shí)候開放的百科的三元組以及內(nèi)部信息。
電子書也有應(yīng)用，但是國外有zlibary這樣比較大型的書籍集合。
Common Crawl，使用了Common Crawl的2018年1月到2020年12月的網(wǎng)絡(luò)數(shù)據(jù)

阿里的M6大模型用到百科全書、社區(qū)QA、論壇討論、Common Crawl等，還有一些和業(yè)務(wù)結(jié)合的電商數(shù)據(jù)。

WeLM的數(shù)據(jù)構(gòu)成更像GPT，包括Common Crawl、書籍、新聞、論壇、學(xué)術(shù)著作等。

InternVideo是多模態(tài)模型，會(huì)用到網(wǎng)絡(luò)視頻，YouTube視頻、電影等。

大家可以看到，在多樣性上和英文相比會(huì)存在比較大的缺陷。

詳細(xì)看一下預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成。

左邊是PanGu Alpha ，有47.16%是Common Crawl，有29.65%的Public Datasets（剛才提到的各種公開的測試集），對(duì)于這種高質(zhì)量的評(píng)測數(shù)據(jù)，訓(xùn)練時(shí)Epochs數(shù)可以更多，而CommonCrawl的Epochs 數(shù)更少，進(jìn)行降采樣。

右邊是Wudao2.0，Wudao也是大家可以拿到的開放數(shù)據(jù)。悟道里有知乎、百度百科等，當(dāng)然也其他網(wǎng)站，包括騰訊、搜狐的數(shù)據(jù)。從Raw Size維度看，知乎數(shù)據(jù)只有131 GB。

上圖主要列出了大模型預(yù)訓(xùn)練數(shù)據(jù)構(gòu)成中的中英對(duì)比，右圖可以從顏色看到一個(gè)區(qū)分度，英文不同的來源的區(qū)分是特別細(xì)的，而中文來源的區(qū)分是比較粗的，存在比較明顯的差別。

如果要復(fù)現(xiàn)GPT-4、GPT-3等模型，通常會(huì)從語料上找中英文數(shù)據(jù)集之間是否存在映射關(guān)系。

可以看到，中文的知乎對(duì)應(yīng)英語的Quora；百度百科對(duì)應(yīng)English Wikipedia，但有個(gè)很大的問題是中文的百科對(duì)比英文的維基百科，訓(xùn)練數(shù)據(jù)的質(zhì)量是沒有那么好的，英文的Wikipedia里面包括各種參考文獻(xiàn)，特別豐富的而且權(quán)威性比較高，它都會(huì)注釋來源于哪，而且包含多個(gè)版本，所以在百科這個(gè)方面存在一定差距；搜狐News對(duì)應(yīng)NBC；騰訊QQ對(duì)應(yīng) ICQ；另外還有一些比較垂域的，比如17ok.com(finance discussion)對(duì)應(yīng)Yahoo Finance 等。

9、問題的提出：我們需要怎樣的預(yù)訓(xùn)練數(shù)據(jù)

討論了中英對(duì)應(yīng)并找到差距之后，繼續(xù)討論一下如果要做好的模型，應(yīng)該準(zhǔn)備怎樣的預(yù)訓(xùn)練數(shù)據(jù)？從源頭上去講，語言模型質(zhì)量要求如下：

相關(guān)性，回答是否和問題相關(guān)，不要答非所問，體現(xiàn)了對(duì)問題的理解能力。
準(zhǔn)確性，事實(shí)性要求回答要求完全一致，不要產(chǎn)生錯(cuò)的答案，開放性回答要求語義相近。
完備性，是否涵蓋了所有要點(diǎn)。
連貫性，語言上是否表達(dá)流暢。
安全性，是否符合地方法規(guī)以及人的價(jià)值觀。
專業(yè)性，不口水話，不啰嗦，坦白說ChatGPT比較啰嗦。
敏感性，是否涉及到政治理念、黃反、敏感事件等負(fù)面信息。

拿到質(zhì)量要求后，可以得出大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)。

（1）高質(zhì)量

高質(zhì)量數(shù)據(jù)集能夠提高模型精度與可解釋性，并且減少收斂到最優(yōu)解的時(shí)間，減少訓(xùn)練時(shí)長；
高質(zhì)量數(shù)據(jù)的選擇依據(jù)是信源權(quán)威可靠、內(nèi)容價(jià)值觀對(duì)齊、專業(yè)領(lǐng)域知識(shí)，不會(huì)選擇不入流的站點(diǎn)數(shù)據(jù)或者大家隨便寫的文章；
高質(zhì)量的數(shù)據(jù)具有規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性，比如說GPT的時(shí)效只到2021年，那2022年、2023 年的數(shù)據(jù)也要去收集，實(shí)現(xiàn)時(shí)效性上的高質(zhì)量。

（2）大規(guī)模

預(yù)訓(xùn)練的數(shù)據(jù)量越多，大模型的擬合能力就越強(qiáng)，效果就會(huì)越來越好。如果數(shù)據(jù)規(guī)模太小的話，模型學(xué)的東西不會(huì)多，記得也不夠深。

（3）多樣性

數(shù)據(jù)豐富性能夠提高大模型的泛化能力，模型預(yù)訓(xùn)練數(shù)據(jù)足夠多，其生產(chǎn)內(nèi)容也能更多樣。在準(zhǔn)備預(yù)訓(xùn)練數(shù)據(jù)的時(shí)候盡可能準(zhǔn)備更多的數(shù)據(jù)，數(shù)據(jù)多了，模型的泛化能力就會(huì)更強(qiáng)；而且數(shù)據(jù)足夠豐富，在訓(xùn)練時(shí)就不會(huì)偏向某一類，導(dǎo)致過擬合問題的出現(xiàn)。所以需要對(duì)預(yù)訓(xùn)練數(shù)據(jù)做嚴(yán)格的去重，有各種花式的玩法。

10、問題的提出：以數(shù)據(jù)為中心的預(yù)訓(xùn)模型

找到數(shù)據(jù)之后，需要最多的處理就是去重，比如GPT-1有4.8GB未過濾數(shù)據(jù)，GPT-2有40GB人類過濾數(shù)據(jù)，GPT-3有570GB過濾數(shù)據(jù)（來自45TB原始數(shù)），過濾數(shù)據(jù)很重要的。

11、解決方案：領(lǐng)域預(yù)訓(xùn)模型的訓(xùn)練鏈路-以CaMA為例

這里以浙江大學(xué)CaMA模型為例，為大家展示如何從數(shù)據(jù)端去完成一個(gè)領(lǐng)域模型。

浙江大學(xué)在LLaMA的基礎(chǔ)上做了兩個(gè)工作，首先是繼續(xù)預(yù)訓(xùn)練，然后在預(yù)訓(xùn)練之后進(jìn)行微調(diào)（Instruction Dataset）。

為了增強(qiáng)LLaMA的中文能力，做了很多數(shù)據(jù)上的處理，比如怎么去拿數(shù)據(jù)。Code主要收集 GitHub 和Leetcode的數(shù)據(jù)；英文主要收集ArXiv，Book，Wikipedia等英文的數(shù)據(jù)；中文主要收集百度百科、悟道、中文維基等等。

我們要保證它的多樣性，從語種上有中英文；從類型上有代碼、文本；在領(lǐng)域上有百科、維基等。

拿到數(shù)據(jù)之后做兩個(gè)事情：

第一個(gè)是Clean，Clean包括Duplicate也就是去重；另外還有去毒性，去除敏感信息。
第二個(gè)是Tokenize，對(duì)數(shù)據(jù)進(jìn)行分詞，并設(shè)置樣本的最大長度為1024。

微調(diào)階段如何構(gòu)造高質(zhì)量的微調(diào)數(shù)據(jù)？比方General，用Alpaca用52K 的數(shù)據(jù)做各種翻譯等等；還有去做一些 COT的東西，比如說gsm8K、aqua、Alpaca等COT的數(shù)據(jù)。拿到這些數(shù)據(jù)之后，我們可以去用ChatGPT做泛化。因?yàn)镃aMa是做KG相關(guān)的，所以它會(huì)用很多的任務(wù)數(shù)據(jù)或者說命名實(shí)體識(shí)別的數(shù)據(jù)、關(guān)系抽取的數(shù)據(jù)以及事件抽取的數(shù)據(jù)，與泛化后的數(shù)據(jù)一并放進(jìn)去進(jìn)行tuning，得到一個(gè)比較好的效果。

通過上面的描述可知，無論是在pretrain階段還是在SFT階段，數(shù)據(jù)都是很重要的，而且數(shù)據(jù)需要盡可能的多樣、盡可能地清洗，對(duì)模型的提升是有意義的。

12、解決方案：以數(shù)據(jù)為中心的大模型預(yù)訓(xùn)數(shù)據(jù)工程

上圖展示了以數(shù)據(jù)為中心的的工程框架，包括之前提到的訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)、數(shù)據(jù)維護(hù)等。

以數(shù)據(jù)為中心的大模型預(yù)訓(xùn)練數(shù)據(jù)工程的工作流可以拆解為很多環(huán)節(jié)，包括源數(shù)據(jù)如何標(biāo)記、清洗、特征縮減、基礎(chǔ)操縱等；提示工程如何調(diào)整輸入、評(píng)估等；包括數(shù)據(jù)的維護(hù)，數(shù)據(jù)可視化之后，可以真正知道數(shù)據(jù)都目前的情況，數(shù)據(jù)的價(jià)值評(píng)價(jià)指標(biāo)，資源分配等。

需要針對(duì)不同的數(shù)據(jù)制定好的標(biāo)注標(biāo)準(zhǔn)，包括文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注等。

如何衡量標(biāo)注數(shù)據(jù)集的質(zhì)量是很重要的?，F(xiàn)在有很多的算法，比如圖像標(biāo)注質(zhì)量評(píng)估的MV 算法、文本質(zhì)量評(píng)估的BLEU算法等，根據(jù)不同的語音文本以及視頻，有不同的衡量算法，幫助大家衡量數(shù)據(jù)標(biāo)注的質(zhì)量。

上圖展示了具體實(shí)現(xiàn)的時(shí)候處理數(shù)據(jù)的大致流程。

我們的數(shù)據(jù)主要包括網(wǎng)站數(shù)據(jù)、專業(yè)文獻(xiàn)以及各個(gè)行業(yè)數(shù)據(jù)：

網(wǎng)站數(shù)據(jù)有搜索數(shù)據(jù)、代碼推理數(shù)據(jù)、通用網(wǎng)頁數(shù)據(jù)等。
專業(yè)文獻(xiàn)有研究報(bào)告、學(xué)術(shù)論文、各種文獻(xiàn)等。
行業(yè)數(shù)據(jù)有金融、法律、房產(chǎn)等各種垂直網(wǎng)頁、特定的多語種數(shù)據(jù)集、任務(wù)評(píng)測集等。

為了實(shí)現(xiàn)數(shù)據(jù)的大規(guī)模、多樣性和高質(zhì)量，大致的流程包括如下幾步：

一、站點(diǎn)過濾，站點(diǎn)過濾的方法也有很多，就包括基于圖的過濾方法、基于單點(diǎn)的過濾方法、基于規(guī)則的過濾方法等。

二、敏感與隱私過濾，語言或者噪聲過濾等。

三、文章去重，做不同粒度的去重。

四、網(wǎng)頁主題建模，要提升多樣性，主題就一定要好，所以會(huì)做大量的主題挖掘的工作，這里搜索有天然的優(yōu)勢。

五、數(shù)據(jù)質(zhì)量評(píng)分，包括數(shù)據(jù)質(zhì)量版本控制等。

數(shù)據(jù)源的選取依據(jù)有很多，包括：

體系是否完善
站點(diǎn)來源是否權(quán)威
數(shù)據(jù)規(guī)模是否大
數(shù)據(jù)實(shí)時(shí)性是否足夠
下游任務(wù)是否有需求
下游技能有哪些是表現(xiàn)差的等

網(wǎng)站數(shù)據(jù)，包括通用的網(wǎng)頁數(shù)據(jù)、搜索數(shù)據(jù)、問答數(shù)據(jù)、知識(shí)圖譜百科、代碼推理數(shù)據(jù)等。

專業(yè)文獻(xiàn)，包括研究報(bào)告，學(xué)術(shù)論文、期刊、書籍、文學(xué)著作等。

行業(yè)數(shù)據(jù)，包括任務(wù)評(píng)測數(shù)據(jù)集，多語種數(shù)據(jù)集，金融、法律、房地產(chǎn)、體育、醫(yī)藥、影視領(lǐng)域語料等。

站點(diǎn)過濾和噪聲信息清洗有很多方法。

質(zhì)量分檔模型，使用fasttext分類器分為四檔（0,1,2,3），2、3 為優(yōu)質(zhì)數(shù)據(jù)，訓(xùn)練時(shí)，正樣本是人工標(biāo)注的一些比較好的樣本，負(fù)樣本采用比較垃圾的文本，特征使用包含title以及CEloss。

邊緣文本剔除模型，需要將廣告位文本、雜七雜八的推廣文本識(shí)別出來。

垂直網(wǎng)頁處理，包括用大量的Pattern做高優(yōu)語料提取以及定制化的邊緣文本剔除。

基于規(guī)則的噪音清洗，包括空格、特殊符號(hào)的處理、語種檢測，敏感信息檢測、隱私數(shù)據(jù)識(shí)別與處理等等。

基于模型的噪聲清洗，包括使用PPL判定模型，剔除不連貫的文本等。

網(wǎng)頁分類建模的目的是挖掘細(xì)粒度的網(wǎng)頁數(shù)據(jù)，以滿足不同類別數(shù)據(jù)的需求。

給網(wǎng)頁標(biāo)注比較好的tag的方法有很多，要么做分類，要么做聚類。如使用LDA主題詞提取、文本關(guān)鍵詞提取、人工審核標(biāo)簽、下游技能迭代反饋標(biāo)簽等。

網(wǎng)頁主題分類，預(yù)設(shè)網(wǎng)頁類別體系，包括體育、歷史、金融、醫(yī)藥等幾十類別的體系，細(xì)分領(lǐng)域標(biāo)簽，然后構(gòu)造語料分類器，基于BERT完成語料標(biāo)簽分類。

數(shù)據(jù)質(zhì)量控制最好是用人工的方式去保證，因?yàn)橥ㄟ^模型方式做的具體分檔，只能對(duì)數(shù)據(jù)做定性的分析，實(shí)際采樣的時(shí)候，需要有一個(gè)定量評(píng)分標(biāo)準(zhǔn)，哪些是90分、80分、70分、60分等，質(zhì)量高的數(shù)據(jù)我們多采樣。因此需要人工制定評(píng)分標(biāo)準(zhǔn)，計(jì)算一個(gè)得分。
數(shù)據(jù)版本控制，每個(gè)生產(chǎn)流程都需要做各個(gè)階段的備份管理。一旦任何一個(gè)步驟發(fā)現(xiàn)問題，可以馬上定位出出問題的數(shù)據(jù)源在哪里。
預(yù)訓(xùn)練數(shù)據(jù)索引管理，需要有一個(gè)管理平臺(tái)，收集大家對(duì)數(shù)據(jù)問題的反饋以及定位。
數(shù)據(jù)隨機(jī)抽樣，為了防止數(shù)據(jù)有偏，所以在做具體評(píng)估的時(shí)候，需要進(jìn)行大量的shuffle，通過人工質(zhì)量評(píng)分做一個(gè)排序。

以DoReMi的工作為例，討論一下預(yù)訓(xùn)練數(shù)據(jù)采樣。

先初始化數(shù)據(jù)分布，訓(xùn)練一個(gè)小參數(shù)模型，比如使用The Pile的原始分布，訓(xùn)練一個(gè)小模型；訓(xùn)練小模型之后我們?cè)偈褂萌后w分布穩(wěn)健優(yōu)化（GroupDRO）對(duì)領(lǐng)域進(jìn)行訓(xùn)練，更新領(lǐng)域權(quán)重；最后使用迭代好的領(lǐng)域權(quán)重對(duì)數(shù)據(jù)集重新采樣，訓(xùn)練一個(gè)更大的、全尺寸的模型。

微調(diào)數(shù)據(jù)生成方式：

（1）基于人工標(biāo)準(zhǔn)，使用較多

需要設(shè)定 SFT數(shù)據(jù)標(biāo)簽體系，建立標(biāo)簽體系的大類、子類；
構(gòu)造和撰寫一些prompt并且寫出對(duì)應(yīng)的結(jié)果-forSFT任務(wù)；
針對(duì)給定的prompt、模型給出的多個(gè)結(jié)果，標(biāo)注結(jié)果的好壞排序-for Reward Model。

（2）基于大模型進(jìn)行數(shù)據(jù)蒸餾

基于self-instruct生成數(shù)據(jù)，為了保證多樣性，只有當(dāng)一條新指令與任何現(xiàn)有指令的ROUGE-L重疊小于0.7時(shí)才會(huì)保留，但是僅僅這樣還是不夠的，包括Alpaca這種數(shù)據(jù)，用這種方式在長度上以及主題上還不是特別多樣的
基于chatgpt進(jìn)行結(jié)果好壞標(biāo)注+人工審核

上面右圖是人大的工作，對(duì)于收集到的開源指令集，先去重，然后做主題上的分布，最后進(jìn)行清洗和多樣性控制。

基于規(guī)則的清晰，可以應(yīng)用如下的規(guī)則：

過濾敏感詞規(guī)則
過濾無效輸入輸出
關(guān)鍵詞替換規(guī)則
特殊邏輯規(guī)則

基于模型的多樣性控制，包括：

基于語義相似度模型的指令去重
基于主題控制的指令多樣化
指令數(shù)據(jù)復(fù)雜化，可以用GPT-4或者其他大模型做改寫，讓指令復(fù)雜化，在指令的長度上，可以做一定的控制

13、開放數(shù)據(jù)問題：預(yù)訓(xùn)數(shù)據(jù)是否會(huì)不夠？

關(guān)于現(xiàn)在預(yù)訓(xùn)數(shù)據(jù)到底夠不夠的問題，報(bào)告《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》中提出了一個(gè)有趣的觀點(diǎn)：語言數(shù)據(jù)將于2030~2040年耗盡，其中能訓(xùn)練出更好性能的高質(zhì)量語言數(shù)據(jù)將于2026年耗盡。此外，視覺數(shù)據(jù)將于2030~2060年耗盡。大家可以仔細(xì)研究一下這個(gè)報(bào)告。

二、大模型研發(fā)中的自動(dòng)化評(píng)估

1、問題的提出：如何進(jìn)行模型性能的自動(dòng)化評(píng)分？

模型性能的自動(dòng)化評(píng)估基本上有三種方式。

第一、基于人工業(yè)務(wù)評(píng)估，人工根據(jù)特定的業(yè)務(wù)場景找到需要評(píng)估的能力點(diǎn)（如摘要能力，生成能力等）通過列舉相關(guān)測試樣本，建立評(píng)估維度，完成多維度打分；
第二、基于下游任務(wù)評(píng)測，利用下游評(píng)測榜單，任務(wù)數(shù)據(jù)集，進(jìn)行性能評(píng)估。客觀題比較適合用下游任務(wù)去評(píng)測，但主觀題的話不是特別適合，比如評(píng)估生成的好不好等。
第三、基于ChatGPT打分，現(xiàn)在有一個(gè)風(fēng)向，大家用 ChatGPT 打分，利用ChatGPT 的專業(yè)能力，充當(dāng)裁判，完成打分評(píng)估。

2、基于GPT自動(dòng)化評(píng)估

現(xiàn)在就會(huì)有很多人用ChatGPT打分。我們給出一個(gè)問題，再給出一個(gè)答案，然后告訴ChatGPT，這里有這樣一個(gè)問題和答案，打分區(qū)間是一到零分，請(qǐng)問該答案可以打多少分并給出打分依據(jù)。Vicuna 采取了這種評(píng)估方案。

3、基于眾包投票進(jìn)行評(píng)估

另外一種方式就是眾包。用眾包的原因是用GPT自動(dòng)評(píng)估的方式主觀性是很強(qiáng)的，而且數(shù)據(jù)集也不夠多，所以需要大家一起來打分，產(chǎn)出一個(gè)瑯琊榜。Arena這個(gè)瑯琊榜，首先給一個(gè)問題，然后各個(gè)模型給出答案，通過大家投票，采用Elo rating system進(jìn)行評(píng)分。

中文其實(shí)也有，中文在英文的基礎(chǔ)上產(chǎn)出了一個(gè)版本叫瑯琊榜。

4、基于下游評(píng)測任務(wù)進(jìn)行評(píng)估

目前基于下游評(píng)測任務(wù)進(jìn)行評(píng)估出現(xiàn)了一個(gè)風(fēng)向，就是使用專業(yè)的考試題，包括Google BIG-bench、MMLU、C-EVAL、M3KE等評(píng)測數(shù)據(jù)，或者去卷專業(yè)考試。

這樣的方式是合理的，如果要做一個(gè)垂域的模型，如何去驗(yàn)證模型在垂域上的能力呢？比如說法律有律師從業(yè)資格考試，或者說專利有對(duì)應(yīng)的資格考試，這也使得模型和業(yè)務(wù)有了很好的融合。

三、大模型與知識(shí)圖譜的結(jié)合

下面與大家討論一下大模型與知識(shí)圖譜的結(jié)合。

1、知識(shí)圖譜認(rèn)識(shí)

首先看一下知識(shí)圖譜，現(xiàn)在有種論斷，大模型之后知識(shí)圖譜的重要性嚴(yán)重下降了，知識(shí)圖譜的定位也變得不太清晰。

以我的個(gè)人理解來說知識(shí)圖譜最大的優(yōu)勢在上面左邊的兩張圖中。

第一個(gè)圖是知識(shí)圖譜的圖結(jié)構(gòu)，知識(shí)圖譜通過知識(shí)以圖的形式做表示，因此可以完成Graph Embedding、路徑搜索等算法，大模型在這方面有一定缺陷。

第二個(gè)圖是知識(shí)圖譜在一些組織上的優(yōu)勢，比如知識(shí)圖譜通過Schema規(guī)范結(jié)構(gòu)化數(shù)據(jù)的表達(dá)，知識(shí)圖譜提出來是為了解決業(yè)務(wù)的在垂域中知識(shí)的組織和管理問題，雖然大模型可以端到端地生產(chǎn)知識(shí)，但這些知識(shí)是沒有體系的?？梢园洋w系化的知識(shí)圖譜和大模型結(jié)合，大模型生產(chǎn)數(shù)據(jù)，知識(shí)圖譜組織數(shù)據(jù)，更好的完成目標(biāo)。另外，知識(shí)圖譜擁有垂域的一些數(shù)據(jù)，這些數(shù)據(jù)可以用于去檢驗(yàn)大模型事實(shí)上的錯(cuò)誤。

2、知識(shí)圖譜VS大語言模型

知識(shí)圖譜與大語言模型的共同點(diǎn)：

本質(zhì)上都是一種知識(shí)庫。大語言模型也是知識(shí)庫，只是它是參數(shù)化的。
在實(shí)時(shí)性和時(shí)效性上面臨的挑戰(zhàn)一致。知識(shí)圖譜如果你不更新，時(shí)效性也是有問題的，所以讓知識(shí)圖譜解決大模型的時(shí)效性的觀點(diǎn)是要打問號(hào)的。

知識(shí)圖譜與大語言模型的不同點(diǎn)：

知識(shí)圖譜是知識(shí)的形式化表示，而大語言模型是知識(shí)的參數(shù)化的表示
知識(shí)圖譜方便Debugging，可解釋性強(qiáng)，圖結(jié)構(gòu)表達(dá)能力強(qiáng)，而大語言模型是any data, any task, 無所不能，但是不夠簡單。
知識(shí)圖譜在結(jié)構(gòu)化知識(shí)上難構(gòu)建易推理，在非結(jié)構(gòu)化知識(shí)上易構(gòu)建難推理，而大語言模型易構(gòu)建而且易推理，但是沒有體系結(jié)構(gòu)。

3、大模型用于知識(shí)圖譜：從知識(shí)圖譜構(gòu)建到業(yè)務(wù)需求應(yīng)用

大模型用于知識(shí)圖譜可以重構(gòu)上圖的整個(gè)狀態(tài)，比如進(jìn)行數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)融合、擴(kuò)展數(shù)據(jù)模式或者行業(yè)智能問答等工作，大模型可以加速而不是替代知識(shí)圖譜構(gòu)建的環(huán)節(jié)，包括應(yīng)用大模型做問答、抽取等。

4、大模型用于知識(shí)圖譜構(gòu)建：schema生成與數(shù)據(jù)標(biāo)注

大模型可以用于知識(shí)圖譜構(gòu)建中的schema生成與數(shù)據(jù)標(biāo)注部分。

大模型完成Schema的生成。ESHer是中科院軟件所的工作，使用大模型Prompt生成事件的Schema，再從Schema實(shí)現(xiàn)打分函數(shù)，通過聚類社區(qū)發(fā)現(xiàn)得到相應(yīng)的事件以及對(duì)應(yīng)的槽。

大模型可以生成排序數(shù)據(jù)，進(jìn)行數(shù)據(jù)增強(qiáng)。大模型之前我們通常用 EDA做數(shù)據(jù)增強(qiáng)，現(xiàn)在其實(shí)完全可以用 ChatGPT 改寫的方式生成大量的標(biāo)注數(shù)據(jù)，降低知識(shí)圖譜標(biāo)注端的成本。

5、大模型用于知識(shí)圖譜構(gòu)建：知識(shí)抽取、推理與知識(shí)問答

大模型在知識(shí)圖譜構(gòu)建的知識(shí)抽取、推理與知識(shí)問答方向也可以發(fā)揮作用。

如左上圖的三元組抽取，先做NER抽取，再做關(guān)系抽取。

右上圖的工作是InstructUIE，在之前 UIE 的基礎(chǔ)上，統(tǒng)一這個(gè)方式，約定輸入和輸出的格式，讓LLM進(jìn)行三元組抽取。

左下圖是用大模型去做知識(shí)圖譜的補(bǔ)全，通常知識(shí)圖譜補(bǔ)全需要定義 score function，比如360之前用知識(shí)圖譜挑戰(zhàn)OGB的時(shí)候就創(chuàng)新了一個(gè)新的score function，現(xiàn)在可以用大模型直接做排序任務(wù)。

右下圖使用大模型做知識(shí)圖譜問答，有些問題大模型不一定能回答，但是如果加上一些實(shí)體鏈接，到圖譜里把子圖給召回出來，拼接成上下文，構(gòu)成提示語讓大模型去做推斷，能夠起到減輕大模型幻覺的作用。

6、知識(shí)圖譜用于大模型研發(fā)的幾個(gè)階段

探討一下知識(shí)圖譜能夠用于大模型研發(fā)的三個(gè)階段。

（1）訓(xùn)練前階段

利用大模型于數(shù)據(jù)清洗，構(gòu)造清洗規(guī)則，其作為領(lǐng)域經(jīng)驗(yàn)知識(shí)對(duì)特定語料進(jìn)行錯(cuò)誤檢測或過濾。
利用知識(shí)圖譜直接顯式的進(jìn)行形式化拼接，引入預(yù)訓(xùn)練語料，比如使用行業(yè)三元組拼接成S+P+O、S的P是O、S的P等于O這樣的口語化產(chǎn)出放入預(yù)訓(xùn)練語料，尤其是垂域內(nèi)的很多知識(shí)圖譜是可以直接拿到用于大模型訓(xùn)練。

（2）訓(xùn)練中階段

將知識(shí)圖譜隱式地加入到模型訓(xùn)練中，用embedding的方式完成注入，可以參考KnowBERT的實(shí)現(xiàn)。
構(gòu)建以領(lǐng)域知識(shí)圖譜為中心的下游評(píng)測任務(wù)，作為模型訓(xùn)練評(píng)估。

（3）訓(xùn)練后階段

引入涉及實(shí)體的上下文進(jìn)行豐富，將知識(shí)圖譜注入prompt，增強(qiáng)結(jié)果可用性
對(duì)模型生成后的結(jié)果進(jìn)行知識(shí)校驗(yàn)，減少模型事實(shí)性錯(cuò)誤
通過query實(shí)體消歧和實(shí)體鏈接，注入搜索實(shí)時(shí)結(jié)果，增強(qiáng)實(shí)時(shí)性
結(jié)合外部知識(shí)庫進(jìn)行生成干預(yù)，比如langchain的實(shí)現(xiàn)

7、知識(shí)圖譜用于大模型訓(xùn)練前階段：構(gòu)造預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)

在預(yù)訓(xùn)練階段，可以用模板化去生成事實(shí)性的描述文本。

在微調(diào)階段，可以根據(jù)模板來生成問題，用self-instrcut的思路（重點(diǎn)在于多樣性）。比如左下的中心詞，我們可以用模板的方式生成右下方的QA對(duì)。比如Lawyer LLaMA這樣的法律領(lǐng)域的行業(yè)模型，大家會(huì)通過這樣的方式結(jié)合知識(shí)圖譜生成大量的SFT數(shù)據(jù)。

8、知識(shí)圖譜用于大模型訓(xùn)練中階段：融合知識(shí)的預(yù)訓(xùn)練模型

這里討論下融合知識(shí)的預(yù)訓(xùn)練模型，包括用特征融合、嵌入融合、數(shù)據(jù)結(jié)構(gòu)統(tǒng)一、知識(shí)監(jiān)督或者基于檢索等都是可以實(shí)現(xiàn)的。

核心點(diǎn)有兩個(gè)，一個(gè)是內(nèi)嵌融合，把embedding注入進(jìn)去，通過Mask詞和實(shí)體或者增加KE Loss都可以；一個(gè)是外掛融合，通過檢索的方式實(shí)現(xiàn)融合。

9、知識(shí)圖譜用于大模型訓(xùn)練后階段：基于知識(shí)的生成結(jié)果干預(yù)

左上圖有一個(gè)比較好的例子，畫一個(gè)老婆餅，某AI會(huì)畫出一個(gè)老婆婆和餅，如果AI可以拿到老婆餅的比較好的描述，得到的效果會(huì)得到改善。

右上圖描述了融合自迭代的知識(shí)描述，為了做問答，在Question的基礎(chǔ)上結(jié)合知識(shí)圖譜生成比較好的description，然后再放進(jìn)去，可以比較好地解決一些問題。

左下圖描述了融合外部知識(shí)庫系統(tǒng)，ChatGPT在數(shù)學(xué)計(jì)算方面，比如被提問芝加哥到東京到底有多遠(yuǎn)的時(shí)候，回答的可能并不精準(zhǔn)，這時(shí)可以外掛一些工具，比如WolframAlpha能夠解決這些問題，兩者結(jié)合起來，可以更好的解決問題。第一種方式是LangChain的方式，直接引入插件干預(yù)它的結(jié)果；另一個(gè)是先讓W(xué)olframAlpha回答一遍，然后追加到ChatGPT的問題中得到結(jié)果，雖然這樣做會(huì)稍微有點(diǎn)繁瑣，需要先請(qǐng)求WolframAlpha再請(qǐng)求ChatGPT，在很多情況下，如果問題中有若干子問題的時(shí)候，可以逐步地去拆解成WolframAlpha，再把結(jié)果通過提示語發(fā)送到ChatGPT，通常會(huì)得到比較好的結(jié)果。

右下圖描述了融合外部搜索引擎，目前大模型普遍時(shí)效性不夠好，為了解決時(shí)效性問題，需要借助比較有實(shí)時(shí)性的工具，比如搜索引擎。搜索引擎可以調(diào)用索引的相關(guān)性，獲取top的結(jié)果，封裝到prompt中。另外，融合搜索引擎可以解決大模型結(jié)果不可信的問題，比如NewBing會(huì)通過"了解詳細(xì)信息"的來源來為大模型輸出的結(jié)果進(jìn)行增信，也便于用戶可以快速的進(jìn)行驗(yàn)證。不過，有的時(shí)候會(huì)發(fā)現(xiàn)NewBing和ChatGPT引用的鏈接很多都是空的、假的，所以后面還需要考慮如何提高生成鏈接的準(zhǔn)確性。

10、知識(shí)圖譜用于大模型訓(xùn)練后階段:外掛專業(yè)知識(shí)庫

最后介紹一下目前知識(shí)圖譜用在大模型訓(xùn)練后階段的外掛專業(yè)知識(shí)庫，目前在行業(yè)中是用的最多的，其主要流程是：加載文件->讀取文本->文本分割->文本向量化->問句向量化->在文本向量中匹配出與問句向量最相似的top k個(gè)->匹配出的文本作為上下文和問題一起添加到prompt中->提交給LLM生成回答。

目前的難點(diǎn)，一個(gè)是在于如何拿到好的文本向量化模型，比如最近比較火的M3E、SimCSE、Text2vec等；另一個(gè)是讀取文本，如何比如說表格數(shù)據(jù)如何組織，例如用Latex的表示方式，各種富文本包括圖片的展示等等。

四、總結(jié)

最后總結(jié)一下大模型的未來發(fā)展方向。

大模型的未來發(fā)展發(fā)現(xiàn)主要有如下幾點(diǎn)：

大模型的應(yīng)用邊界還在不斷被探索，我們都尚處于懂與不懂之間，大家都在不斷地去探索它的機(jī)理。
垂直領(lǐng)域微調(diào)模型是必然趨勢，低成本高效的注入領(lǐng)域知識(shí)很重要。
大模型研發(fā)和落地核心是數(shù)據(jù)+場景+訓(xùn)練方法。數(shù)據(jù)做好了，算法的天花板才能高。
知識(shí)圖譜在當(dāng)前場景下需要找準(zhǔn)自身的位置，融合共生。
數(shù)據(jù)工程是大模型研發(fā)的重中之重，數(shù)據(jù)為王。

五、答疑

Q1：在數(shù)據(jù)收集的過程中，除了文本數(shù)據(jù)還會(huì)有表格數(shù)據(jù)或者圖片數(shù)據(jù)，這些數(shù)據(jù)可以怎樣去收集處理？

A1：圖片數(shù)據(jù)涉及到多模態(tài)數(shù)據(jù)的處理，比如沒辦法把圖片數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)，除非使用圖文的方式處理。

我更建議的方式，比如說解析一些研報(bào)的時(shí)候，會(huì)遇到一些文本穿插了一些圖片，這時(shí)我們可以用圖片的title替換掉圖片所在的位置，這樣就能一定程度保留圖片所在的信息或者表格所在的信息，也能保證整體語義連貫。另外一種，表格數(shù)據(jù)最重要的是如何拿到表格的數(shù)據(jù)，比如用PP-Structure等方式把表格先解析出來，然后用 Latex 重新組織表格數(shù)據(jù)。

最需要考慮的是不同模態(tài)、不同格式的數(shù)據(jù)需要保證原有的格式，不錯(cuò)亂。

Q2：在工業(yè)界關(guān)于解決大模型的幻覺有哪些實(shí)際可操作的業(yè)界經(jīng)驗(yàn)？

A2：幻覺的根本原因是：第一、聽不懂指令；第二、聽得懂指令，但是不會(huì)。我們分別解決這兩個(gè)問題。

怎么讓大模型聽懂指令需要我們做 SFT增強(qiáng)，讓大模型可以理解復(fù)雜指令，或者是理解那樣一個(gè)指令，這是在SFT階段，數(shù)據(jù)端要做的事情。

大模型不會(huì)的問題就需要注入，注入的方式有很多種，包括我們前面提到的CaMa的路線，我們可以基于Pretrain實(shí)現(xiàn)知識(shí)注入。還可以在 SFT 階段做Pretrain，雖然有種觀點(diǎn)是 SFT 學(xué)的是范式不是知識(shí)，但SFT也是能夠?qū)W到一些知識(shí)的。

如果這上面的增強(qiáng)還不夠，或者是某個(gè)領(lǐng)域的數(shù)據(jù)在Pretrain階段注入不進(jìn)去，可以考慮使用LangChain的外掛知識(shí)庫方式。外掛核心在于怎么構(gòu)造更好訓(xùn)練數(shù)據(jù)以得到更好的向量化方案，優(yōu)化embedding，通過向量檢索得到比較好的相關(guān)性文本后，拼接到Prompt中。這里也可以使用知識(shí)圖譜，用鏈接的方式把子圖召回出來，目前也有很多的開源方案可以參考。