无码一区二区三区|无码国产精品一区二区免费式芒果|无码精品国产d在线观看|无码精品前田一区二区|无码精品日韩专区|无码精品尤物一区二区三区

沃卡惠移動(dòng)端logo

大模型研發(fā)核心:數(shù)據(jù)工程、自動(dòng)化評(píng)估及與知識(shí)圖譜的結(jié)合

沃卡惠2023-08-18 09:28:214636

一、大模型研發(fā)中的數(shù)據(jù)工程

1、什么是大模型的數(shù)據(jù)工程-以數(shù)據(jù)為中心的AI

圖片

什么是大模型的數(shù)據(jù)工程?現(xiàn)在大家去做GPT模型或者BERT等模型,都會(huì)有兩個(gè)方向。第一個(gè)是以模型為中心,不怎么關(guān)注數(shù)據(jù),不斷地優(yōu)化模型的結(jié)構(gòu);第二個(gè)是以數(shù)據(jù)為中心(Data-Driven),也是目前做算法的一個(gè)共識(shí),算法本質(zhì)上是在做數(shù)據(jù),核心是說模型不變,通過改進(jìn)數(shù)據(jù)質(zhì)量來提升模型效果,不斷提升訓(xùn)練數(shù)據(jù)的質(zhì)量。

以數(shù)據(jù)為中心的 AI 核心在于訓(xùn)練數(shù)據(jù)開發(fā),推理數(shù)據(jù)開發(fā)以及數(shù)據(jù)維護(hù)。

訓(xùn)練數(shù)據(jù)開發(fā)包括很多的pipeline,包括如何收集數(shù)據(jù),如何定數(shù)據(jù)源,如何做高質(zhì)量的數(shù)據(jù)標(biāo)注,如何做數(shù)據(jù)的預(yù)處理或者數(shù)據(jù)的縮減或增強(qiáng)。比如做領(lǐng)域微調(diào)數(shù)據(jù),如果行業(yè)數(shù)據(jù)只有幾萬條,需要增強(qiáng)到幾十萬條或者幾百萬條,才能真正地把領(lǐng)域或行業(yè)的數(shù)據(jù)加進(jìn)去。

推理數(shù)據(jù)開發(fā),就是怎么評(píng)估之前的訓(xùn)練樣本,更好的評(píng)估測試集外的數(shù)據(jù)。

數(shù)據(jù)維護(hù),做數(shù)據(jù)相關(guān)的事情需要實(shí)現(xiàn)成一個(gè)閉環(huán),包括對(duì)數(shù)據(jù)的理解。使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)如果發(fā)現(xiàn)數(shù)據(jù)有問題,需要可以定位到問題來源于哪個(gè)數(shù)據(jù)集,做定點(diǎn)的追蹤和優(yōu)化。

大模型的數(shù)據(jù)工程主要解決的幾個(gè)關(guān)鍵問題如下:

  • 需要什么數(shù)據(jù)?
  • 數(shù)據(jù)從哪兒來?
  • 數(shù)據(jù)怎么處理?
  • 數(shù)據(jù)怎么評(píng)估?
  • 數(shù)據(jù)怎么管理,版本迭代?

解決上面的問題,就可以比較好的搭一個(gè)相對(duì)完整的pipeline了。

2、回顧:現(xiàn)有大模型基本情況

圖片

回顧一下現(xiàn)有大模型的基本情況,這里基于四張圖進(jìn)行闡述。

左上圖反映了到2023年3月為止,語言模型的模型大小,餅越大,其對(duì)應(yīng)的參數(shù)就越大??梢钥吹?,國外的MT-NLG、PaLM還有OPT的參數(shù)規(guī)模是比較大的;國內(nèi)的GLM-130B的參數(shù)是比較大的,已經(jīng)到了千億級(jí)水平。

右上圖比較形象地揭示了現(xiàn)在不同段位的大模型的玩法:

  • 波音787,大家都可以買票乘坐,包含有 GPT-4、 PaLM 等,提供API調(diào)用。
  • 小型私人飛機(jī),一些中小公司能夠研發(fā)出來私有部署,包含有Flan-T5、Pythia等。
  • 紙飛機(jī),平民玩法,可以做一些領(lǐng)域微調(diào),得到一個(gè)私有部署模型,包含有Alpaka、Koala等。

現(xiàn)在做大模型大家基本是分散在這3個(gè)層級(jí)內(nèi)。

左下圖描述了截止2022年12月DeepMind的模型,DeepMind在不斷地更新一些模型,先后提出了Gopher-280B、Chinchilla-70B、Flamingo-80B 等不同代號(hào)的模型,可以看到,現(xiàn)在做大模型的時(shí)候都喜歡用動(dòng)物來命名,所以現(xiàn)在動(dòng)物園的名稱可能后面也會(huì)卷的不行。

右下圖描述了代碼生成模型的規(guī)模。目前比較大有CodeGen,有16B參數(shù);然后有清華的CodeGeeX,有13B參數(shù)。現(xiàn)在也有一個(gè)趨勢,就是把文本和代碼就混合去訓(xùn)練,訓(xùn)練后的 COT 能力有一定提升。

3、回顧:現(xiàn)有大模型應(yīng)用場景

圖片

上圖列出了大模型的應(yīng)用場景,大家不斷在探索大模型的邊界,分了幾個(gè)層級(jí):

  • S,比如GPT-3 13B 做的主要是Debuging或者是閱讀理解。
  • M,比如GPT-3 175B,隨著參數(shù)量增大,到了175B的時(shí)候,可以完成語言學(xué)的解題或者情感分析、GRE考試。
  • L,比如PaLM-540B,可以完成一些語音或者推理的任務(wù)。
  • XL,比如GPT-4,可以完成高考題或者其他一些更先進(jìn)的工作。
  • Next...,可能就會(huì)更偏向于落地,解決更長文本的處理等問題。

4、起底:GPT背后的預(yù)訓(xùn)練數(shù)據(jù)

圖片

這些模型背后都用了什么數(shù)據(jù)呢?

我們先來看ChatGPT的變化,2018 年6月的 GPT-1 只用了 5GB 的預(yù)訓(xùn)練數(shù)據(jù),有1.17億參數(shù);半年之后2019年2月的GPT-2,使用了40 GB 的預(yù)訓(xùn)練數(shù)據(jù),有15億參數(shù);2020年5月的 GPT-3,有1750億參數(shù),預(yù)訓(xùn)練數(shù)據(jù)45TB,但是它并不是實(shí)際使用了45TB,而是總量是有45TB,篩選出了750GB數(shù)據(jù)用于預(yù)訓(xùn)練。

右上圖看一下GPT-3具體數(shù)據(jù)上的分布,60%的數(shù)據(jù)是Common Crawl,也就是低質(zhì)量的網(wǎng)頁;占比22%的WebText2是抓取的高質(zhì)量網(wǎng)頁;Books1、Books2是比較高質(zhì)量的書籍,分別占比8%;維基百科Wikipedia占比3%。

可以發(fā)現(xiàn):

  • 第一、數(shù)據(jù)主要還是靠大規(guī)模的隨機(jī)網(wǎng)頁做支撐的,主打的是多樣性,因?yàn)榫W(wǎng)頁里面什么都有,多樣性是很好的。
  • 第二、高質(zhì)量,書籍的質(zhì)量特別高,然后是Wikipedia,Wikipedia有個(gè)很重要的點(diǎn),就是它的多語種能力,有100 多個(gè)版本,大家后面會(huì)發(fā)現(xiàn),即使GPT里邊中文只占比只有 0.1%,但是中文的能力也有的。

5、起底:英文主流大模型預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成-多語種能力

圖片

從多語種能力上看一下英文主流大模型。比如說BLOOM,有46種語言,最多的還是English,所以現(xiàn)在大家去做領(lǐng)域微調(diào)進(jìn)行技術(shù)選型的時(shí)候, BLOOM是一個(gè)比較好的底座,和LLaMA相比,BLOOM的多語言能力比較強(qiáng)。GPT-3有90種語言,當(dāng)然絕大部分約92.7%還是English,中文的話大約是0.1%。PaLM有122種語言, 74.1%是English,其中還加了一些code。

6、起底:英文主流大模型預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成

圖片

分析一下主流大模型訓(xùn)練數(shù)據(jù)的構(gòu)成。我們先拉出來一個(gè)維度,基本上包括維基百科、書籍、期刊、Reddit鏈接(WebText)、Common Crawl等。

  • GPT-1 基本上使用書籍訓(xùn)練的。
  • GPT-2 主要用Reddit鏈接。
  • GPT-3 使用維基百科、書籍、期刊、Reddit鏈接(WebText)、Common Crawl。
  • The Pile這個(gè)數(shù)據(jù)解壓之后是1.2T,大家基本上都可以拿到使用。這個(gè)數(shù)據(jù)集的一個(gè)特點(diǎn)就是多樣性特別高,如果沒記錯(cuò)的話有 22 個(gè)不同來源的數(shù)據(jù),還包括Github,Books等。
  • LLaMA 主打的一個(gè)點(diǎn)是在參數(shù)量不遜千億的情況下,訓(xùn)練數(shù)據(jù)盡可能豐富,使用了1.4T的Token,數(shù)據(jù)來源也是比較多的,包括維基百科、書籍、期刊、Common Crawl。

可以看到很多大模型Common Crawl都是占了比較大的比重。

除了文本大模型,還有多模態(tài)大模型。

OpenAI有DALL-E會(huì)有Conceptual Captions等數(shù)據(jù)集,谷歌的多模態(tài)模型也是一樣,但是跟文本大模型相比,數(shù)據(jù)集相對(duì)比較少,而且多模態(tài)的參數(shù)量跟純文本相比還是相差一定量級(jí)的。

圖片

GPT-3有一個(gè)很重要的數(shù)據(jù)集叫Common Crawl,從Common Crawl中通過清洗的方式可以獲取英語語料比如C4,C4中很多數(shù)據(jù)都是專利數(shù)據(jù)(patents.google.com)。我們?cè)倏匆幌翯PT-3 TOP10 的一些Datasets,包括Wikipedia、Google、Libgen等。

圖片

上圖列出了幾個(gè)預(yù)訓(xùn)練數(shù)據(jù)內(nèi)部構(gòu)成:

  • The Pile v1版本包括PubMed Central,所以在生物醫(yī)藥方面Pile是有一定優(yōu)勢的;包括ArXiv(papers)、法律相關(guān)的FreeLaw、數(shù)學(xué)相關(guān)的DM Mathematics、Ubuntu的用戶日志、多語種的EuroParl數(shù)據(jù)集等。如果需要做多語種翻譯,或者增強(qiáng)多語種能力,Pile數(shù)據(jù)集是可以利用的。
  • WebText包括Google、Archive、GitHub等等。
  • C4包括有0.48%專利數(shù)據(jù)(只用了專利的背景),所以 GPT-3進(jìn)行一些專利方向的交互,回答也會(huì)不錯(cuò),對(duì)專利感興趣的同學(xué)可以關(guān)注C4 數(shù)據(jù)集,做一些比較好的遷移。

7、起底:英文主流大模型常用預(yù)訓(xùn)數(shù)據(jù)

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-維基百科、書籍。

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-論文期刊。ArXiv有2000多萬的文章,都可以下載到。

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)-WebText、Conmmon Crawl。也是大家可以下載到的。

圖片

上面列出了英文常用的預(yù)訓(xùn)練數(shù)據(jù)The Pile及代碼、論壇。左下是Pile數(shù)據(jù)集的內(nèi)部分布。代碼數(shù)據(jù)集公開的比較多,能下載到的有上T級(jí)別的。

8、起底:中文主流大模型預(yù)訓(xùn)數(shù)據(jù)構(gòu)成

圖片

下面介紹一下中文主流大模型預(yù)訓(xùn)數(shù)據(jù)構(gòu)成,目前中文的開源數(shù)據(jù)集和英文相比差距還是比較大的。

比如華為盤古大模型,使用中文文本語料共1.1TB。

  • 開源數(shù)據(jù)集只用了27.9GB,數(shù)據(jù)來源基本上是開源的評(píng)測數(shù)據(jù),如百度QA、DuReader、CAIL2018法律文本(幾百萬的法律文書數(shù)據(jù))、搜狗 CA(搜狗的一個(gè)文本分類的數(shù)據(jù)集)等。
  • 百科數(shù)據(jù)包括百度百科,搜狗百科等,以及之前大家卷知識(shí)圖譜的時(shí)候開放的百科的三元組以及內(nèi)部信息。
  • 電子書也有應(yīng)用,但是國外有zlibary這樣比較大型的書籍集合。
  • Common Crawl,使用了Common Crawl的2018年1月到2020年12月的網(wǎng)絡(luò)數(shù)據(jù)

阿里的M6大模型用到百科全書、社區(qū)QA、論壇討論、Common Crawl等,還有一些和業(yè)務(wù)結(jié)合的電商數(shù)據(jù)。

WeLM的數(shù)據(jù)構(gòu)成更像GPT,包括Common Crawl、書籍、新聞、論壇、學(xué)術(shù)著作等。

InternVideo是多模態(tài)模型,會(huì)用到網(wǎng)絡(luò)視頻,YouTube視頻、電影等。

大家可以看到,在多樣性上和英文相比會(huì)存在比較大的缺陷。

圖片

詳細(xì)看一下預(yù)訓(xùn)練數(shù)據(jù)的構(gòu)成。

左邊是PanGu Alpha ,有47.16%是Common Crawl,有29.65%的Public Datasets(剛才提到的各種公開的測試集),對(duì)于這種高質(zhì)量的評(píng)測數(shù)據(jù),訓(xùn)練時(shí)Epochs數(shù)可以更多,而CommonCrawl的Epochs 數(shù)更少,進(jìn)行降采樣。

右邊是Wudao2.0,Wudao也是大家可以拿到的開放數(shù)據(jù)。悟道里有知乎、百度百科等,當(dāng)然也其他網(wǎng)站,包括騰訊、搜狐的數(shù)據(jù)。從Raw Size維度看,知乎數(shù)據(jù)只有131 GB。

圖片

上圖主要列出了大模型預(yù)訓(xùn)練數(shù)據(jù)構(gòu)成中的中英對(duì)比,右圖可以從顏色看到一個(gè)區(qū)分度,英文不同的來源的區(qū)分是特別細(xì)的,而中文來源的區(qū)分是比較粗的,存在比較明顯的差別。

圖片

如果要復(fù)現(xiàn)GPT-4、GPT-3等模型,通常會(huì)從語料上找中英文數(shù)據(jù)集之間是否存在映射關(guān)系。

可以看到,中文的知乎對(duì)應(yīng)英語的Quora;百度百科對(duì)應(yīng)English Wikipedia,但有個(gè)很大的問題是中文的百科對(duì)比英文的維基百科,訓(xùn)練數(shù)據(jù)的質(zhì)量是沒有那么好的,英文的Wikipedia里面包括各種參考文獻(xiàn),特別豐富的而且權(quán)威性比較高,它都會(huì)注釋來源于哪,而且包含多個(gè)版本,所以在百科這個(gè)方面存在一定差距;搜狐News對(duì)應(yīng)NBC;騰訊QQ對(duì)應(yīng) ICQ;另外還有一些比較垂域的,比如17ok.com(finance discussion)對(duì)應(yīng)Yahoo Finance 等。

9、問題的提出:我們需要怎樣的預(yù)訓(xùn)練數(shù)據(jù)

圖片

討論了中英對(duì)應(yīng)并找到差距之后,繼續(xù)討論一下如果要做好的模型,應(yīng)該準(zhǔn)備怎樣的預(yù)訓(xùn)練數(shù)據(jù)?從源頭上去講,語言模型質(zhì)量要求如下:

  • 相關(guān)性,回答是否和問題相關(guān),不要答非所問,體現(xiàn)了對(duì)問題的理解能力。
  • 準(zhǔn)確性,事實(shí)性要求回答要求完全一致,不要產(chǎn)生錯(cuò)的答案,開放性回答要求語義相近。
  • 完備性,是否涵蓋了所有要點(diǎn)。
  • 連貫性,語言上是否表達(dá)流暢。
  • 安全性,是否符合地方法規(guī)以及人的價(jià)值觀。
  • 專業(yè)性,不口水話,不啰嗦,坦白說ChatGPT比較啰嗦。
  • 敏感性,是否涉及到政治理念、黃反、敏感事件等負(fù)面信息。

拿到質(zhì)量要求后,可以得出大模型需要高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)。

(1)高質(zhì)量

  • 高質(zhì)量數(shù)據(jù)集能夠提高模型精度與可解釋性,并且減少收斂到最優(yōu)解的時(shí)間,減少訓(xùn)練時(shí)長;
  • 高質(zhì)量數(shù)據(jù)的選擇依據(jù)是信源權(quán)威可靠、內(nèi)容價(jià)值觀對(duì)齊、專業(yè)領(lǐng)域知識(shí),不會(huì)選擇不入流的站點(diǎn)數(shù)據(jù)或者大家隨便寫的文章;
  • 高質(zhì)量的數(shù)據(jù)具有規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性,比如說GPT的時(shí)效只到2021年,那2022年、2023 年的數(shù)據(jù)也要去收集,實(shí)現(xiàn)時(shí)效性上的高質(zhì)量。

(2)大規(guī)模

預(yù)訓(xùn)練的數(shù)據(jù)量越多,大模型的擬合能力就越強(qiáng),效果就會(huì)越來越好。如果數(shù)據(jù)規(guī)模太小的話,模型學(xué)的東西不會(huì)多,記得也不夠深。

(3)多樣性

數(shù)據(jù)豐富性能夠提高大模型的泛化能力,模型預(yù)訓(xùn)練數(shù)據(jù)足夠多,其生產(chǎn)內(nèi)容也能更多樣。在準(zhǔn)備預(yù)訓(xùn)練數(shù)據(jù)的時(shí)候盡可能準(zhǔn)備更多的數(shù)據(jù),數(shù)據(jù)多了,模型的泛化能力就會(huì)更強(qiáng);而且數(shù)據(jù)足夠豐富,在訓(xùn)練時(shí)就不會(huì)偏向某一類,導(dǎo)致過擬合問題的出現(xiàn)。所以需要對(duì)預(yù)訓(xùn)練數(shù)據(jù)做嚴(yán)格的去重,有各種花式的玩法。

10、問題的提出:以數(shù)據(jù)為中心的預(yù)訓(xùn)模型

圖片

找到數(shù)據(jù)之后,需要最多的處理就是去重,比如GPT-1有4.8GB未過濾數(shù)據(jù),GPT-2有40GB人類過濾數(shù)據(jù),GPT-3有570GB過濾數(shù)據(jù)(來自45TB原始數(shù)),過濾數(shù)據(jù)很重要的。

11、解決方案:領(lǐng)域預(yù)訓(xùn)模型的訓(xùn)練鏈路-以CaMA為例

圖片

這里以浙江大學(xué)CaMA模型為例,為大家展示如何從數(shù)據(jù)端去完成一個(gè)領(lǐng)域模型。

浙江大學(xué)在LLaMA的基礎(chǔ)上做了兩個(gè)工作,首先是繼續(xù)預(yù)訓(xùn)練,然后在預(yù)訓(xùn)練之后進(jìn)行微調(diào)(Instruction Dataset)。

為了增強(qiáng)LLaMA的中文能力,做了很多數(shù)據(jù)上的處理,比如怎么去拿數(shù)據(jù)。Code主要收集 GitHub 和Leetcode的數(shù)據(jù);英文主要收集ArXiv,Book,Wikipedia等英文的數(shù)據(jù);中文主要收集百度百科、悟道、中文維基等等。

我們要保證它的多樣性,從語種上有中英文;從類型上有代碼、文本;在領(lǐng)域上有百科、維基等。

拿到數(shù)據(jù)之后做兩個(gè)事情:

  • 第一個(gè)是Clean,Clean包括Duplicate也就是去重;另外還有去毒性,去除敏感信息。
  • 第二個(gè)是Tokenize,對(duì)數(shù)據(jù)進(jìn)行分詞,并設(shè)置樣本的最大長度為1024。

微調(diào)階段如何構(gòu)造高質(zhì)量的微調(diào)數(shù)據(jù)?比方General,用Alpaca用52K 的數(shù)據(jù)做各種翻譯等等;還有去做一些 COT的東西,比如說gsm8K、aqua、Alpaca等COT的數(shù)據(jù)。拿到這些數(shù)據(jù)之后,我們可以去用ChatGPT做泛化。因?yàn)镃aMa是做KG相關(guān)的,所以它會(huì)用很多的任務(wù)數(shù)據(jù)或者說命名實(shí)體識(shí)別的數(shù)據(jù)、關(guān)系抽取的數(shù)據(jù)以及事件抽取的數(shù)據(jù),與泛化后的數(shù)據(jù)一并放進(jìn)去進(jìn)行tuning,得到一個(gè)比較好的效果。

通過上面的描述可知,無論是在pretrain階段還是在SFT階段,數(shù)據(jù)都是很重要的,而且數(shù)據(jù)需要盡可能的多樣、盡可能地清洗,對(duì)模型的提升是有意義的。

12、解決方案:以數(shù)據(jù)為中心的大模型預(yù)訓(xùn)數(shù)據(jù)工程

圖片

上圖展示了以數(shù)據(jù)為中心的的工程框架,包括之前提到的訓(xùn)練數(shù)據(jù)開發(fā)、推理數(shù)據(jù)開發(fā)、數(shù)據(jù)維護(hù)等。

圖片

以數(shù)據(jù)為中心的大模型預(yù)訓(xùn)練數(shù)據(jù)工程的工作流可以拆解為很多環(huán)節(jié),包括源數(shù)據(jù)如何標(biāo)記、清洗、特征縮減、基礎(chǔ)操縱等;提示工程如何調(diào)整輸入、評(píng)估等;包括數(shù)據(jù)的維護(hù),數(shù)據(jù)可視化之后,可以真正知道數(shù)據(jù)都目前的情況,數(shù)據(jù)的價(jià)值評(píng)價(jià)指標(biāo),資源分配等。

圖片

需要針對(duì)不同的數(shù)據(jù)制定好的標(biāo)注標(biāo)準(zhǔn),包括文本標(biāo)注、語音標(biāo)注、圖像標(biāo)注等。

如何衡量標(biāo)注數(shù)據(jù)集的質(zhì)量是很重要的?,F(xiàn)在有很多的算法,比如圖像標(biāo)注質(zhì)量評(píng)估的MV 算法、文本質(zhì)量評(píng)估的BLEU算法等,根據(jù)不同的語音文本以及視頻,有不同的衡量算法,幫助大家衡量數(shù)據(jù)標(biāo)注的質(zhì)量。

圖片

上圖展示了具體實(shí)現(xiàn)的時(shí)候處理數(shù)據(jù)的大致流程。

我們的數(shù)據(jù)主要包括網(wǎng)站數(shù)據(jù)、專業(yè)文獻(xiàn)以及各個(gè)行業(yè)數(shù)據(jù):

  • 網(wǎng)站數(shù)據(jù)有搜索數(shù)據(jù)、代碼推理數(shù)據(jù)、通用網(wǎng)頁數(shù)據(jù)等。
  • 專業(yè)文獻(xiàn)有研究報(bào)告、學(xué)術(shù)論文、各種文獻(xiàn)等。
  • 行業(yè)數(shù)據(jù)有金融、法律、房產(chǎn)等各種垂直網(wǎng)頁、特定的多語種數(shù)據(jù)集、任務(wù)評(píng)測集等。

為了實(shí)現(xiàn)數(shù)據(jù)的大規(guī)模、多樣性和高質(zhì)量,大致的流程包括如下幾步:

一、站點(diǎn)過濾,站點(diǎn)過濾的方法也有很多,就包括基于圖的過濾方法、基于單點(diǎn)的過濾方法、基于規(guī)則的過濾方法等。

二、敏感與隱私過濾,語言或者噪聲過濾等。

三、文章去重,做不同粒度的去重。

四、網(wǎng)頁主題建模,要提升多樣性,主題就一定要好,所以會(huì)做大量的主題挖掘的工作,這里搜索有天然的優(yōu)勢。

五、數(shù)據(jù)質(zhì)量評(píng)分,包括數(shù)據(jù)質(zhì)量版本控制等。

圖片

數(shù)據(jù)源的選取依據(jù)有很多,包括:

  • 體系是否完善
  • 站點(diǎn)來源是否權(quán)威
  • 數(shù)據(jù)規(guī)模是否大
  • 數(shù)據(jù)實(shí)時(shí)性是否足夠
  • 下游任務(wù)是否有需求
  • 下游技能有哪些是表現(xiàn)差的等

網(wǎng)站數(shù)據(jù),包括通用的網(wǎng)頁數(shù)據(jù)、搜索數(shù)據(jù)、問答數(shù)據(jù)、知識(shí)圖譜百科、代碼推理數(shù)據(jù)等。

專業(yè)文獻(xiàn),包括研究報(bào)告,學(xué)術(shù)論文、期刊、書籍、文學(xué)著作等。

行業(yè)數(shù)據(jù),包括任務(wù)評(píng)測數(shù)據(jù)集,多語種數(shù)據(jù)集,金融、法律、房地產(chǎn)、體育、醫(yī)藥、影視領(lǐng)域語料等。

圖片

站點(diǎn)過濾和噪聲信息清洗有很多方法。

質(zhì)量分檔模型,使用fasttext分類器分為四檔(0,1,2,3),2、3 為優(yōu)質(zhì)數(shù)據(jù),訓(xùn)練時(shí),正樣本是人工標(biāo)注的一些比較好的樣本,負(fù)樣本采用比較垃圾的文本,特征使用包含title以及CEloss。

邊緣文本剔除模型,需要將廣告位文本、雜七雜八的推廣文本識(shí)別出來。

垂直網(wǎng)頁處理,包括用大量的Pattern做高優(yōu)語料提取以及定制化的邊緣文本剔除。

基于規(guī)則的噪音清洗,包括空格、特殊符號(hào)的處理、語種檢測,敏感信息檢測、隱私數(shù)據(jù)識(shí)別與處理等等。

基于模型的噪聲清洗,包括使用PPL判定模型,剔除不連貫的文本等。

圖片

網(wǎng)頁分類建模的目的是挖掘細(xì)粒度的網(wǎng)頁數(shù)據(jù),以滿足不同類別數(shù)據(jù)的需求。

給網(wǎng)頁標(biāo)注比較好的tag的方法有很多,要么做分類,要么做聚類。如使用LDA主題詞提取、文本關(guān)鍵詞提取、人工審核標(biāo)簽、下游技能迭代反饋標(biāo)簽等。

網(wǎng)頁主題分類,預(yù)設(shè)網(wǎng)頁類別體系,包括體育、歷史、金融、醫(yī)藥等幾十類別的體系,細(xì)分領(lǐng)域標(biāo)簽,然后構(gòu)造語料分類器,基于BERT完成語料標(biāo)簽分類。

圖片

  • 數(shù)據(jù)質(zhì)量控制最好是用人工的方式去保證,因?yàn)橥ㄟ^模型方式做的具體分檔,只能對(duì)數(shù)據(jù)做定性的分析,實(shí)際采樣的時(shí)候,需要有一個(gè)定量評(píng)分標(biāo)準(zhǔn),哪些是90分、80分、70分、60分等,質(zhì)量高的數(shù)據(jù)我們多采樣。因此需要人工制定評(píng)分標(biāo)準(zhǔn),計(jì)算一個(gè)得分。
  • 數(shù)據(jù)版本控制,每個(gè)生產(chǎn)流程都需要做各個(gè)階段的備份管理。一旦任何一個(gè)步驟發(fā)現(xiàn)問題,可以馬上定位出出問題的數(shù)據(jù)源在哪里。
  • 預(yù)訓(xùn)練數(shù)據(jù)索引管理,需要有一個(gè)管理平臺(tái),收集大家對(duì)數(shù)據(jù)問題的反饋以及定位。
  • 數(shù)據(jù)隨機(jī)抽樣,為了防止數(shù)據(jù)有偏,所以在做具體評(píng)估的時(shí)候,需要進(jìn)行大量的shuffle,通過人工質(zhì)量評(píng)分做一個(gè)排序。

圖片

以DoReMi的工作為例,討論一下預(yù)訓(xùn)練數(shù)據(jù)采樣。

先初始化數(shù)據(jù)分布,訓(xùn)練一個(gè)小參數(shù)模型,比如使用The Pile的原始分布,訓(xùn)練一個(gè)小模型;訓(xùn)練小模型之后我們?cè)偈褂萌后w分布穩(wěn)健優(yōu)化(GroupDRO)對(duì)領(lǐng)域進(jìn)行訓(xùn)練,更新領(lǐng)域權(quán)重;最后使用迭代好的領(lǐng)域權(quán)重對(duì)數(shù)據(jù)集重新采樣,訓(xùn)練一個(gè)更大的、全尺寸的模型。

圖片

微調(diào)數(shù)據(jù)生成方式:

(1)基于人工標(biāo)準(zhǔn),使用較多

  • 需要設(shè)定 SFT數(shù)據(jù)標(biāo)簽體系,建立標(biāo)簽體系的大類、子類;
  • 構(gòu)造和撰寫一些prompt并且寫出對(duì)應(yīng)的結(jié)果-forSFT任務(wù);
  • 針對(duì)給定的prompt、模型給出的多個(gè)結(jié)果,標(biāo)注結(jié)果的好壞排序-for Reward Model。

(2)基于大模型進(jìn)行數(shù)據(jù)蒸餾

  • 基于self-instruct生成數(shù)據(jù),為了保證多樣性,只有當(dāng)一條新指令與任何現(xiàn)有指令的ROUGE-L重疊小于0.7時(shí)才會(huì)保留,但是僅僅這樣還是不夠的,包括Alpaca這種數(shù)據(jù),用這種方式在長度上以及主題上還不是特別多樣的
  • 基于chatgpt進(jìn)行結(jié)果好壞標(biāo)注+人工審核

圖片

上面右圖是人大的工作,對(duì)于收集到的開源指令集,先去重,然后做主題上的分布,最后進(jìn)行清洗和多樣性控制。

基于規(guī)則的清晰,可以應(yīng)用如下的規(guī)則:

  • 過濾敏感詞規(guī)則
  • 過濾無效輸入輸出
  • 關(guān)鍵詞替換規(guī)則
  • 特殊邏輯規(guī)則

基于模型的多樣性控制,包括:

  • 基于語義相似度模型的指令去重
  • 基于主題控制的指令多樣化
  • 指令數(shù)據(jù)復(fù)雜化,可以用GPT-4或者其他大模型做改寫,讓指令復(fù)雜化,在指令的長度上,可以做一定的控制

13、開放數(shù)據(jù)問題:預(yù)訓(xùn)數(shù)據(jù)是否會(huì)不夠?

圖片

關(guān)于現(xiàn)在預(yù)訓(xùn)數(shù)據(jù)到底夠不夠的問題,報(bào)告《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》中提出了一個(gè)有趣的觀點(diǎn):語言數(shù)據(jù)將于2030~2040年耗盡,其中能訓(xùn)練出更好性能的高質(zhì)量語言數(shù)據(jù)將于2026年耗盡。此外,視覺數(shù)據(jù)將于2030~2060年耗盡。大家可以仔細(xì)研究一下這個(gè)報(bào)告。

二、大模型研發(fā)中的自動(dòng)化評(píng)估

1、問題的提出:如何進(jìn)行模型性能的自動(dòng)化評(píng)分?

圖片

模型性能的自動(dòng)化評(píng)估基本上有三種方式。

  • 第一、基于人工業(yè)務(wù)評(píng)估,人工根據(jù)特定的業(yè)務(wù)場景找到需要評(píng)估的能力點(diǎn)(如摘要能力,生成能力等)通過列舉相關(guān)測試樣本,建立評(píng)估維度,完成多維度打分;
  • 第二、基于下游任務(wù)評(píng)測,利用下游評(píng)測榜單,任務(wù)數(shù)據(jù)集,進(jìn)行性能評(píng)估。客觀題比較適合用下游任務(wù)去評(píng)測,但主觀題的話不是特別適合,比如評(píng)估生成的好不好等。
  • 第三、基于ChatGPT打分,現(xiàn)在有一個(gè)風(fēng)向,大家用 ChatGPT 打分,利用ChatGPT 的專業(yè)能力,充當(dāng)裁判,完成打分評(píng)估。

2、基于GPT自動(dòng)化評(píng)估

圖片

現(xiàn)在就會(huì)有很多人用ChatGPT打分。我們給出一個(gè)問題,再給出一個(gè)答案,然后告訴ChatGPT,這里有這樣一個(gè)問題和答案,打分區(qū)間是一到零分,請(qǐng)問該答案可以打多少分并給出打分依據(jù)。Vicuna 采取了這種評(píng)估方案。

3、基于眾包投票進(jìn)行評(píng)估

圖片

另外一種方式就是眾包。用眾包的原因是用GPT自動(dòng)評(píng)估的方式主觀性是很強(qiáng)的,而且數(shù)據(jù)集也不夠多,所以需要大家一起來打分,產(chǎn)出一個(gè)瑯琊榜。Arena這個(gè)瑯琊榜,首先給一個(gè)問題,然后各個(gè)模型給出答案,通過大家投票,采用Elo rating system進(jìn)行評(píng)分。

中文其實(shí)也有,中文在英文的基礎(chǔ)上產(chǎn)出了一個(gè)版本叫瑯琊榜。

4、基于下游評(píng)測任務(wù)進(jìn)行評(píng)估

圖片

目前基于下游評(píng)測任務(wù)進(jìn)行評(píng)估出現(xiàn)了一個(gè)風(fēng)向,就是使用專業(yè)的考試題,包括Google BIG-bench、MMLU、C-EVAL、M3KE等評(píng)測數(shù)據(jù),或者去卷專業(yè)考試。

這樣的方式是合理的,如果要做一個(gè)垂域的模型,如何去驗(yàn)證模型在垂域上的能力呢?比如說法律有律師從業(yè)資格考試,或者說專利有對(duì)應(yīng)的資格考試,這也使得模型和業(yè)務(wù)有了很好的融合。

三、大模型與知識(shí)圖譜的結(jié)合

下面與大家討論一下大模型與知識(shí)圖譜的結(jié)合。

1、知識(shí)圖譜認(rèn)識(shí)

圖片

首先看一下知識(shí)圖譜,現(xiàn)在有種論斷,大模型之后知識(shí)圖譜的重要性嚴(yán)重下降了,知識(shí)圖譜的定位也變得不太清晰。

以我的個(gè)人理解來說知識(shí)圖譜最大的優(yōu)勢在上面左邊的兩張圖中。

第一個(gè)圖是知識(shí)圖譜的圖結(jié)構(gòu),知識(shí)圖譜通過知識(shí)以圖的形式做表示,因此可以完成Graph Embedding、路徑搜索等算法,大模型在這方面有一定缺陷。

第二個(gè)圖是知識(shí)圖譜在一些組織上的優(yōu)勢,比如知識(shí)圖譜通過Schema規(guī)范結(jié)構(gòu)化數(shù)據(jù)的表達(dá), 知識(shí)圖譜提出來是為了解決業(yè)務(wù)的在垂域中知識(shí)的組織和管理問題,雖然大模型可以端到端地生產(chǎn)知識(shí),但這些知識(shí)是沒有體系的??梢园洋w系化的知識(shí)圖譜和大模型結(jié)合,大模型生產(chǎn)數(shù)據(jù),知識(shí)圖譜組織數(shù)據(jù),更好的完成目標(biāo)。另外,知識(shí)圖譜擁有垂域的一些數(shù)據(jù),這些數(shù)據(jù)可以用于去檢驗(yàn)大模型事實(shí)上的錯(cuò)誤。

2、知識(shí)圖譜VS大語言模型

圖片

知識(shí)圖譜與大語言模型的共同點(diǎn):

  • 本質(zhì)上都是一種知識(shí)庫。大語言模型也是知識(shí)庫,只是它是參數(shù)化的。
  • 在實(shí)時(shí)性和時(shí)效性上面臨的挑戰(zhàn)一致。知識(shí)圖譜如果你不更新,時(shí)效性也是有問題的,所以讓知識(shí)圖譜解決大模型的時(shí)效性的觀點(diǎn)是要打問號(hào)的。

知識(shí)圖譜與大語言模型的不同點(diǎn):

  • 知識(shí)圖譜是知識(shí)的形式化表示,而大語言模型是知識(shí)的參數(shù)化的表示
  • 知識(shí)圖譜方便Debugging,可解釋性強(qiáng),圖結(jié)構(gòu)表達(dá)能力強(qiáng),而大語言模型是any data, any task, 無所不能,但是不夠簡單。
  • 知識(shí)圖譜在結(jié)構(gòu)化知識(shí)上難構(gòu)建易推理,在非結(jié)構(gòu)化知識(shí)上易構(gòu)建難推理,而大語言模型易構(gòu)建而且易推理,但是沒有體系結(jié)構(gòu)。

3、大模型用于知識(shí)圖譜:從知識(shí)圖譜構(gòu)建到業(yè)務(wù)需求應(yīng)用

圖片

大模型用于知識(shí)圖譜可以重構(gòu)上圖的整個(gè)狀態(tài),比如進(jìn)行數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)融合、擴(kuò)展數(shù)據(jù)模式或者行業(yè)智能問答等工作,大模型可以加速而不是替代知識(shí)圖譜構(gòu)建的環(huán)節(jié),包括應(yīng)用大模型做問答、抽取等。

4、大模型用于知識(shí)圖譜構(gòu)建:schema生成與數(shù)據(jù)標(biāo)注

圖片

大模型可以用于知識(shí)圖譜構(gòu)建中的schema生成與數(shù)據(jù)標(biāo)注部分。

大模型完成Schema的生成。ESHer是中科院軟件所的工作,使用大模型Prompt生成事件的Schema,再從Schema實(shí)現(xiàn)打分函數(shù),通過聚類社區(qū)發(fā)現(xiàn)得到相應(yīng)的事件以及對(duì)應(yīng)的槽。

大模型可以生成排序數(shù)據(jù),進(jìn)行數(shù)據(jù)增強(qiáng)。大模型之前我們通常用 EDA做數(shù)據(jù)增強(qiáng),現(xiàn)在其實(shí)完全可以用 ChatGPT 改寫的方式生成大量的標(biāo)注數(shù)據(jù),降低知識(shí)圖譜標(biāo)注端的成本。

5、大模型用于知識(shí)圖譜構(gòu)建:知識(shí)抽取、推理與知識(shí)問答

圖片

大模型在知識(shí)圖譜構(gòu)建的知識(shí)抽取、推理與知識(shí)問答方向也可以發(fā)揮作用。

如左上圖的三元組抽取,先做NER抽取,再做關(guān)系抽取。

右上圖的工作是InstructUIE,在之前 UIE 的基礎(chǔ)上,統(tǒng)一這個(gè)方式,約定輸入和輸出的格式,讓LLM進(jìn)行三元組抽取。

左下圖是用大模型去做知識(shí)圖譜的補(bǔ)全,通常知識(shí)圖譜補(bǔ)全需要定義 score function,比如360之前用知識(shí)圖譜挑戰(zhàn)OGB的時(shí)候就創(chuàng)新了一個(gè)新的score function,現(xiàn)在可以用大模型直接做排序任務(wù)。

右下圖使用大模型做知識(shí)圖譜問答,有些問題大模型不一定能回答,但是如果加上一些實(shí)體鏈接,到圖譜里把子圖給召回出來,拼接成上下文,構(gòu)成提示語讓大模型去做推斷,能夠起到減輕大模型幻覺的作用。

6、知識(shí)圖譜用于大模型研發(fā)的幾個(gè)階段

圖片

探討一下知識(shí)圖譜能夠用于大模型研發(fā)的三個(gè)階段。

(1)訓(xùn)練前階段

  • 利用大模型于數(shù)據(jù)清洗,構(gòu)造清洗規(guī)則,其作為領(lǐng)域經(jīng)驗(yàn)知識(shí)對(duì)特定語料進(jìn)行錯(cuò)誤檢測或過濾。
  • 利用知識(shí)圖譜直接顯式的進(jìn)行形式化拼接,引入預(yù)訓(xùn)練語料,比如使用行業(yè)三元組拼接成S+P+O、S的P是O、S的P等于O這樣的口語化產(chǎn)出放入預(yù)訓(xùn)練語料,尤其是垂域內(nèi)的很多知識(shí)圖譜是可以直接拿到用于大模型訓(xùn)練。

(2)訓(xùn)練中階段

  • 將知識(shí)圖譜隱式地加入到模型訓(xùn)練中,用embedding的方式完成注入,可以參考KnowBERT的實(shí)現(xiàn)。
  • 構(gòu)建以領(lǐng)域知識(shí)圖譜為中心的下游評(píng)測任務(wù),作為模型訓(xùn)練評(píng)估。

(3)訓(xùn)練后階段

  • 引入涉及實(shí)體的上下文進(jìn)行豐富,將知識(shí)圖譜注入prompt,增強(qiáng)結(jié)果可用性
  • 對(duì)模型生成后的結(jié)果進(jìn)行知識(shí)校驗(yàn),減少模型事實(shí)性錯(cuò)誤
  • 通過query實(shí)體消歧和實(shí)體鏈接,注入搜索實(shí)時(shí)結(jié)果,增強(qiáng)實(shí)時(shí)性
  • 結(jié)合外部知識(shí)庫進(jìn)行生成干預(yù),比如langchain的實(shí)現(xiàn)

7、知識(shí)圖譜用于大模型訓(xùn)練前階段:構(gòu)造預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)

圖片

在預(yù)訓(xùn)練階段,可以用模板化去生成事實(shí)性的描述文本。

在微調(diào)階段,可以根據(jù)模板來生成問題,用self-instrcut的思路(重點(diǎn)在于多樣性)。比如左下的中心詞,我們可以用模板的方式生成右下方的QA對(duì)。比如Lawyer LLaMA這樣的法律領(lǐng)域的行業(yè)模型,大家會(huì)通過這樣的方式結(jié)合知識(shí)圖譜生成大量的SFT數(shù)據(jù)。

8、知識(shí)圖譜用于大模型訓(xùn)練中階段:融合知識(shí)的預(yù)訓(xùn)練模型

圖片

這里討論下融合知識(shí)的預(yù)訓(xùn)練模型,包括用特征融合、嵌入融合、數(shù)據(jù)結(jié)構(gòu)統(tǒng)一、知識(shí)監(jiān)督或者基于檢索等都是可以實(shí)現(xiàn)的。

核心點(diǎn)有兩個(gè),一個(gè)是內(nèi)嵌融合,把embedding注入進(jìn)去,通過Mask詞和實(shí)體或者增加KE Loss都可以;一個(gè)是外掛融合,通過檢索的方式實(shí)現(xiàn)融合。

9、知識(shí)圖譜用于大模型訓(xùn)練后階段:基于知識(shí)的生成結(jié)果干預(yù)

圖片

左上圖有一個(gè)比較好的例子,畫一個(gè)老婆餅,某AI會(huì)畫出一個(gè)老婆婆和餅,如果AI可以拿到老婆餅的比較好的描述,得到的效果會(huì)得到改善。

右上圖描述了融合自迭代的知識(shí)描述,為了做問答,在Question的基礎(chǔ)上結(jié)合知識(shí)圖譜生成比較好的description,然后再放進(jìn)去,可以比較好地解決一些問題。

左下圖描述了融合外部知識(shí)庫系統(tǒng),ChatGPT在數(shù)學(xué)計(jì)算方面,比如被提問芝加哥到東京到底有多遠(yuǎn)的時(shí)候,回答的可能并不精準(zhǔn),這時(shí)可以外掛一些工具,比如WolframAlpha能夠解決這些問題,兩者結(jié)合起來,可以更好的解決問題。第一種方式是LangChain的方式,直接引入插件干預(yù)它的結(jié)果;另一個(gè)是先讓W(xué)olframAlpha回答一遍,然后追加到ChatGPT的問題中得到結(jié)果,雖然這樣做會(huì)稍微有點(diǎn)繁瑣,需要先請(qǐng)求WolframAlpha再請(qǐng)求ChatGPT,在很多情況下,如果問題中有若干子問題的時(shí)候,可以逐步地去拆解成WolframAlpha,再把結(jié)果通過提示語發(fā)送到ChatGPT,通常會(huì)得到比較好的結(jié)果。

右下圖描述了融合外部搜索引擎,目前大模型普遍時(shí)效性不夠好,為了解決時(shí)效性問題,需要借助比較有實(shí)時(shí)性的工具,比如搜索引擎。搜索引擎可以調(diào)用索引的相關(guān)性,獲取top的結(jié)果,封裝到prompt中。另外,融合搜索引擎可以解決大模型結(jié)果不可信的問題,比如NewBing會(huì)通過"了解詳細(xì)信息"的來源來為大模型輸出的結(jié)果進(jìn)行增信,也便于用戶可以快速的進(jìn)行驗(yàn)證。不過,有的時(shí)候會(huì)發(fā)現(xiàn)NewBing和ChatGPT引用的鏈接很多都是空的、假的,所以后面還需要考慮如何提高生成鏈接的準(zhǔn)確性。

10、知識(shí)圖譜用于大模型訓(xùn)練后階段:外掛專業(yè)知識(shí)庫

圖片

最后介紹一下目前知識(shí)圖譜用在大模型訓(xùn)練后階段的外掛專業(yè)知識(shí)庫,目前在行業(yè)中是用的最多的,其主要流程是:加載文件->讀取文本->文本分割->文本向量化->問句向量化->在文本向量中匹配出與問句向量最相似的top k個(gè)->匹配出的文本作為上下文和問題一起添加到prompt中->提交給LLM生成回答。

目前的難點(diǎn),一個(gè)是在于如何拿到好的文本向量化模型,比如最近比較火的M3E、SimCSE、Text2vec等;另一個(gè)是讀取文本,如何比如說表格數(shù)據(jù)如何組織,例如用Latex的表示方式,各種富文本包括圖片的展示等等。

四、總結(jié)

最后總結(jié)一下大模型的未來發(fā)展方向。

圖片

大模型的未來發(fā)展發(fā)現(xiàn)主要有如下幾點(diǎn):

  • 大模型的應(yīng)用邊界還在不斷被探索,我們都尚處于懂與不懂之間,大家都在不斷地去探索它的機(jī)理。
  • 垂直領(lǐng)域微調(diào)模型是必然趨勢,低成本高效的注入領(lǐng)域知識(shí)很重要。
  • 大模型研發(fā)和落地核心是數(shù)據(jù)+場景+訓(xùn)練方法。數(shù)據(jù)做好了,算法的天花板才能高。
  • 知識(shí)圖譜在當(dāng)前場景下需要找準(zhǔn)自身的位置,融合共生。
  • 數(shù)據(jù)工程是大模型研發(fā)的重中之重,數(shù)據(jù)為王。

五、答疑

Q1:在數(shù)據(jù)收集的過程中,除了文本數(shù)據(jù)還會(huì)有表格數(shù)據(jù)或者圖片數(shù)據(jù),這些數(shù)據(jù)可以怎樣去收集處理?

A1:圖片數(shù)據(jù)涉及到多模態(tài)數(shù)據(jù)的處理,比如沒辦法把圖片數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),除非使用圖文的方式處理。

我更建議的方式,比如說解析一些研報(bào)的時(shí)候,會(huì)遇到一些文本穿插了一些圖片,這時(shí)我們可以用圖片的title替換掉圖片所在的位置,這樣就能一定程度保留圖片所在的信息或者表格所在的信息,也能保證整體語義連貫。另外一種,表格數(shù)據(jù)最重要的是如何拿到表格的數(shù)據(jù),比如用PP-Structure等方式把表格先解析出來,然后用 Latex 重新組織表格數(shù)據(jù)。

最需要考慮的是不同模態(tài)、不同格式的數(shù)據(jù)需要保證原有的格式,不錯(cuò)亂。

Q2:在工業(yè)界關(guān)于解決大模型的幻覺有哪些實(shí)際可操作的業(yè)界經(jīng)驗(yàn)?

A2:幻覺的根本原因是:第一、聽不懂指令;第二、聽得懂指令,但是不會(huì)。我們分別解決這兩個(gè)問題。

怎么讓大模型聽懂指令需要我們做 SFT增強(qiáng),讓大模型可以理解復(fù)雜指令,或者是理解那樣一個(gè)指令,這是在SFT階段,數(shù)據(jù)端要做的事情。

大模型不會(huì)的問題就需要注入,注入的方式有很多種,包括我們前面提到的CaMa的路線,我們可以基于Pretrain實(shí)現(xiàn)知識(shí)注入。還可以在 SFT 階段做Pretrain,雖然有種觀點(diǎn)是 SFT 學(xué)的是范式不是知識(shí),但SFT也是能夠?qū)W到一些知識(shí)的。

如果這上面的增強(qiáng)還不夠,或者是某個(gè)領(lǐng)域的數(shù)據(jù)在Pretrain階段注入不進(jìn)去,可以考慮使用LangChain的外掛知識(shí)庫方式。外掛核心在于怎么構(gòu)造更好訓(xùn)練數(shù)據(jù)以得到更好的向量化方案,優(yōu)化embedding,通過向量檢索得到比較好的相關(guān)性文本后,拼接到Prompt中。這里也可以使用知識(shí)圖譜,用鏈接的方式把子圖召回出來,目前也有很多的開源方案可以參考。

国产亚洲AV综合人人澡精品 精品欧美小视频在线观看 国产色婷婷免费视频在线观看 欧美激情免费观看一区 欧美人成视频在线播放亅6 日本在线免费看片 久久亚洲国产高清观看 久久精品资源 国产欧美另类精品久久久 九九精品99 免费一级特黄在线观看 亚洲欧洲美洲无码精品va 亚洲中文无码男人的天堂 成熟交BGMBGMBGM图片 爱爱视频中文网站 在线永久观看国产精品电影 亚洲无码在线免费视频 夜色福利站WWW国产在线视频 亚洲一区二区三区精品久久久 人人妻人人爽人人欧美一区 ai亚洲嫩模喷白浆在线观看 国产成人av一区二区三区在线 亚洲色欲久久久久综合网百度 国产又色又爽又刺激在线观看 苍井空浴缸大战猛男120分钟 亚洲国产乱 国产美女精品视频线播放 香蕉视频黄色在线观看 亚洲无线码高清在?码久久2017 91精品久久人妻无码 日本α片无遮挡在线观看 欧美亚洲国产人成 香蕉国产片一级一级一级一级 久久婷综合五月天啪网夜夜春亚洲嫩草影院 新区乱码无人区二精东 天天综合合网91免费在线看 日韩精品一区视频在线观看 欧美XXXX黑人又粗又长精品 男女爽爽无遮拦午夜视频 亚洲日本一区二区三区在线不卡 黄污网站在线免费观看 亚洲成av人片天堂网 动漫卡通精品3d一区二区 黄色网站无遮挡 蜜桃视频在线观看免费视频网站www 欧美日韩在线视频一区 亚洲一区二区三区日韩精品 午夜精品久久无码电影 中出内射在线观看 2021年国产精品视频 A在线视频播放免费视频完整版 无码免费一区二区三区 亚洲成av人片天堂网九九 国产东北三老头伦一肥婆 亚洲国产精品成人精品小说 大师兄影视电影网 久久久久久一区国产精品最新章节 在线播放av一区二区三区 亚洲一级av在线试看 最新国产精品亚洲 91色偷偷综合久久噜噜 无法合拢的皇帝 色东京热男人的天堂 国产a一级**片午夜剧场14 色av综合av综合无码网站 一本到国产在线精品国内 中文字幕一区二区久久人妻网站 国产精品动漫自慰一二三区 无码人妻丰满熟妇区毛片18 2021最新国产成人精品免费 无码视频免费一区二三区 亚洲免费观看三级片 国产农村妇女毛片精品久久 公天天吃我奶躁我的在线观看 污污内射在线观看一区二区少妇 两座雪白玉峰弹跳而出 日韩欧美国产精品成人 国产精品k频道在线播放ou 在线无码18禁 国产精品亚洲日韩AⅤ在线 国产精品晓可耐在线观看 国产成人免费A在线电影 久久久久久久久无码精品亚洲日韩 精品国语任你躁在线播放 国产普通话对白 亚洲综合一区二区三区四 熟女超碰熟女久久熟女伊人夜夜嗨 欧美激情综合五月色丁香 亚洲第一无码精品一区 久久综合狠狠爱综合网 日韩电影视频在线观看 黄色视频污网站 亚洲一区二区三区高清精油按摩 一区二区动漫漫画中文字幕 内射无套内射国产精品视频 中文字幕久久国产精品 国产免费久久久久久无码 精品国产一区二区三区无码a 蜜桃一区二区三区 jizz一日本日韩片 亚洲欧美日韩国产原创在线观看蜜 天堂成av午夜电影 一本大道久久精品调教 最近中文字幕完整国语 中文字幕久久精品无码不卡 久久精品国产91久久综合 91精品国产综合久久婷婷香蕉 尤物成人影院yw193在线观看 国产精品亚洲АV无码播放 国产熟睡乱子伦午夜视频 草莓视频APP无限观看 亚洲av无码之国产精品小说 伊人久久精品亚洲午夜 日本在线高清免费爱做网站 国产大片黄在线观看 男人和女人一级黄色大片 波多野百合在线播放一区 欧美日本成人动漫va精品在线 天堂AⅤ大芭蕉伊人AV 国产色播日本一区午夜爱爱 884hutv四虎永久黄网 XXXX性BBBB欧美 国产午夜福利大片 国产九九99久久99大香伊 久久精品韩国AV电影 亚洲电影+有码+中文字幕 扒开双腿猛进入喷水高潮叫声 2020久久精品亚洲热综合 手机看片福利永久国产日韩 久久久久久久亚洲Av无码 国产精品久久久一区二区三区 欧美成人国产高清视频 亚洲国产黄在线观看 久久久久久国产a免费观看黄色大片 亚洲AV永久青草无码精品 亚洲精品国产精品精 夜夜夜夜夜国产区 国产高潮刺激叫喊视频 色噜噜亚洲精品中文字幕 中文在线√天堂 国产精品国产国产av 国产超级乱淫视频播放免费 宝贝扒开下面自慰给我看 国产一级A爱做片免费91 疯狂三人交性欧美 久久久精品中文字幕综合 九九久久久 日韩无砖av专区一区 亚洲一级二级视频 亚洲熟妇久久国内精品 亚洲中文无码男人的天堂 亚洲.欧美.在线视频 各种少妇正面着bbw撒尿视频 麻豆av无码精品一区二 亚洲色欲综合一区二区三区小说 厨房后面按住岳的大屁股 国产一区在线观看免费 亚洲中文字幕无码久久2017 少妇厨房愉情理伦片免费 亚洲综合国产成人丁香五月激情 人妻日韩欧美综合制服 日韩内射少妇视频播放网站 国产精品一区二区av麻豆 人妻尝试又大又粗久久 伊人久久大香线蕉成人综合网 性色AV一区二区三 99ri在线精品视频在线播放 在线观看黄页网站免费 在线精品不卡中文字幕人妻 欧美日韩大片在线观看 国产精品后入国产一在线精品一区在线观看 在线观看久草视频 久久777国产线看观看精品 挺进邻居人妻雪白的身体 国产午夜精品理论片无删减 国产成人亚洲综合97 欧美人与动牲交A欧美 夜夜爱成人免费网站 亚洲无码精品在线观看 亚洲无码色图照片视频 免费国产乱码一二三区 日本边添边摸边做边爱 日韩午夜精品无码区 亚洲永久字幕精品免费文字 秘书边打电话边被躁bd视频 亚洲无码不卡永久免费 少妇人妻偷人精品无码视频 日韩爆乳一区二区无码 亚洲理论片一区二区三区 手机日韩精品视频在线看网站 色综合色狠狠天天综合网 久久综合噜噜激激的五月天 精品人妻久久久久久888 性饥渴美国女兵理论片 欧美Ⅴs日韩Ⅴs国产在线观看 国99久9在线视频播放免费 国内大量揄拍人妻精品視頻 久久久久琪琪去精品色无码 久久中文精品无码中 97在线免费视频 人人人爽人人爽人人看人人玩 欧美精品国产一区二区 丰满爆乳bbwbbwbbw 国产A级毛片久久久久久 无码少妇一区二区三区浪潮av 久久久久中文 黑人男女粗大猛烈进出视频 久久精品久久久久 亚洲一区二区av在线 午夜精品久久久 色婷婷久久综合中文久久一本 维修工人的绝遇中文字 青青草视频播放 一级无码毛片在线免费 日韩欧洲在线高清一区 国产精品国产三级欧美二区 狠狠躁天天躁中文字幕天码 国产永久免费高清动作片www 欧美猛男激大陆精大陆国产国语精品 日本熟妇xxxx乱 日韩少妇色精品无码免费视频 国产大片在线观看网址 精品人妻少妇一区二区三区 美女脱了内裤张开腿让男人桶网站 对白精彩刺激在线播放 中文字幕高清综合免费观看的影视 www久久久不卡国产精品一区二区 国产三级视频在线观看线播放 国产freesexvideos中国麻豆 国产丝袜拍偷超清在线 欧美一区二区三区精品国产 中文字幕成人免费高清在线 国产一级电影在线播放 亚洲免费三区 国产日韩3在线观看 免费以及久久亚洲AⅤ 中文字幕在线亚洲日韩6页 国产v片在线观看 久久精品性色生活片 亚洲国产精品无码久久久动漫 狼人色精品视频给你 精品老司机在线视频香蕉 国产区视频在线观看 欧美日韩亚洲精品瑜伽裤 夜夜夜夜夜 国产区 久久91精品国产91久 亚洲欧美一区二区不卡精品 2020国产精品无码网址 无毒中文字幕无码高清 十八禁无遮拦黄视频欧美 国产精品无码久久一区二区三区 玖玖资源站最新地址7 国产精品自在线拍国产 欧美日韩乱国产综合 日韩国产欧美亚洲精品一二三区 在线免费观看观看AV 香蕉视频H在线观看 麻豆精品国产片在线观看 国产成人精品视频网站 无码乱肉视频免费大全合集 欧美性色xo影院38 国产高欧美性情一线在线 久久国产亚洲AV无码麻豆 成人国产精品一区二区网站公 国产精品亚洲五月天高清 又黄又爽无遮挡撒尿的网站 中文字幕人成乱码熟女 中文字幕无码日韩专区免费 亚洲日本三级最新在线不卡 亚洲AV久无精品一区二区国产 成人午夜无码一级在线播放 免费无码又爽又刺激蜜桃AV 九色精品在线 久久中文精品无码中文字幕下载 国产粉嫩嫩00在线正在播放蜜臀 麻豆国产免费看片在线播放 中文字幕极速一区二区 国产精品久久久无码一区av 双腿张开被9个黑人调教影片 五十六十日本老熟妇乱 亚洲精品高清国产一线久久 国产精品久久久无码一区不卡 草莓app在线观看 思思久久精品一本到99热 精品欧美体内she精2娇小 99久久精品国产综合男同 四虎影视国产精品久久 国内一级一级毛片a免费 久久99精品国产自在现线小黄鸭 中文永久字幕 51xx午夜影视福利 亚洲大片AV一区二区三区 久久99国产乱子伦精品免费 软萌小仙自慰喷白浆 国产成人无码AA精品一区 国产亚洲一卡2卡3卡4卡 国产午夜精品免费一区二区三区视频 国产精品无码无卡在线播放 好爽毛片一区二区三区四无码 亚洲一区二区三区无码色欲 亚洲爆乳无码精品AAA片蜜桃 久久精品这里只有精99品 HD老熟女BBn老淑女 久久天天躁狠狠躁狠狠躁 永久在线观看免费视频 超清首页国产亚洲丝袜 国产成人毛片在线视频 日本不卡视频一区二区三区 免费午夜一级高清免费看 无遮挡1000部拍拍拍欧美劲爆 国产中文在线亚洲精品 四虎三级AV 亚洲无码高清在线免费观看 色偷偷色噜噜狠狠成人免费视频 亚洲手机无码在线电影五月网 久久天堂综合亚洲伊人HD妓女 永久A电影三级在线观看 亚洲日韩国产二区无码 免费+无码+国产在线观看 亚洲一区二区三区国产精品 在线观看亚洲欧美不卡视频 国产精品国产三级在线 日韩精品无码专区免费播放 91精品国产福利在线观看 一区二区三区在线无码观看 国产超级乱淫视频播放免费 亚洲无码免费视频国产 少妇被黑人到高出白浆 久久久无码精品亚洲日韩按摩不卡 999zyz玖玖资源站最新 成人免费看片 国产av福利第一精品 人妻少妇中文字幕久久 国产成人av在线播放不卡 久热国产手机免费视频 久久天堂影院 午夜美女福利视频 日本黄大片在线观看 无码久久精品国产AV影片 亚洲无码一级大片 五月激情综合网 久久精品国产亚洲av电影网 人伦片无码中文字幕 国产日韩精品无码区免费专区国产 国内精品久久九九国产精品 极品无码色欲护士高潮喷水 日韩亚洲欧美国产精品 福建餐饮人才网 久久久久国产精品免费看 天天干天天干天天天天天天爽 夜夜高潮夜夜爽夜夜爱爱 亚洲无码三级在线 9久9久女女热精品视频免费 色噜噜亚洲精品中文字幕 国产一区在线看无广告 国产精品自在线拍国产 青丝影院免费观看电视剧高清 秋霞无码一区二区 久久久久久中文字幕2020 国产一区二区三区乱码 亚洲中文一本无码AV在线无码 日韩三级精品 一级AV在线免费观看 免费无码一区二区三区 午夜噜噜噜私人影院在线播放 人妻18毛片A级毛片免费看 今夜无人入睡在线观看高清 国产精品TV在线麻豆 91人妻无码精品蜜桃 亚洲日韩欧美在线观看一区二区 一区无码在线观看 毛片四区免费看 无码人妻丰满熟妇啪啪7774 色欲久久久中文字幕综合 七仙女欲春寡肉体完整版 人妻 丝袜美腿 中文字幕 欧美一区二区三区性 永久A电影三级在线观看 日本福利片秋霞国产午夜 精品国产一级毛片大全 菠萝蜜视频在线观看免费 日本在线视频一区二区 蜜月Aⅴ毛片免费看 美女极度色诱视频国产舒心 热这里只有精品国产99 潮喷失禁大喷水aⅴ无码 亚洲永久精品一二三四 国产国产精品人在线视 亚洲不卡无码永久在线观看 日韩无码一区二区三区综合精品久久无码 国产情侣真实露脸在线 高清性猛交XXX黑人猛交 国产精品无码一区视频 无码中文字幕热热久久 国产精品人人爽人人爽AV 中文无码一区二区三区不卡 国产91香蕉在线精品 国产91国色一区二区三区 亚洲αV永久无码精品网址 91国在线视频 色欲AV无码国产精品麻豆 一区免费在线观看 91久久久99久久91熟女 亚洲午夜人成在线 精品国产免费一区二区 色妺妺在线视频 国产精品九九久久免费视频 久久亚州中文字幕无码毛片 九九精品在线观看 在线观看国产成人av片 欧美日韩国产一区二区三区 日出水了特别黄的视频 日本高清视频WWWW色 久久精品无码日韩国产不卡 边做饭边被躁欧美三级 波多野吉衣无码啪啪1000免费 强插女教师av在线 国产一区二区精品久久小说 五月天精品视频在线观看 亚洲AV无码久久精品狠狠爱浪潮 久久久久成人精品无码中文字幕 看毛片免费的网站 一级无遮挡真人毛片黄视频 免费在线播放片中文字幕后 在线看片z无码人成免费 91k国产在线观看尤物 国产精品免费久久久久久影院 欧美激情在线第五页 2O12国内精品久久久久精免费 粉嫩小仙女扒开双腿自慰 九九久久香港经典三级精品 日韩精品人妻一区二区三区 天天躁日日躁狠狠很躁 亚洲Av成人无码久久精品老人 99re热久久亚洲综合精品动漫 国产噜噜在线视频观看 国产日韩高清中文无码av JIZZ成熟少妇 国产精自产拍久久久久久蜜 真实小呦网站导航 激情小视频欧美国产 国产剧情AV麻豆香蕉精品 久久精品资源 国产中文高清三级 国产高清视频a在线观看 日本伦奷在线播放 久久国产三级片电影视频 久久性色AV免费精品观看 2021av片在线免费观看 亚洲综合无码一级片无码的 亚洲中文字幕无码久久2019 精品 夜福利利国产精品无码 人人人澡人人肉人人妻 欧美国产日韩制服久久黑丝 大桥久未无码吹潮在线观看 亚洲AV无国产日韩AV在线播放 中国孕妇变态孕交XXXX 国产成年人免費黄色視頻 国产精品亚洲A∨天堂2018 国产一区精品无码 少妇无码一区二区三区 中文字幕人妻伦伦 99在线精品免费视频九九视 久久亚洲精品成人av 国产又粗又猛又爽又黄的视频免费黑人了 国产福利在线观看一区二区三区 怡春院院日本一区二区久久 最新av中文字在线观看 羞羞视频APP在线看黄 2020亚洲中文字幕久在线 日本免费人成视频播放 亚洲一区在线视频播放 一级片男人的天堂 欧美日韩在线卡一卡二 亚洲1无码精品色 亚洲成成熟女人专区 一本色道无码不卡在线观看 色老汉亚洲AV影院天天精品 无码专区AV电影 亚洲av不卡无码国产 无码人妻丰满熟妇啪啪网站 亚洲AV无码专区国产精品色欲 91精品手机国产在线观 波多野结衣办公室双飞 手机看片1024欧美 国产精品好硬好爽免费视频 亚洲综合无码精品视频 狠狠搞狠狠干 黃片小视频免费 中文字幕永久在线网站 亚洲中文久久久久国产精品 成人午夜视频免费观看 免费靠逼视频软件 国产成人91激情在线播放 男人添女人下面免费播放电影 а√最新版在线天堂 国产真实交换配乱婬视频 国产在线一区视频 精品国偷自产在线不卡视频 精品国产黄片在线看 丁香花高清在线观看完整版
鄂伦春自治旗| 哈尔滨市| 江口县| 司法| 靖州| 荥阳市| 务川| 屯留县| 周宁县| 凤凰县| 炉霍县| 阜新| 贵南县| 廊坊市| 西乌珠穆沁旗| 隆德县| 延安市| 安岳县| 沂源县| 乌兰察布市| 隆回县| 安达市| 顺义区| 射洪县| 余江县| 科技| 习水县| 博兴县| 星座| 南康市| 察隅县| 石台县| 宾川县| 福建省| 马山县| 星座| 巴彦淖尔市| 米林县| 海晏县| 无为县| 宾阳县|