要理解語言模型,我們必須將“語言”與“思想”分開
本文是揭秘AI的一部分,該系列文章(試圖)消除圍繞AI的行話和神話的歧義。
隨著ChatGPT等高級(jí)模型的發(fā)布,圍繞大型語言模型(LLM)的討論變得更加兩極分化。爭論的范圍從法學(xué)碩士是“思維機(jī)器”到將記憶的文本拼接在一起的愚蠢程序。
德克薩斯大學(xué)奧斯汀分校和麻省理工學(xué)院(MIT)的研究人員認(rèn)為,為了消除混淆,我們需要一個(gè)不同的框架來考慮法學(xué)碩士。在一篇題為“在大型語言模型中分離語言和思想:認(rèn)知視角”的論文中,研究人員認(rèn)為,要了解LLM的力量和局限性,我們必須將“正式”語言能力與“功能”語言能力區(qū)分開來。
研究人員表示,法學(xué)碩士在前者方面取得了令人矚目的進(jìn)步,但在后者方面仍有很多工作要做。這種區(qū)別有助于澄清圍繞LLM的討論,并找到構(gòu)建“以類似人類的方式理解和使用語言”的模型的途徑。
關(guān)于語言模型的兩個(gè)常見謬誤
“與任何事情一樣,我認(rèn)為人們看待LLM的方式受到他們自己的背景、培訓(xùn)和經(jīng)驗(yàn)的影響,”該論文的合著者和UT奧斯汀的計(jì)算語言學(xué)家Kyle Mahowald告訴TechTalks。“令人興奮的是,LLM吸引了學(xué)術(shù)界眾多領(lǐng)域的興趣:不僅是NLP領(lǐng)域,還有語言學(xué)、神經(jīng)科學(xué)、哲學(xué)、人類學(xué)、社會(huì)學(xué)、政治學(xué)等。這自然導(dǎo)致了對(duì)LLM及其觀點(diǎn)的多樣化能力。當(dāng)然,對(duì)我們來說也是如此。這就是為什么我們將‘認(rèn)知視角’放在論文標(biāo)題中的部分原因。”
在論文中,研究人員探討了與語言和思維相關(guān)的兩種常見謬誤。第一種說法是擅長語言的實(shí)體也善于思考,科學(xué)家將其描述為“善于語言->善于思考”的謬論。這種謬誤導(dǎo)致了這樣一種論點(diǎn),即大型語言模型是邁向“思維機(jī)器”和通用人工智能(AGI)的一步。
第二個(gè)謬誤,稱為“不擅長思考->不擅長語言”,表明如果一個(gè)語言模型不能完全捕捉人類思想的豐富性和復(fù)雜性,那么它就不是一個(gè)好的人類語言模型。
這種思路的特點(diǎn)是不斷批評(píng)語言模型的常識(shí)推理能力差,缺乏一致的、可概括的世界知識(shí)。
“這兩個(gè)謬誤實(shí)際上源于同一個(gè)誤解:將語言和思想等同起來,”該論文的合著者、麻省理工學(xué)院博士后研究員Anna Ivanova告訴TechTalks。“這是一個(gè)自然而然會(huì)犯的錯(cuò)誤的一個(gè)原因是,在現(xiàn)實(shí)生活中,我們無法了解另一個(gè)人的想法。如果我們想知道某人的思考能力如何,通常我們能做的最好的事情就是問他們一個(gè)問題,然后聽聽他們的回答。”
該論文建議,如果我們區(qū)分形式語言能力和功能語言能力,就可以避免這些謬誤。
法學(xué)碩士和正式語言能力
形式語言學(xué)包括產(chǎn)生和理解給定語言所需的能力。它包括語言規(guī)則以及無法通過規(guī)則捕獲的統(tǒng)計(jì)規(guī)律。
transformer架構(gòu)是當(dāng)今LLM的基礎(chǔ),已被證明是對(duì)正式語言能力進(jìn)行建模的非常好的工具。Transformer使用多層神經(jīng)元、注意機(jī)制和并行處理來執(zhí)行非常準(zhǔn)確的“下一個(gè)詞”預(yù)測(cè)。
給定足夠的訓(xùn)練數(shù)據(jù),大型轉(zhuǎn)換器模型可以生成具有一致語言特征的長文本序列。例如,LLM可以執(zhí)行遠(yuǎn)距離數(shù)字一致(盡管在有嵌套句子時(shí)它們?nèi)匀贿_(dá)不到人類的表現(xiàn))。他們還擅長處理主謂一致、wh-問題以及過去的方法通常失敗的語言學(xué)的其他方面。
研究人員寫道:“盡管改變目標(biāo)并專注于這些模型仍然無法做到的事情很誘人……我們認(rèn)為不應(yīng)忽視法學(xué)碩士捕捉各種語言現(xiàn)象能力的顯著進(jìn)步。”
“在我們看來,法學(xué)碩士在我們所謂的‘正式語言能力’方面有多么令人印象深刻,這似乎還沒有得到充分的認(rèn)可,”Mahowald說。“他們可以說出非常流利的語言,正確處理許多非常復(fù)雜的語言結(jié)構(gòu)。這不是什么!
同時(shí),它們突出了形式語言學(xué)在大型語言模型中的局限性。例如,LLM可以在不學(xué)習(xí)相關(guān)語言信息(例如層次結(jié)構(gòu)和抽象語法類別)的情況下在基準(zhǔn)測(cè)試中取得良好的性能。換句話說,“這些模型可能‘因?yàn)殄e(cuò)誤的原因而正確’,并利用輸入中的某些未被測(cè)試的特征,”研究人員寫道。
大型語言模型還需要不切實(shí)際的數(shù)據(jù)量才能實(shí)現(xiàn)接近人類的性能。研究人員指出,人類語言學(xué)習(xí)者“可能依賴于預(yù)先存在的偏見,以便從稀疏和嘈雜的輸入中快速學(xué)習(xí)——當(dāng)今最先進(jìn)的模型所缺乏的偏見。”一個(gè)有趣的研究方向是可以幫助LLM更快地學(xué)習(xí)并使用更少數(shù)據(jù)的歸納偏差,以及可以捕獲這些偏差的架構(gòu)。
法學(xué)碩士和功能語言能力
功能語言學(xué)是關(guān)于使用語言在世界上做事。我們使用語言來發(fā)送和接收關(guān)于我們的感知和認(rèn)知系統(tǒng)的信息,例如我們的感官和記憶。這些能力不同于正式的語言能力。我們使用語言來執(zhí)行社交技能和解決現(xiàn)實(shí)世界的問題。正如科學(xué)家們?cè)谒麄兊恼撐闹兴鶎懙哪菢樱?ldquo;一個(gè)孤立的正式語言系統(tǒng)對(duì)語言使用者來說是無用的,除非它可以與其余的感知、認(rèn)知和行動(dòng)相結(jié)合。”
用于訓(xùn)練LLM的大型文本語料庫包含大量非語言信息。這就是為什么語言模型在某些評(píng)估邏輯和推理能力的基準(zhǔn)測(cè)試中表現(xiàn)出令人印象深刻的表現(xiàn)?;旧希绻粋€(gè)場景足夠普遍,LLM就可以成功。但是,如果在需要仔細(xì)推理和規(guī)劃的任務(wù)上稍加推動(dòng),語言模型就會(huì)開始崩潰。
為什么這很重要?“沒有非語言認(rèn)知技能,現(xiàn)實(shí)生活中的語言使用是不可能的。理解句子、推理其含義并決定說什么——這些技能都依賴于遠(yuǎn)遠(yuǎn)超出詞匯語義或句法的認(rèn)知能力,”研究人員警告說。
本文討論了功能語言學(xué)的四個(gè)關(guān)鍵領(lǐng)域,包括形式推理、世界知識(shí)、情境建模和社會(huì)推理。在所有情況下,LLM都顯示出一定程度的表面能力,可以通過學(xué)習(xí)統(tǒng)計(jì)規(guī)律來獲得。但他們?nèi)狈κ顾麄兡軌蚴冀K如一地執(zhí)行任務(wù)的基礎(chǔ)知識(shí)。
研究人員寫道:“掌握了人類語言的許多句法和分布特性的模型仍然無法以類似人類的方式使用語言。”“換句話說,他們的功能語言能力仍處于起步階段。”
“我們感覺到有些人認(rèn)為這種語言上的成功意味著法學(xué)碩士正在敲開通用人工智能的大門,”Mahowald說。“利用認(rèn)知科學(xué)和認(rèn)知神經(jīng)科學(xué),我們認(rèn)為人類認(rèn)知不僅僅是流利的語言——即使承認(rèn)流利的語言是一攬子計(jì)劃的一部分。”
“關(guān)注LLM在掌握語言規(guī)則和模式方面取得成功的人會(huì)立即得出結(jié)論,這些模型正在學(xué)習(xí)思考,”Ivanova說。“關(guān)注LLM在語言使用方面失敗的人完全忽視了他們,忽視了他們?cè)趯W(xué)習(xí)規(guī)則和模式方面的成功。”
分離語言和思想
研究人員認(rèn)為,來自認(rèn)知科學(xué)和神經(jīng)科學(xué)的證據(jù)表明,人類的語言和思想是強(qiáng)烈分離的。
例如,失去語言能力的人仍然保持著認(rèn)知能力,例如下棋、作曲和解決算術(shù)問題。核磁共振掃描顯示,大腦的語言網(wǎng)絡(luò)在人們聽、讀或造句時(shí)非?;钴S,但在進(jìn)行算術(shù)、邏輯推理、編寫程序等時(shí)則不然。
“專門處理語言的機(jī)器與負(fù)責(zé)記憶、推理和社交技能的機(jī)器是分開的,”研究人員寫道。
因此,作者建議,如果我們基于形式語言學(xué)和功能語言學(xué)的分離來進(jìn)行LLM研究,我們就可以解決該領(lǐng)域當(dāng)今面臨的一些挑戰(zhàn)。他們提供了一些建議來指導(dǎo)LLM研究的未來。
一種解決方案是引入模塊化,將核心語言與認(rèn)知技能分開。模塊化可以通過組合為不同功能設(shè)計(jì)的組件的架構(gòu)來實(shí)現(xiàn)。它也可以是緊急的,其中底層轉(zhuǎn)換器模型的設(shè)計(jì)方式允許單獨(dú)的、專門的模塊在訓(xùn)練期間自行開發(fā)。研究人員寫道:“無論是內(nèi)置的還是誘導(dǎo)出現(xiàn)的,模塊化都可以引導(dǎo)模型反映人腦的功能組織,從而使它們的行為更加人性化。”
第二種解決方案是超越在網(wǎng)絡(luò)上精選的大型通用文本語料庫上訓(xùn)練LLM。作者建議為不同的任務(wù)開發(fā)專門的數(shù)據(jù)集,使用反映人類認(rèn)知能力的模塊化架構(gòu),并在不同的目標(biāo)函數(shù)上訓(xùn)練模型。一個(gè)有前途的方向是從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF),這是一種用于訓(xùn)練ChatGPT的技術(shù)。
最后,作者討論了評(píng)估正式和功能語言能力的不同基準(zhǔn)的必要性。
“明確識(shí)別語言使用所需的不同能力是第一步;建立基準(zhǔn)和有針對(duì)性的測(cè)試來評(píng)估這些能力是第2步;在測(cè)試發(fā)現(xiàn)有問題的區(qū)域改進(jìn)模型是第3步,”Ivanova說。
Mahowald還對(duì)該領(lǐng)域的透明度下降表示擔(dān)憂。隨著初創(chuàng)公司和大型科技公司爭奪更大的LLM市場份額,他們?cè)絹碓讲辉敢鈱⒆约旱难芯砍晒峁┙o其他人。
“我真正關(guān)心的是理解人類語言和認(rèn)知,我認(rèn)為LLM是一個(gè)非常令人興奮的工具,因?yàn)樗鼈冏屛覀兡軌蚍治鲆粋€(gè)具有真正有趣功能的系統(tǒng),”他說。“因此,我希望仍然有使用LLM進(jìn)行科學(xué)探究的地方。如果他們變得越來越封閉和私有化(正如我們所看到的),那么這種公開調(diào)查可能就不可能了。因此,我對(duì)為學(xué)術(shù)研究構(gòu)建LLM的開源努力感到興奮和充滿希望。”
- 上一篇
AI算法發(fā)現(xiàn)種新納米結(jié)構(gòu),研究時(shí)間從1個(gè)月壓縮到6小時(shí)
實(shí)驗(yàn)來自美國能源部(DOE)布魯克黑文國家實(shí)驗(yàn)室,研究人員用AI驅(qū)動(dòng)的技術(shù),發(fā)現(xiàn)了3種新的納米結(jié)構(gòu)。
- 下一篇
人工智能成熟之路——2023 LXT報(bào)告
如今,創(chuàng)新驅(qū)動(dòng)型企業(yè)正在人工智能 (AI) 系統(tǒng)中投入大量資源,以推進(jìn)其 AI 成熟度之旅。據(jù)IDC稱,到 2026 年,全球在以 AI 為中心的系統(tǒng)上的支出預(yù)計(jì)將超過 3000 億美元,而 2022 年為 1180 億美元。