LLM最喜歡的隨機(jī)數(shù)是什么?
計算機(jī)程序中,「隨機(jī)」是一個常見的概念。
由于生成真正的隨機(jī)數(shù)過于昂貴,所以Python、Java等語言都內(nèi)置了「偽隨機(jī)數(shù)生成算法」。雖然生成的數(shù)字序列是完全可預(yù)測的,但它看起來就像是真正的隨機(jī)數(shù)。
一個好的隨機(jī)數(shù)生成器會以相等的概率選擇給定范圍內(nèi)的所有數(shù)字。這和人類選擇隨機(jī)數(shù)的思維過程完全不同。
比如,我們會故意避開5和10的倍數(shù),也不會選擇66和99這樣重復(fù)的數(shù)字,而且?guī)缀鯊牟贿x擇0、1和100,因?yàn)樗鼈兛雌饋怼覆粔螂S機(jī)」。
最近,一群工程師突發(fā)奇想:LLM會怎樣輸出隨機(jī)數(shù)?
于是他們做了一個非正式的實(shí)驗(yàn),讓GPT-3.5 Turbo、Claude 3 Haiku和Gemini 1.0 Pro三個模型從0-100中選擇隨機(jī)數(shù),并將實(shí)驗(yàn)結(jié)果和源代碼都公布了出來。
總體而言,他們的發(fā)現(xiàn)是:即使是在生成隨機(jī)數(shù)這種瑣碎的數(shù)理任務(wù)上,LLM還是學(xué)習(xí)到了人類的偏好和思維習(xí)慣。
模型的這種「類人」行為讓工程師和科技媒體都非常吃驚。他們在標(biāo)題中都使用了「最喜歡的數(shù)」這種描述,仿佛LLM真的發(fā)展出了自我意識。
甚至文章的最后,實(shí)驗(yàn)者呼吁「LLM心理學(xué)」的研究來解釋一下模型在試驗(yàn)中體現(xiàn)出的行為偏好。
那么就詳細(xì)看看,實(shí)驗(yàn)的結(jié)果究竟如何?
LLM的數(shù)字喜好
由于LLM的溫度設(shè)置會影響輸出的隨機(jī)性,因此3個模型的溫度被調(diào)到0.0,0.1,···,0.9,1.0這10個值分別進(jìn)行實(shí)驗(yàn)。
雖然溫度升高會不斷拉平各個數(shù)的出現(xiàn)頻率,但即使設(shè)為1.0時,LLM還是表現(xiàn)出了和溫度最低時相同的偏好。
GPT在去年10月的實(shí)驗(yàn)中最喜歡42,但今年它「見異思遷」,變成了最喜歡47。
而Claude和去年的GPT一樣,最喜歡42。實(shí)驗(yàn)者們猜測,或許是因?yàn)锳nthropic使用了GPT-3.5來訓(xùn)練Claude 3 Haiku,因此培養(yǎng)出了相似的「品味」。
Gemini最喜歡的是72(這個數(shù)有什么特別的嗎?)
將3個模型的所有輸出放在一起,可以看到其中幾個數(shù)有非常明顯的領(lǐng)先優(yōu)勢,也可以很好地反映人類的偏好。
42是第二受歡迎的數(shù),因?yàn)轱L(fēng)靡世界的《銀河系漫游指南》讓這個數(shù)有了特別的含義。
37、47、57、67、77等以7結(jié)尾的數(shù)都很受歡迎,在人類眼里這些數(shù)也會顯得更「隨機(jī)」。
有重復(fù)數(shù)字的數(shù)、小于10的數(shù),以及5或10的倍數(shù)都很少見。
但也有一些行為很難解釋,比如56和73這兩個數(shù)得到了3個模型的一致青睞。
AI越來越像人類?
不僅僅是生成隨機(jī)數(shù),最近的很多研究發(fā)現(xiàn),LLM的思維和認(rèn)知似乎越來越向人類靠近。
南加州大學(xué)最近一篇的論文發(fā)現(xiàn),要引導(dǎo)LLM產(chǎn)生意識形態(tài)傾向,是一件非常簡單的事情。
論文作者表示,LLM的訓(xùn)練數(shù)據(jù)有政治偏見已經(jīng)不算新鮮事了。他們的研究僅僅讓模型在微調(diào)過程中接觸100條數(shù)據(jù),就可以注入新的偏見,并改變模型的行為。
而且,ChatGPT似乎比Llama更容易受到偏見的操控和影響。
這篇論文在ICLR的「安全可信的大型語言模型」研討會上獲得最佳論文獎亞軍。
另一篇NAAC今年接收的論文則研究了LLM Agent的社交互動,卻得出了幾乎相反的結(jié)論。
他們發(fā)現(xiàn),在默認(rèn)情況下,LLM并不會很像人類。但如果明確誘發(fā)人類的認(rèn)知偏見,情況就發(fā)生變化了。
首先,他們構(gòu)建了10個有不同初始觀點(diǎn)的LLM Agent,有些被定義為氣候活動家,有些被初始化為否定氣候變化的存在。
這些Agent被放在同一個社交網(wǎng)絡(luò)中,并參與100次二元交互——寫推文,并閱讀其他人的推文。
經(jīng)過了100次互動后,所有Agent的觀點(diǎn)都傾向于承認(rèn)氣候變化的存在。
即使有些Agent被初始化為氣候變化陰謀論的信徒,它們最終還是會傾向于否認(rèn)陰謀論。
為了排除訓(xùn)練數(shù)據(jù)的觀點(diǎn)對這些LLM的影響,論文又在更廣泛的話題上做了類似的實(shí)驗(yàn),包括科學(xué)、歷史和常識,但實(shí)驗(yàn)結(jié)果依舊保持一致——
LLM總是傾向于認(rèn)可真相、拒絕虛假信息。
這似乎說明,LLM有一種固定的對真相的偏好,并不像南加大論文中所表現(xiàn)的那樣,容易被操縱觀點(diǎn)。
此外,Agent之間的交互所引發(fā)的意見動態(tài)變化,和人類社會的實(shí)際情況也并不相像。
難道,我們真的需要「LLM心理學(xué)」,來解釋這些模型的行為?
- 上一篇
雙向賦能:AI與數(shù)據(jù)庫的修行之道
隨著技術(shù)的不斷進(jìn)步和生態(tài)合作的深化,未來數(shù)據(jù)庫將更加智能、靈活和強(qiáng)大,為數(shù)字經(jīng)濟(jì)的發(fā)展提供堅(jiān)實(shí)的基礎(chǔ)。英特爾與數(shù)據(jù)庫領(lǐng)域的合作伙伴將一起共同推動數(shù)據(jù)庫產(chǎn)業(yè)向智能化、高效化轉(zhuǎn)型,滿足客戶的業(yè)務(wù)創(chuàng)新需求。
- 下一篇
面向數(shù)據(jù)產(chǎn)品的十個技能
在構(gòu)建任何數(shù)據(jù)項(xiàng)目或者機(jī)器學(xué)習(xí)模型之前,仔細(xì)地坐下來并計劃需要完成的目標(biāo)任務(wù)是非常重要的。了解要解決的問題、數(shù)據(jù)集的性質(zhì)、要構(gòu)建的模型類型、模型將如何訓(xùn)練、測試和評估。