“開放域”聊天機(jī)器人有多開放,我們真的需要它們嗎?
人們對(duì)開放域聊天機(jī)器人越來越感興趣,這些聊天機(jī)器人旨在與人類就任何主題、任務(wù)或領(lǐng)域進(jìn)行交流。這種興趣得到了娛樂行業(yè)中的虛構(gòu)人物和系統(tǒng)(例如電影“她”)的支持,以及大型科技公司研究實(shí)驗(yàn)室開發(fā)的聊天機(jī)器人(例如谷歌的LaMDA和臉書的Blender)受到的媒體關(guān)注。
“開放域”一詞表明這些聊天機(jī)器人可以就任何話題進(jìn)行交流,這被認(rèn)為比早期構(gòu)建特定任務(wù)系統(tǒng)的嘗試更具挑戰(zhàn)性。然而,“開放”的界限和評(píng)估這些對(duì)話的標(biāo)準(zhǔn)并沒有明確界定。
通常,人類測(cè)試人員會(huì)收到一個(gè)空提示,并要求“與系統(tǒng)聊天”。這是人類交流的一個(gè)非常不尋常的環(huán)境,因?yàn)槲覀儾粫?huì)隨意與任何人和任何地方談?wù)撊魏问虑椤O喾?,我們?huì)根據(jù)我們的對(duì)話伙伴和環(huán)境(例如,在工作或?qū)W校)在對(duì)話主題方面對(duì)我們的交流選擇更具選擇性。因此,構(gòu)建一個(gè)真正的“開放域”聊天機(jī)器人可能是不現(xiàn)實(shí)的,甚至沒有必要,因?yàn)槿伺c人之間的對(duì)話也不是那么“開放域”和隨機(jī)的。
在最近的一篇論文中,我們認(rèn)為“開放域”一詞可能不是很有用,并且當(dāng)前開放域聊天機(jī)器人的評(píng)估方式可能無法真正測(cè)試它們是否真的可以參與人類可以參與的所有各種形式的對(duì)話加入,參與。
當(dāng)我們作為人類進(jìn)行交流時(shí),我們假設(shè)某種形式的共同點(diǎn),也就是說,我們彼此之間有一些共同點(diǎn)。除了文化規(guī)范和(也許)共享經(jīng)驗(yàn)之外,我們假設(shè)的一件事是某種形式的聯(lián)合活動(dòng)或?qū)υ挼哪康?。即使我們?cè)诘裙财嚂r(shí)開始與陌生人交談,我們都知道這是我們所從事的活動(dòng)類型,這將指導(dǎo)我們?cè)谶@種情況下可能適合談?wù)撌裁?。?dāng)被要求與計(jì)算機(jī)“只是聊天”時(shí),我們可以假設(shè)沒有共同點(diǎn)或共同活動(dòng)。
對(duì)對(duì)話中的聯(lián)合活動(dòng)進(jìn)行分類的一種方法是Goldsmith&Baxter(1996)引入的“演講事件”的概念,他們?cè)趲字軆?nèi)記錄了學(xué)生的日常對(duì)話并確定了39個(gè)演講事件。這些可以大致分為非正式/膚淺的談話(例如,“閑聊”、“開玩笑”、“體育談話”、“八卦”、“結(jié)識(shí)某人”)、涉及談話(例如,“化妝”、“愛情談話”、“關(guān)系談話”、“抱怨”)和目標(biāo)導(dǎo)向談話(例如,“小組討論”、“說服談話”、“決策談話”、“審訊”、“請(qǐng)求幫助”).
當(dāng)被要求“只是聊天”時(shí),開放域聊天機(jī)器人的用戶實(shí)際上參與了什么樣的語音事件?為了回答這個(gè)問題,我們讓兩個(gè)注釋者根據(jù)他們的語音事件類別對(duì)公開可用的“開放域”谷歌Meena聊天機(jī)器人對(duì)話的隨機(jī)樣本進(jìn)行注釋。大多數(shù)對(duì)話(約88%)被證明是關(guān)于“閑聊”的語音類別,盡管人類測(cè)試人員被指示談?wù)撊魏卧掝}而沒有任何限制。
如前所述,雖然實(shí)際的閑聊也假定某種形式的共同點(diǎn),但鑒于有限的指示,這可能是最有可能發(fā)生的演講事件。如果這些是在這些評(píng)估中發(fā)生的唯一語音事件,我們?cè)趺粗浪鼈兪钦嬲?ldquo;開放域”?當(dāng)前的開放域聊天機(jī)器人能否參與其他語音活動(dòng)?
為了解決這個(gè)問題,我們使用臉書的Blender聊天機(jī)器人進(jìn)行了初步實(shí)驗(yàn)。(人類)測(cè)試人員根據(jù)上面列出的16個(gè)語音事件類別與聊天機(jī)器人進(jìn)行交互。為了設(shè)置類似的上下文,同一位測(cè)試人員還與另一個(gè)人就相同的主題進(jìn)行了聊天。兩個(gè)人(即測(cè)試者和對(duì)話者)事先并不認(rèn)識(shí)對(duì)方,也不知道對(duì)方的身份。
對(duì)產(chǎn)生的對(duì)話進(jìn)行了比較(人與人與人與系統(tǒng))并由第三方人類評(píng)委進(jìn)行評(píng)估。總體而言,評(píng)估人員在多項(xiàng)評(píng)估標(biāo)準(zhǔn)上對(duì)人際對(duì)話的評(píng)分較高,并解釋說人與人的對(duì)話比人與聊天機(jī)器人的對(duì)話更連貫,流動(dòng)性更好。這與描述臉書Blender的論文中提出的評(píng)估形成鮮明對(duì)比,在該論文中,評(píng)委們無法根據(jù)他們?cè)u(píng)估的方式(正如我們已經(jīng)見,引起閑聊對(duì)話)。因此,他們的評(píng)估真正表明的是,Blender聊天機(jī)器人相當(dāng)擅長(zhǎng)閑聊,但并不擅長(zhǎng)“開放域”對(duì)話。
自從我們?cè)?021年進(jìn)行研究以來,已經(jīng)出現(xiàn)了新的“開放域”聊天機(jī)器人,它們使用了更多參數(shù)并在更多數(shù)據(jù)上進(jìn)行了訓(xùn)練,例如谷歌的LaMDA。我們還沒有測(cè)試它們?cè)诙啻蟪潭壬峡梢蕴幚砥渌问降恼Z音事件,以及它們是否真的是“開放域”,但正如我們所展示的,目前的評(píng)估無法幫助回答這個(gè)問題。
一個(gè)可能更重要的問題是,“開放域”聊天機(jī)器人的想法對(duì)我們?nèi)祟悂碚f是否有意義。相反,我們或許應(yīng)該關(guān)注以有意義的方式存在于人類活動(dòng)中的對(duì)話系統(tǒng),并且用戶可以在其中假設(shè)某種形式的共同點(diǎn)和聯(lián)合活動(dòng)。
- 上一篇
數(shù)據(jù)隱私如何徹底改變大流行后的工作場(chǎng)所趨勢(shì)?
新冠疫情徹底改變了世界的做事方式。在大流行持續(xù)期間,人們忙于使事情變得更容易,以便他們能夠生存到新冠曲線變平?,F(xiàn)在,當(dāng)它結(jié)束時(shí),它徹底改變了我們的工作場(chǎng)所趨勢(shì)。在大流行
- 下一篇
聊天機(jī)器人改變客戶服務(wù)周期的10種方式
新時(shí)代的科技魅力,如聊天機(jī)器人,主要部署在客戶服務(wù)領(lǐng)域,它引入了一系列新功能來提升該行業(yè)的各個(gè)方面。因此,近年來客戶服務(wù)周期發(fā)生了變化。為了從客戶服務(wù)工作中獲益并保持競(jìng)爭(zhēng)力,各種規(guī)模的企業(yè)越來越多地采用聊天機(jī)器人。