好萊塢抵制AI的罷工事件,被AI反手寫進了最新一集劇本
今天以前,你可能還在為《權(quán)力的游戲》最后一季而失望。但想象一下,你現(xiàn)在能讓 AI 制作一個新的結(jié)局,以完全不同的方式進行,甚至可以把你自己作為主角或其他角色放進去。
最近,舊金山初創(chuàng)公司 Flable 推出了一個大型模擬項目「The Simulation」,并發(fā)布了名為「SHOW-1」的 Showrunner AI 技術(shù),能夠生成以用戶為主角的全新劇集。
考慮到好萊塢的編劇和演員都在因為抵制 AI 而罷工,這個成果的發(fā)布時機顯得非常有趣。
在這項工作中,他們結(jié)合了大型語言模型(LLM)、定制擴散模型和多智能體模擬的能力,生成了高質(zhì)量的新劇集內(nèi)容,包括上下文關(guān)聯(lián)、故事進展和行為控制。
像 Showrunner AI 這樣的工具毫不費力地制作出不錯的內(nèi)容,可以說確實威脅到了影視行業(yè)的創(chuàng)意人員。眼下,好萊塢的編劇和演員正在罷工,要求抵制潛在的 AI 侵襲。而這些剛剛發(fā)生的現(xiàn)實情節(jié),卻已經(jīng)被 AI 寫進了最新劇集之中,也算是一種反諷了:
如何生成新的劇集?
《South Park》是一部美國情景喜劇動畫片,開播于 1997 年,一經(jīng)推出就獲得了巨大的成功,迄今已播出 26 季 325 集。該劇圍繞四個男孩 —— 斯坦 - 馬什(Stan Marsh)、凱爾 - 布羅夫洛夫斯基(Kyle Broflovski)、埃里克 - 卡曼(Eric Cartman)和肯尼 - 麥考密克(Kenny McCormick)以及他們在科羅拉多州小鎮(zhèn)及其周圍的經(jīng)歷展開。
一個廣為人知的幕后故事是,這部劇的每一集都是在 6 天之內(nèi)制作完成的。在開會腦暴之后,編劇寫出劇本,然后由動畫師、編輯、技術(shù)人員和音響工程師組成的整個團隊完成制作 —— 他們通常要在接下來的一周內(nèi)工作 100-120 小時。
這種緊湊的制作流程在當(dāng)代的影視行業(yè)中并不少見,但在生成式 AI 逐漸強大之后,情況將會發(fā)生變化。
想生成一集完整的新劇集,用戶可以向故事系統(tǒng)提供一個高層次的想法,通常包括標(biāo)題、故事梗概和希望在一周模擬時間(大約 3 小時的游戲時間)內(nèi)發(fā)生的主要事件。
在此基礎(chǔ)上,故事系統(tǒng)會利用模擬數(shù)據(jù)作為提示鏈的一部分,自動推斷出多達 14 個場景。劇務(wù)系統(tǒng)負責(zé)為每個場景挑選角色,以及如何通過情節(jié)模式推進故事。每個場景都與一個情節(jié)字母(如 A、B、C)相關(guān)聯(lián),然后由節(jié)目編導(dǎo)在一集節(jié)目中交替使用不同的角色組,并跟蹤他們各自的故事情節(jié),以保持用戶的參與度。
最后,每個場景只需定義位置、演員和每個演員的對話。在舞臺系統(tǒng)和人工智能攝像系統(tǒng)完成初始設(shè)置后,場景將根據(jù)劇情模式(如 ABABC)進行播放。每個角色的聲音都已事先克隆,每一句新的對白都會即時生成語音片段。
故事生成過程是模擬、用戶和 GPT-4 之間的共同任務(wù)。每個人都有自己的長處和短處,也都有自己獨特的角色,貢獻可以有不同的權(quán)重。
「The Simulation」通常提供基于 IP 的背景、角色歷史、情感、事件和地點,為最初的創(chuàng)作過程提供基礎(chǔ)?!赣脩簟挂胱约旱囊鈭D,對智能體進行行為控制,并提供啟動生成過程的初始提示,還要充當(dāng)最后的判斷者,在流程結(jié)束時對生成的故事內(nèi)容進行評估。此外,「GPT-4」 作為主要的生成引擎,根據(jù)從用戶和模擬中接收到的提示來創(chuàng)建和推斷場景和對話。
這是一個共生的過程,每個參與方的優(yōu)勢都能促成一個連貫、引人入勝的故事。本文以提示鏈為形式的多步驟方法還提供了制衡,減少了可能出現(xiàn)的不必要的隨機性,使其與 IP 故事原本的世界更加一致。
在流程上,創(chuàng)作者可以:1、讓「The Simulation」自動創(chuàng)建劇集;2、給一兩句話的提示;3、如果想了解細節(jié),可以給出提示,然后逐個場景編輯對話場景并重新生成。
研究方法
該研究使用大語言模型 (LLM)、定制化 SOTA 擴散模型和多智能體模擬,實現(xiàn)情境化、故事進展和行為控制,最終為故事 IP 生成了高質(zhì)量影視劇集內(nèi)容。
現(xiàn)有的生成式 AI 系統(tǒng),例如 Stable Diffusion(圖像生成模型)和 ChatGPT(大型語言模型),一般擅長完成短期(short-term)任務(wù)。然而,使用人工智能模型生成完整、有構(gòu)思規(guī)劃的長篇故事和影視劇集具有廣泛的應(yīng)用前景。
該研究的整體思路是將大型語言模型與圖像生成模型結(jié)合使用。其中大型語言模型主要使用的是 OpenAI 的 GPT-4 模型,圖像生成方面采用的是自定義的擴散模型。
大型語言模型
該研究大量使用 GPT-4 來影響模擬中的智能體并生成南方公園劇集的場景。由于《South Park》大部分劇集本身就是 GPT-4 訓(xùn)練數(shù)據(jù)集的一部分,因此 GPT-4 已經(jīng)對角色的個性、談話風(fēng)格以及其整體幽默感有了很好的了解,無需定制微調(diào)模型。
為了模擬多步驟創(chuàng)意過程,該研究使用不同的提示鏈來比較和評估不同場景的事件,以及它們?nèi)绾螌⒄麄€故事推向令人滿意的、與 IP 一致的結(jié)局。
這模仿了人類頭腦風(fēng)暴的過程,即通過多個不連續(xù)的步驟對創(chuàng)意進行構(gòu)建和完善。通過利用 LLM 的生成能力和提示鏈提供的迭代完善功能,該研究有效地構(gòu)建出了動態(tài)、詳細且引人入勝的故事。
例如,在創(chuàng)作 14 個不同的場景時,該研究先提供了一個概括性的提示,勾勒出總體敘事,然后再提供具體的提示,詳細說明和評估每個場景的角色、地點和關(guān)鍵情節(jié)。
擴散模型
為了訓(xùn)練自定義的擴散模型,研究者從以往的劇集素材中收集了一個由大約 1200 個人物和 600 張背景圖片組成的綜合數(shù)據(jù)集,作為模型學(xué)習(xí)該劇風(fēng)格的原材料。
為了訓(xùn)練這些模型,研究者使用了 Dream Booth。訓(xùn)練階段的結(jié)果是創(chuàng)建了兩個專門的擴散模型。
第一個模型專門用于生成以可摳像背景顏色為背景的單個角色。這有助于提取生成的角色進行后續(xù)處理和動畫制作,將新生成的角色無縫整合到各種場景和設(shè)置中。此外,角色擴散模型允許用戶通過圖像到圖像的 stable diffusion 過程,根據(jù)自己的長相創(chuàng)建一個角色,然后作為參與的智能體加入模擬。由于用戶可以克隆自己的聲音,因此很容易想象出一個基于用戶特有的長相、寫作風(fēng)格和聲音而完全實現(xiàn)的自主角色。
第二個模型用來生成干凈的背景,尤其是外部和內(nèi)部環(huán)境。模型為生成的角色提供了互動的「舞臺」,從而可以創(chuàng)建各種潛在的場景和情節(jié)。
由于這些模型的輸出是基于像素的,因此其生成的圖像在分辨率上存在固有的局限性。為了規(guī)避這一限制,研究者使用了 AI 升頻技術(shù)(特別是 R-ESRGAN-4x+-Anime6B)對生成的圖像進行了后期處理,完善并提升了圖像質(zhì)量。
對于未來的 2D 交互,訓(xùn)練基于 transformer 的定制模型使其能夠生成基于矢量的輸出,這一點具有很多優(yōu)勢。與基于像素的圖像不同,矢量圖形在調(diào)整大小或縮放時不會降低質(zhì)量,因此具有無限分辨率的潛力。這使得模型能夠生成無論以何種比例觀看都能保持質(zhì)量和細節(jié)的圖像。
此外,基于矢量的圖形已經(jīng)被分離成單獨的部分,解決了基于像素的透明度和分割等后處理問題,而這些問題使得將生成的資產(chǎn)集成到程序化世界構(gòu)建和動畫系統(tǒng)中變得更加復(fù)雜。
解決延遲問題
當(dāng)然,在這個過程中,有一些問題需要解決,比如延遲。
在實驗中,生成一個場景可能需要長達一分鐘的大量時間。由于是在游戲過程中生成劇集,因此生成時間大部分可以隱藏在用戶仍在與模擬或其他用戶界面交互的時刻。減少生成場景或情節(jié)所需時間的另一種方法是使用更快的模型,如 GPT-3.5-turbo,可用于質(zhì)量和準(zhǔn)確性要求不高的特定提示鏈。
下圖是 GPT-3.5-turbo 和 GPT-4 的響應(yīng)時間對比。隨著模型和服務(wù)基礎(chǔ)架構(gòu)的改進,以及其他因素(如因用戶需求高而導(dǎo)致的人為節(jié)流)的消除,生成速度在不久之后會有所提高。
在場景播放過程中,通過一個簡單的緩沖系統(tǒng),至少一個語音片段是提前生成的,從而避免了與音頻生成有關(guān)的對話行之間不必要的停頓。這就意味著,當(dāng)一個角色正在播放其語音片段時,下一個語音片段的網(wǎng)絡(luò)請求已經(jīng)發(fā)出了,等待其生成、下載文件,然后等待當(dāng)前發(fā)言人完成對話后再播放(延遲)。這樣,下一個對話行的語音片段就可以在沒有任何延遲的情況下發(fā)送。文本生成和語音克隆服務(wù)的速度越來越快,可以實現(xiàn)高度自適應(yīng)和近乎實時的語音對話。
此外,研究者還表示,本文方法的亮點在于緩解了「老虎機效應(yīng)」、「燕麥片問題」和「空白頁問題」等困擾傳統(tǒng)生成式 AI 系統(tǒng)的問題。更多研究細節(jié),可參考原論文。
以前,AI 生成的內(nèi)容通常被認為質(zhì)量較低,但「The Simulation」卻提供了一種全新的可能。設(shè)想一下,如果迪士尼公開宣稱制作了一部完全由 AI 生成的電影呢?如果斯皮爾伯格單槍匹馬制作了一部 AI 電影呢?這種看法會不會立即改變,現(xiàn)在還真是很難說。