如何在2023年以合乎道德的方式為企業(yè)使用生成式AI聲音
由于OpenAI和ChatGPT的驚人普及,AI技術(shù)在2022年底得到了廣泛采用。人工智能首次通過證明其在創(chuàng)造成功業(yè)務(wù)成果方面的效用和價值而獲得了大眾市場的吸引力。
許多在2023年對普通人來說似乎是一場革命的人工智能技術(shù)實際上已經(jīng)被大企業(yè)和媒體積極使用了好幾年。和我一起仔細(xì)研究為這些解決方案提供動力的技術(shù),特別是用于語音克隆的生成式AI系統(tǒng)、其商業(yè)利益以及使用AI的道德方法。
語音克隆是如何工作的?
簡而言之,語音克隆可以讓一個人用另一個人的聲音說話。
它使用生成式AI技術(shù)來創(chuàng)建一個人的聲音的錄音,并使用它們生成具有同一個人聲音的新音頻內(nèi)容。它本質(zhì)上允許人們聽到別人會說的話,即使他們自己沒有說。
在技??術(shù)方面,事情似乎并不復(fù)雜。但是,如果您深入研究,則需要滿足一些最低要求才能開始:
您需要至少5分鐘的源語音高質(zhì)量錄制音頻才能克隆它。這些錄音應(yīng)該清晰且沒有背景噪音或其他失真,因為任何瑕疵都可能影響模型輸出的準(zhǔn)確性。
之后,將這些錄音輸入生成式AI模型以創(chuàng)建“語音化身”。
然后,訓(xùn)練模型以準(zhǔn)確再現(xiàn)音調(diào)和時間方面的語音模式。
一旦完成,這個經(jīng)過訓(xùn)練的模型可以使用任何其他人的源聲音生成無限的內(nèi)容,成為創(chuàng)建逼真的復(fù)制聲音的有效工具。
這是許多人提出道德問題的地方。當(dāng)我們可以將任何文本插入另一個人的嘴里并且無法判斷這些詞是真實的還是假的時會發(fā)生什么?
是的,這種可能性早已成為現(xiàn)實。與OpenAI和ChatGPT的情況一樣,我們目前面臨著許多不容忽視的道德問題。
人工智能的道德標(biāo)準(zhǔn)
與許多其他處于采用初期階段的新技術(shù)一樣,主要威脅是圍繞該技術(shù)造成負(fù)面污名,而不是承認(rèn)這些威脅是討論和寶貴知識的來源。重要的是揭露不良行為者濫用技術(shù)及其產(chǎn)品、應(yīng)用緩解工具并繼續(xù)學(xué)習(xí)的方法。
今天,我們擁有與使用生成式人工智能相關(guān)的道德標(biāo)準(zhǔn)的三層框架。國家和超國家監(jiān)管層正處于發(fā)展的初始階段。政策世界可能跟不上新興技術(shù)的發(fā)展速度,但我們已經(jīng)可以觀察到歐盟在人工智能監(jiān)管方面的歐盟提案和2022年虛假信息實踐守則概述了大型科技公司應(yīng)對人工智能的期望。傳播惡意人工智能操縱的內(nèi)容。在國家層面,我們看到美國和英國在解決美國國家Deepfake和數(shù)字來源特別工作組和英國在線安全法案的問題方面采取了監(jiān)管的第一步。
隨著公司和技術(shù)人員接受這一與新興技術(shù)及其對社會安全和隱私的影響有關(guān)的新現(xiàn)實,科技行業(yè)的層級正在加快發(fā)展。關(guān)于生成人工智能倫理的對話充滿活力,并引領(lǐng)了圍繞生成人工智能的使用制定行業(yè)行為準(zhǔn)則的倡議(即人工智能合成媒體行為準(zhǔn)則伙伴關(guān)系)和不同公司發(fā)布的道德聲明。問題是,如何實踐?而且,它們是否能夠影響產(chǎn)品、特定功能和團(tuán)隊的程序?
在與許多不同的媒體和娛樂、網(wǎng)絡(luò)安全和AI倫理社區(qū)合作解決這個問題后,我制定了一些實用原則來處理AI內(nèi)容和聲音,尤其是:
IP所有者和使用克隆語音的公司可以通過簽署法律協(xié)議避免與使用原始語音相關(guān)的許多潛在并發(fā)癥。
項目所有者應(yīng)公開披露克隆語音的使用,以免聽眾被誤導(dǎo)。
致力于語音人工智能技術(shù)的公司應(yīng)該分配一定比例的資源來開發(fā)能夠檢測和識別人工智能生成內(nèi)容的技術(shù)。
使用水印標(biāo)記AI生成的內(nèi)容可實現(xiàn)語音身份驗證。
每個AI服務(wù)提供商都應(yīng)在同意開展工作之前審查每個項目的影響(社會、商業(yè)和隱私級別)。
當(dāng)然,人工智能的倫理原則不會影響自制深度造假的網(wǎng)絡(luò)傳播。但是,他們會將灰色項目推向公共市場之外。
在2021-22年,人工智能聲音被用于不同的主流項目,這些項目對道德和社會產(chǎn)生了重大影響。其中包括為曼達(dá)洛人系列克隆年輕盧克·天行者的聲音,為戰(zhàn)神2克隆阿特柔斯的聲音,以及為具有歷史意義的“月球災(zāi)難事件”克隆理查德·尼克松的聲音。
對技術(shù)的信心正在超越媒體和娛樂。許多行業(yè)的傳統(tǒng)企業(yè)都在他們的項目中使用克隆的聲音。以下是一些最突出的用例。
行業(yè)用例
到2023年,語音克隆將繼續(xù)興起,各行各業(yè)都將從中獲益。從醫(yī)療保健和市場營銷到客戶服務(wù)和廣告行業(yè),語音克隆正在徹底改變組織與客戶建立關(guān)系和簡化工作流程的方式。
語音克隆有利于在線環(huán)境中工作的醫(yī)療保健專業(yè)人員和社會工作者。具有與醫(yī)療專業(yè)人員相同聲音的數(shù)字化身可以促進(jìn)他們與患者之間更牢固的聯(lián)系,從而提高信任度并留住客戶。
聲音克隆在電影和娛樂行業(yè)的潛在應(yīng)用是巨大的。將內(nèi)容配音成多種語言、兒童和成人附加對話替換(ADR)以及幾乎無限的定制選項陣列都通過這項技術(shù)成為可能。
同樣,在運營領(lǐng)域,人工智能驅(qū)動的語音克隆可以為需要交互式語音響應(yīng)系統(tǒng)或企業(yè)培訓(xùn)視頻的經(jīng)濟(jì)高效解決方案的品牌帶來出色的結(jié)果。借助語音合成技術(shù),演員可以擴(kuò)大他們的影響力,同時提高他們從錄音中賺取殘差的能力。
最后,在廣告制作工作室中,語音克隆的出現(xiàn)有助于顯著降低與商業(yè)制作相關(guān)的成本和時間。只要有可供克隆的高質(zhì)量錄音(即使來自不可用的演員),就可以比以往更快、更有創(chuàng)意地制作廣告。
有趣的是,企業(yè)和SMB可以利用語音克隆為他們的品牌創(chuàng)造獨特的東西。大型項目可以實現(xiàn)其最雄心勃勃的計劃,而小型企業(yè)則可以使用以前成本過高的規(guī)模模型。這才是真正的民主化。
總結(jié)
AI語音克隆為企業(yè)提供了改變游戲規(guī)則的好處,例如創(chuàng)造獨特的客戶體驗、將自然語言處理功能集成到他們的產(chǎn)品和服務(wù)中,以及生成聽起來完全真實的高度準(zhǔn)確的聲音模仿。
希望在2023年保持競爭優(yōu)勢的企業(yè)應(yīng)該研究人工智能語音克隆。公司可以使用這項技術(shù)解鎖各種新的可能性,以在道德上負(fù)責(zé)任的方式贏得市場份額并留住客戶。