人工智能語音技術的三大挑戰(zhàn)
幾十年來,人們一直在談論可以生成類人數(shù)據(jù)的人工智能(AI)的前景。然而,數(shù)據(jù)科學家在解決這個問題方面收效甚微。確定創(chuàng)建此類系統(tǒng)的有效策略帶來了從技術到道德以及介于兩者之間的各個方面的挑戰(zhàn)。然而,生成式人工智能已經(jīng)成為一個值得關注的亮點。
在最基本的情況下,生成式人工智能使機器能夠使用音頻文件、文本和圖像等元素來生成從語音到寫作再到藝術的內(nèi)容。根據(jù)科技投資者紅杉資本的說法,“生成式 AI 不僅會變得更快、更便宜,而且在某些情況下比人類手工創(chuàng)造的更好,”根據(jù)最近的Tech Monitor采訪。
特別是基于生成語音的機器學習技術的最新進展取得了長足的進步,但我們還有很長的路要走。事實上,語音壓縮——發(fā)生在我們嚴重依賴的應用程序中,比如 Zoom 和 Teams——仍然基于八九十年代的技術。雖然語音到語音技術具有無限的潛力,但評估為生成式 AI 蓬勃發(fā)展造成障礙的挑戰(zhàn)和缺點至關重要。
以下是人工智能從業(yè)者在語音到語音技術方面面臨的三個常見減速帶。
1. 音質(zhì)
可以說,最佳對話中最重要的部分是它是可以理解的。在語音到語音技術的情況下,目標是聽起來像人類。例如,Siri 和 Alexa 的機器人語氣就像機器一樣,并不總是清晰的。人工智能很難實現(xiàn)這一點有幾個原因,但人類語言的細微差別起著重要作用。
Mehrabian 規(guī)則可以幫助解釋這一點。人類對話可以分為三個部分:55% 的面部表情、38% 的語氣和僅 7% 的單詞。機器理解依賴于文字或內(nèi)容來操作。只有在自然語言處理(NLP)方面的最新進展,才有可能根據(jù)情緒、情緒、音色和其他重要但不一定是口語的語言方面來訓練 AI 模型。如果你只處理音頻而不是視覺,如果沒有超過一半來自面部表情的理解,這將變得更具挑戰(zhàn)性。
2. 延遲
人工智能合成分析可能需要時間——但對于語音到語音通信,實時是唯一重要的時間。語音轉(zhuǎn)換必須在說話時立即進行。它也必須是準確的,你可以想象這對于機器來說絕非易事。
實時的必要性可能因行業(yè)而異。例如,制作播客的內(nèi)容創(chuàng)建者可能更關心音質(zhì)而不是實時語音轉(zhuǎn)換。但對于客戶服務等行業(yè)來說,時間至關重要。如果呼叫中心座席使用語音輔助 AI來響應呼叫者,他們可能會犧牲一點質(zhì)量。盡管如此,時間對于提供積極的體驗至關重要。
3. 規(guī)模
為了讓語音到語音技術發(fā)揮其潛力,它必須支持各種口音、語言和方言,并且對每個人都可用——而不僅僅是特定的地區(qū)或市場。這需要掌握該技術的特定應用以及大量的調(diào)整和培訓才能有效地擴展。
新興技術解決方案并非一刀切。所有用戶都需要為給定的解決方案提供數(shù)千種架構來支持這種 AI 基礎架構。用戶還應該期望始終如一地測試模型。這并不是什么新鮮事:機器學習的所有經(jīng)典挑戰(zhàn)也適用于生成式 AI 領域。
那么,我們?nèi)绾沃纸鉀Q其中的一些問題,從而開始實現(xiàn)語音到語音技術的價值呢?幸運的是,當你逐步分解它時,它就不那么可怕了。首先,你必須掌握問題。之前我舉了一個呼叫中心與內(nèi)容創(chuàng)建者的例子。確保您考慮了用例和期望的結果,然后從那里開始。
其次,確保您的組織擁有正確的架構和算法。但即使在此之前,請確保您擁有正確的數(shù)據(jù)。數(shù)據(jù)質(zhì)量很重要,尤其是在考慮像人類語言和語音這樣敏感的東西時。最后,如果您的應用程序需要實時語音轉(zhuǎn)換,請確保支持該功能。最終,沒有人愿意與機器人交談。
雖然圍繞生成式 AI 深度偽造、同意和適當披露的倫理問題現(xiàn)已浮出水面,但首先了解和解決基本問題很重要。語音到語音技術有可能徹底改變我們相互理解的方式,為將人們團結起來的創(chuàng)新開辟機會。但為了實現(xiàn)這一目標,我們必須首先面對主要挑戰(zhàn)。