如果你和大多數(shù)消費者一樣,你今天早上或許在家通過智能音箱查問天氣和新聞,或者在通勤的路上讓車載語音助手為你獲取最佳的駕駛路線。
隨著語音助手變得越來越普遍,以及語音合成(TTS)技術(shù)越發(fā)先進,推動了像語音克隆、無性別語音助手和更多的創(chuàng)新應(yīng)用。與此同時,我們在開發(fā)創(chuàng)新產(chǎn)品時必須考慮科技時代的倫理規(guī)范。
通過這篇文章,Cerence的TTS開發(fā)總監(jiān)Johan Wouters解答了大家最為關(guān)心的一些問題:
人們會被TTS愚弄或誤導(dǎo)嗎?
如果集成了語音合成技術(shù)的應(yīng)用程序沒有規(guī)范用戶如何適當使用合成音,TTS有機會被有心人濫用,存在安全隱患。其實,合成語音與人類的聲音已變得難以區(qū)分,并且有可能合成任何人的聲音;因此,應(yīng)用程序必須清楚地標識語音是由機器合成的,以避免混淆用戶。
針對語音合成技術(shù)應(yīng)用的安全風險問題,Cerence用戶界面(UI)專家進行了各種用戶研究,并向客戶提供UI設(shè)計方面的最佳實踐。
TTS是否可以用于不適當?shù)哪康模?/strong>
語音合成技術(shù)發(fā)展迭代迅速,現(xiàn)階段語音合成技術(shù)已經(jīng)可以模擬人類的聲音、語氣和情感,通過機器就可以生成以假亂真的聲音。這意味著,不法分子可以將應(yīng)用程序用于詐騙的行為。
科技改變了人與人的交流方式,在信任錄音或通過免提電話與人互動之前,你需要額外小心。正如修圖軟件的普及讓數(shù)字圖像編輯變得容易,從而直接影響了照片和視頻的真實判斷。
語音模擬并不新鮮,對于有不同意圖的人來說,應(yīng)用也變得更容易。但從專業(yè)的角度,先進的語音技術(shù)是可以防止不當使用,這正是我們下一個重點討論的話題。
Cerence是如何防止TTS技術(shù)不規(guī)范的使用?
我們與客戶保持密切聯(lián)系,其中包括所有世界領(lǐng)先的汽車制造商,并支持他們在充分考慮倫理規(guī)范的情況下,讓用戶使用TTS技術(shù)以獲得更多的便利。
一般情況下,我們不會將我們的技術(shù)提供給個別開發(fā)者,因為發(fā)生不規(guī)范使用的可能性會較高。
作為領(lǐng)先語音技術(shù)的提供商,Cerence提供的聲紋驗證解決方案,不僅能夠?qū)γ總人獨特的聲紋進行準確的驗證,還可以檢測到合成語音的使用情況。
每個人都有獨一無二的“聲紋”,這一點和指紋一樣。聲紋代表了特定說話者的生物特征和行為特點。生物特征是指說話者聲道的特性,如長短、形狀與大小,讓每個人發(fā)出不一樣的聲音。行為特點是指聲音的韻律特點,如口音、語速以及詞匯發(fā)聲與重音。
此外,Cerence正在研究音頻數(shù)字水印算法的應(yīng)用,將人耳聽不到的水印信息嵌入在TTS中,以確保我們的聲紋驗證方案總是能夠準確識別說話人的身份。未來,一些政府部門可能會要求TTS系統(tǒng)始終嵌入音頻數(shù)字水印。
在文本轉(zhuǎn)換成語音和計算機生成語音的世界中將帶來很多商機,但就像任何技術(shù)創(chuàng)新一樣,我們必須把終端用戶的倫理規(guī)范放在首位。Cerence將致力發(fā)展并繼續(xù)在這一領(lǐng)域保持領(lǐng)先的地位。