Google提到,即便客服中心虛擬代理人的語音識別精準(zhǔn)度達(dá)90%,但是比起實(shí)驗(yàn)室,實(shí)際使用環(huán)境以及雜訊的影響,在部分情況下,仍然會使得自動語音識別的結(jié)果變得很糟,因此現(xiàn)在Google進(jìn)一步更新客服中心AI所使用的技術(shù),特別是在Dialogflow以及云端語音轉(zhuǎn)文字兩服務(wù),以提升辨識品質(zhì)。
Dialogflow讓用戶能夠在網(wǎng)頁、行動應(yīng)用程式或是熱門的傳訊平臺,建構(gòu)對話服務(wù),而這次更新,Google為Dialogflow加入了自動語音調(diào)適能力(Auto Speech Adaptation),以對話情境資訊,解決虛擬代理人混淆單字發(fā)音的問題。
由于許多單字的讀音很相似,在電話中可能無法很清楚傳遞,像是cheese和these的發(fā)音,還有可能把mail誤翻成male或nail,但是當(dāng)虛擬代理人知道這些對話背景,發(fā)生在速食餐廳或是商品退貨時,便不容易混淆這些字。用戶只要在Dialogflow控制臺中,將自動語音調(diào)適功能打開,就能讓語音識別準(zhǔn)確度上升40%以上。
Google也改進(jìn)了互動式語音應(yīng)答(IVR)以及電話虛擬代理人,所使用的云端語音轉(zhuǎn)文字基線模型,而這將會使語音轉(zhuǎn)錄的結(jié)果更好,Google以電話用語的常用短句最佳化了該模型,使得新模型的表現(xiàn),在美國英文上的辨識準(zhǔn)確度提高15%,再加上自動語音調(diào)適功能,還能進(jìn)一步提升辨識的品質(zhì)。
開發(fā)人員在使用云端語音轉(zhuǎn)文字服務(wù)時,能使用SpeechContext參數(shù)來控制情境資訊,讓語音轉(zhuǎn)錄更加精確,以讓虛擬代理人更精準(zhǔn)地辨識企業(yè)產(chǎn)品等特定名詞。
而現(xiàn)在Google在SpeechContext中新增類別,而預(yù)定義的類別則對應(yīng)到流行或是通用的概念上,使用情境像是在數(shù)字溝通時,4個數(shù)字的組合可能代表年、時間或是金錢,而開發(fā)者可以在SpeechContext類別,調(diào)校整個自動語音識別的單字列表,改善輸入語音的轉(zhuǎn)錄結(jié)果。
不過,Google也提到,使用SpeechContext這樣的工具,會增加部分短句被擷取的機(jī)率,這可能降低了語音有提及卻沒出現(xiàn)在轉(zhuǎn)錄文字上的錯誤,但同時也會增加語音未提及卻出現(xiàn)在轉(zhuǎn)錄文字的情形,自動語音調(diào)適的強(qiáng)度需要權(quán)衡結(jié)果進(jìn)行調(diào)整,而SpeechContext的Boost功能解決了開發(fā)者這樣的煩惱,可以自動為使用案例調(diào)整語音調(diào)適的最佳強(qiáng)度。
過去云端語音轉(zhuǎn)語音服務(wù),處理語音只能以1分鐘為單位,而這對于需要較長時間轉(zhuǎn)錄文字的使用案例,像是會議、即時影片或是電話等是個大問題,現(xiàn)在Google將處理語音時間上限提高至5分鐘,而且API也允許開發(fā)人員開啟新的串流對話,來接續(xù)前一個串流對話,以做到無限時間的串流語音轉(zhuǎn)錄文字。