可在錄音檔中搜尋關(guān)鍵字、直接跳到關(guān)鍵字出現(xiàn)的段落
「語音」很可能是繼打字之后,未來人類和電腦溝通的主要方式,其不僅解放我們的雙手,互動(dòng)速度也更快。Google在去年發(fā)布這款能將語音轉(zhuǎn)成文字的云端語音API,并將該功能整合進(jìn)多款自家服務(wù)中,如語音助理、語音搜尋、翻譯、聽寫輸入等功能。
而這次更新的其中一個(gè)新功能,對(duì)常聽錄音檔的人相當(dāng)必備。過去只有文字檔才能搜尋特定字詞,現(xiàn)在,在Google云端語音API新增「以字為單位的時(shí)間標(biāo)記」的功能后,語音檔也能做到相同的事,即可在語音檔中搜尋特定字詞出現(xiàn)的位置、直接跳到該段落,且錄音檔播放的同時(shí)也能立即顯示已識(shí)別的文字。
支援檔案長度增加到3小時(shí),可用于客服中心和自動(dòng)產(chǎn)生影片字幕
此外,Google云端語音API可支援的語音檔案長度,也從原本的80分鐘增加到3小時(shí)。Google產(chǎn)品經(jīng)理DanAharon表示,支援更長時(shí)間的語音檔案,也能拓展該技術(shù)能應(yīng)用的場景,例如客服中心可用此分析客服電話內(nèi)容,或是用于自動(dòng)生成影片字幕。
語音轉(zhuǎn)文字支援「表情符號(hào)」
在支援語言方面,這次Google更一口氣新增30個(gè)語言,迄今共支援119種語言。Google表示,他們和母語人士合作,請(qǐng)他們念常用的句子,訓(xùn)練機(jī)器學(xué)習(xí)模型識(shí)別新語言的單字和音調(diào)。
特別的是,Google云端語音API不只能識(shí)別說話的「內(nèi)容」,還能識(shí)別出「表情符號(hào)」。例如,只要念出「眨眼表情符號(hào)」或「微笑表情符號(hào)」,就會(huì)出現(xiàn)和。不過,該功能目前僅支援英語,其他語言將在未來陸續(xù)開放。