這兩次研究轉(zhuǎn)錄的是Switchboard語(yǔ)料庫(kù)中的錄音。Switchboard語(yǔ)料庫(kù)包含了2400段電話對(duì)話,自上世紀(jì)90年代以來(lái)一直被研究人員作為測(cè)試語(yǔ)音識(shí)別系統(tǒng)的樣本。
新研究由微軟人工智能及研究事業(yè)部的一組研究人員實(shí)施,目標(biāo)是在出錯(cuò)率上達(dá)到一組速錄員的同等水平,后者可以反復(fù)收聽(tīng)錄音樣本,了解對(duì)話語(yǔ)境,與其他速錄員合作。
整體來(lái)說(shuō),通過(guò)改進(jìn)微軟語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽(tīng)覺(jué)和語(yǔ)言模型,實(shí)施最新研究的研究人員能夠在去年基礎(chǔ)上把出錯(cuò)率降低大約12%。顯然,他們還可以讓語(yǔ)音識(shí)別器了解整體對(duì)話,適應(yīng)錄音樣本的語(yǔ)境,預(yù)測(cè)對(duì)話中很可能出現(xiàn)的下一個(gè)詞匯或短語(yǔ)。這正是人類在與其他人對(duì)話時(shí)的做法。
微軟的語(yǔ)音識(shí)別系統(tǒng)已被用于語(yǔ)音助手“小娜”、實(shí)時(shí)翻譯字幕功能Presentation Translator以及微軟認(rèn)知服務(wù)中。