微軟周二公布一項報告,指出微軟開發(fā)的語音識別技術在一項測試中,首度達到錯誤率和人類相去不遠的識別能力。
微軟人工智能研究中心(Microsoft Artificial Intelligenceand Research)公布的報告中研究人員及工程師運用業(yè)界常用的電話口語對話測試集NIST 2000 CTS,針對微軟自有技術及專業(yè)聽打員進行測試比較。其中在Switchboard子測試集中,微軟技術的字詞錯誤率由上個月的6.3%降到5.9%。
微軟表示,這個成績大約等于識別同一組對話的人類成績,也是Switchboard語音識別測試歷來最低的錯誤率。這表示電腦辨識對話口語字詞的能力,首次達到人類相同水準。
主管微軟人工智能研究中心的執(zhí)行副總裁沈向洋也指出,他們?nèi)ツ炅⑾率闺娔X語音識別能力達到人類水準的目標,不到一年就達到了,也出乎他們意料之外。
微軟研究團隊運用該公司電腦視覺專家開發(fā)的深度神經(jīng)網(wǎng)路,以大量資料訓練電腦識別出圖像或語音中的模式。為達到和人類相仿的辨識能力,他們使用名為Computation Network Toolkit(CNTK)的深度學習系統(tǒng)。這套系統(tǒng)透過在多臺搭載專用繪圖處理器的電腦上快速處理執(zhí)行深度演算,并大幅提升研究能力,最終拉高到人類水準。微軟去年也將此工具組開源于GitHub釋出。但微軟也指出,一如人類會犯錯,電腦也不是所有字都能識別無誤
微軟表示,這項研究結果將對消費及商用產(chǎn)品有深遠影響,包括Xbox游戲機、身障輔助工具,如口語聽寫,并使Cortana成為真正的個人數(shù)位助理服務。
除了微軟,Google、臉書、IBM及百度也都積極投入人工智能為基礎的語音識別,用以作為人機的自然語言互動界面。