淺談ASR和TTS技術(shù)在CTI中的應(yīng)用
2004/01/02
什么是ASR、TTS?ASR,英文的全稱是Automated Speech Recognition,即自動語音識別技術(shù),它是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。語音識別是一個多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機(jī)科學(xué)等眾多學(xué)科緊密相連。由于語音信號的多樣性和復(fù)雜性,目前的語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應(yīng)用于某些特定的場合。語音識別系統(tǒng)的性能大致取決于以下4類因素:1. 識別詞匯表的大小和語音的復(fù)雜性;2. 語音信號的質(zhì)量;3. 單個說話人還是多說話人;4. 硬件。
TTS,英文全稱是TextToSpeech,即文語轉(zhuǎn)換,又稱為計算機(jī)語音合成,它的過程和ASR剛好相反,是把計算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語音輸出。一般認(rèn)為,語音合成系統(tǒng)包括三個主要的組成部分:文本分析模塊、韻律生成模塊和聲學(xué)模塊。目前,TTS的技術(shù)已經(jīng)可以達(dá)到商業(yè)化的地步。
微軟的SAPI是作為Windows的一部分,已經(jīng)被被集成在Windows里面。相對于其他引擎,他的識別率也比較高,如果做過適應(yīng)性調(diào)整,識別率可以達(dá)到90%以上,而且他的開發(fā)包是還可以免費獲取的,各種文檔資源也很齊全,很方便做二次開發(fā)。由于SAPI是作為Windows的一個獨立組件在發(fā)展,版本更新也比較快。
最新的SAPI 3.1提供了基于COM的高級編程接口,應(yīng)用程序通過這些接口與語音引擎打交道。SAPI將ASR和TTS功能集成在同一個語音引擎中,TTS可以將文本和文件合成為語音,ASR則是將人的聲音信號轉(zhuǎn)換為可讀的文本或文件。
下面,我們針對兩種不同當(dāng)前情況,站在業(yè)務(wù)開發(fā)商的角度,看如何將ASR和TTS功能附加到我們的應(yīng)用中去。
帶語音接口的PBX這里還是以MPS2000系統(tǒng)為例,MPS2000是一套面向下一代網(wǎng)絡(luò)的、集成了多種業(yè)務(wù)能力的交換平臺。它具有很強(qiáng)的接入和組網(wǎng)能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時,它的業(yè)務(wù)資源也非常豐富,有IVR、會議、會議抑制、DTMF、ASR、TTS等資源,能面向各種不同的應(yīng)用。
在MPS2000系統(tǒng)中,ASR被抽象為一種簡單的可替代DTMF進(jìn)行語音撥號的資源,用戶提起電話,可以不用按鍵,直接呼叫某人或者說出電話號碼,就可以呼出。TTS則被抽象為一種文本放音的資源,你可以摒棄以往的放音模式(通過路由文件播放),而直接把你想說的文本向用戶放出來
下圖顯示了MPS2000中ASR和TTS的應(yīng)用層次關(guān)系:
杭州邁可行公司供稿 CTI論壇編輯
下一代網(wǎng)絡(luò)(NGN)的核心組件:軟交換技術(shù) 2009-08-18 |
專業(yè)通信調(diào)度系統(tǒng)服務(wù)中石化華東成品油管網(wǎng)工程 2009-05-19 |
邁可行建設(shè)江西省政府應(yīng)急指揮系統(tǒng) 2009-04-21 |
邁可行通信建立新的合作伙伴管理體系 2009-03-17 |
邁可行承建中石油呼和浩特?zé)捰蛷S混合調(diào)度系統(tǒng) 2009-03-06 |