IBM ViaVoice Telephony——完善的中文電話(huà)語(yǔ)音技術(shù)
2001/11/14
語(yǔ)音技術(shù),雖然在國(guó)外出現(xiàn)得很早,但在國(guó)內(nèi)開(kāi)始步入實(shí)用領(lǐng)域,還是最近的事情。尤其是語(yǔ)音技術(shù)在智能電話(huà)系統(tǒng)中的應(yīng)用,國(guó)外已經(jīng)有了不少較大規(guī)模的語(yǔ)音識(shí)別IVR系統(tǒng)或者呼叫中心的應(yīng)用,然而在國(guó)內(nèi),雖然有將語(yǔ)音識(shí)別和呼叫中心結(jié)合起來(lái)的趨勢(shì),但仍沒(méi)有多少應(yīng)用。目前電話(huà)高度普及,如果通過(guò)最便捷的電話(huà)方式就能查詢(xún)到所需信息,無(wú)疑將給人們的日常生活帶來(lái)極大方便。雖然影響語(yǔ)音技術(shù)在電話(huà)系統(tǒng)中應(yīng)用的因素很多,但重要的一點(diǎn)就是漢語(yǔ)語(yǔ)音識(shí)別技術(shù)還不夠完善。
基于電話(huà)的語(yǔ)音識(shí)別技術(shù)與基于電腦的有很多不同之處。電腦錄入使用的是非自然語(yǔ)言,而電話(huà)是自然語(yǔ)言。要做好對(duì)電話(huà)語(yǔ)音的識(shí)別,就需要系統(tǒng)能夠?qū)δ信仙伲踔潦菐в幸恍┑胤娇谝舻母鞣N語(yǔ)言進(jìn)行識(shí)別。并且,電話(huà)語(yǔ)音識(shí)別系統(tǒng)必須具有處理插入的能力。即允許用戶(hù)在系統(tǒng)提示時(shí)中斷系統(tǒng),但系統(tǒng)依然能知道用戶(hù)的請(qǐng)求。因?yàn)槿藗冊(cè)谡f(shuō)話(huà)時(shí),總是在不自覺(jué)地思考,經(jīng)常會(huì)打斷語(yǔ)言的連續(xù)性,而插入一些補(bǔ)充性的語(yǔ)言。這樣的語(yǔ)言,在語(yǔ)法上來(lái)說(shuō)經(jīng)常是不正確的,常規(guī)的語(yǔ)音識(shí)別系統(tǒng)很難處理這些語(yǔ)音。
經(jīng)過(guò)多年的研究,IBM公司已經(jīng)突破了漢語(yǔ)語(yǔ)音識(shí)別技術(shù)上的重重難關(guān),為智能電話(huà)系統(tǒng)提供了IBM ViaVoice Telephony電話(huà)語(yǔ)音系統(tǒng)開(kāi)發(fā)工具。作為IBM公司中文語(yǔ)音識(shí)別技術(shù)的最新成果,IBM ViaVoice Telephony電話(huà)語(yǔ)音系統(tǒng)開(kāi)發(fā)工具提供了一個(gè)開(kāi)放式的電話(huà)語(yǔ)音識(shí)別引擎和完善的應(yīng)用開(kāi)發(fā)環(huán)境,使語(yǔ)音功能可以方便快捷地被集成到電話(huà)系統(tǒng)中,為網(wǎng)上聲訊服務(wù)、電子商務(wù),以及涉及電話(huà)通信的應(yīng)用系統(tǒng)提供語(yǔ)音交互界面。
IBM ViaVoice Telephony中文電話(huà)語(yǔ)音技術(shù)是IBM ViaVoice中文語(yǔ)音識(shí)別技術(shù)在電話(huà)通信領(lǐng)域中的延伸和發(fā)展。它的語(yǔ)音識(shí)別引擎采用實(shí)際電話(huà)信道的語(yǔ)音樣本,對(duì)于普通電話(huà)和移動(dòng)電話(huà)均能獲得很高的識(shí)別率。由于語(yǔ)音識(shí)別引擎沒(méi)有特定授話(huà)人的限制,任何能講標(biāo)準(zhǔn)漢語(yǔ)普通話(huà)的人都可以使用。并且電話(huà)語(yǔ)音的應(yīng)用不但可以運(yùn)行在單機(jī)系統(tǒng)上,更可以擴(kuò)展為多引擎、多服務(wù)器的大型企業(yè)級(jí)應(yīng)用,動(dòng)態(tài)的負(fù)載平衡能力可以令系統(tǒng)時(shí)刻保持最優(yōu)的效能。
同時(shí),IBM ViaVoice Telephony 電話(huà)語(yǔ)音系統(tǒng)開(kāi)發(fā)工具庫(kù)還為程序員開(kāi)發(fā)和測(cè)試電話(huà)語(yǔ)音識(shí)別應(yīng)用程序提供了一套完善的實(shí)用程序。該工具庫(kù)對(duì)TCL/TK腳本語(yǔ)言進(jìn)行了擴(kuò)展,簡(jiǎn)化了應(yīng)用程序的開(kāi)發(fā)和定制過(guò)程,并提供了與硬件無(wú)關(guān)的語(yǔ)音識(shí)別和語(yǔ)音合成引擎C/C++接口,使得開(kāi)發(fā)人員可以開(kāi)發(fā)面向?qū)ο蟮慕鉀Q方案。工具庫(kù)中還包括了若干示例程序,可以幫助用戶(hù)理解如何將語(yǔ)音識(shí)別集成到電話(huà)語(yǔ)音應(yīng)用程序中。另外,軟件中還附帶了幾個(gè)實(shí)用程序,來(lái)協(xié)助開(kāi)發(fā)人員開(kāi)發(fā)、測(cè)試和管理電話(huà)語(yǔ)音識(shí)別應(yīng)用程序。
通過(guò)IBM ViaVoice Telephony電話(huà)語(yǔ)音識(shí)別技術(shù),在許多領(lǐng)域已可以很方便的實(shí)現(xiàn)人機(jī)語(yǔ)音自動(dòng)交互服務(wù),例如:信息查詢(xún),尋呼臺(tái)、電話(huà)轉(zhuǎn)接中心;金融領(lǐng)域,如家庭銀行或股票信息查詢(xún);旅游服務(wù)領(lǐng)域,如飛機(jī)定票或旅館預(yù)定,等。另外隨著互聯(lián)網(wǎng)的迅猛發(fā)展,電話(huà)輕松上網(wǎng)獲取信息,更是廣大用戶(hù)的迫切希望。通過(guò)電話(huà)上網(wǎng),用戶(hù)只需說(shuō)出想得到的網(wǎng)上信息,機(jī)器自動(dòng)識(shí)別,將用戶(hù)的請(qǐng)求送到互聯(lián)網(wǎng)上,并把返回的相關(guān)信息用語(yǔ)音合成技術(shù)回放給用戶(hù),提供人性化的語(yǔ)音應(yīng)答交互界面。
目前,基于IBM電話(huà)語(yǔ)音技術(shù),tom.com開(kāi)發(fā)了第一個(gè)商用中文語(yǔ)音門(mén)戶(hù)——Tom及時(shí)語(yǔ)(http://cn.tom.com/tomvoice)。通過(guò)電話(huà)語(yǔ)音識(shí)別技術(shù),可以使用戶(hù)用電話(huà)訪(fǎng)問(wèn)原來(lái)只能通過(guò)因特網(wǎng)或內(nèi)部網(wǎng)的應(yīng)用;在任何時(shí)間,任何地點(diǎn)快速便捷獲取所需信息和進(jìn)行在線(xiàn)交易。
隨著中文電話(huà)語(yǔ)音應(yīng)用的推廣和深入,針對(duì)實(shí)際應(yīng)用的需求,一系列新技術(shù)被開(kāi)發(fā)出來(lái)。例如,關(guān)鍵詞辯識(shí)技術(shù)可使用戶(hù)更加自然地和遠(yuǎn)端服務(wù)器交互;針對(duì)字母及數(shù)字串專(zhuān)用聲學(xué)模型的建立,為在線(xiàn)語(yǔ)音驅(qū)動(dòng)的電子商務(wù)、個(gè)性化信息服務(wù)提供了有力的保證;針對(duì)許多應(yīng)用中有中英文混合使用的情況,開(kāi)發(fā)了同時(shí)支持普通話(huà)、臺(tái)灣普通話(huà)、粵語(yǔ)和英語(yǔ)的混合語(yǔ)音技術(shù),進(jìn)一步拓展了應(yīng)用的廣度。
相信,隨著IBM ViaVoice Telephony技術(shù)在通訊、金融、旅游以及醫(yī)療等領(lǐng)域的進(jìn)一步推廣和應(yīng)用,將會(huì)給人們的工作和生活帶來(lái)質(zhì)的變化。有專(zhuān)家預(yù)測(cè),隨著技術(shù)的快速發(fā)展,再過(guò)10~20年的時(shí)間,我們將可以做到非常自然的人機(jī)交互式對(duì)話(huà)。那時(shí),人們的生活必將更加多姿多彩。
IBM供稿 CTI論壇編輯
ViaVoice語(yǔ)音上網(wǎng)新概念 2001-11-14 |
IBM ViaVoice更方便更健康 2001-11-14 |
語(yǔ)音識(shí)別重在應(yīng)用 2001-11-14 |
CRM中的IBM語(yǔ)音技術(shù) 2001-10-10 |
IBM Viavoice:掛在嘴邊的輸入法 2001-10-10 |