基于VoiceXML的語(yǔ)音應(yīng)用系統(tǒng)開(kāi)發(fā)
2008/10/30
一、概述圖一、VoiceXML應(yīng)用和WEB應(yīng)用的比較
下圖(圖二)展示了基于VoiceXML的語(yǔ)音應(yīng)用系統(tǒng)的基本架構(gòu):
文檔服務(wù)器(WEB Server):用于存放VoiceXML腳本文件(或者根據(jù)由VoiceXML
Server發(fā)過(guò)來(lái)了HTTP請(qǐng)求自動(dòng)生成VoiceXML腳本),和事先錄制好的音頻文件等一切有關(guān)的文檔。 VoiceXML
Server通過(guò)HTTP請(qǐng)求從該文檔服務(wù)器獲取各種需要的文件。
VoiceXML 服務(wù)器(VoiceXML Gateway):用于接收和識(shí)別用戶的輸入,解釋和執(zhí)行VoiceXML腳本文件,并把結(jié)果轉(zhuǎn)換成語(yǔ)音輸出給用戶。它一般具備下列組件:VoiceXML解釋器組件(VoiceXML
Browser),呼叫控制組件(CCXML Browser),自動(dòng)語(yǔ)音識(shí)別組件(ASR),語(yǔ)音合成組件(TTS)等。這些組件共同組成了VoiceXML的解釋和執(zhí)行平臺(tái)。
圖二、VoiceXML應(yīng)用系統(tǒng)架構(gòu)
和互聯(lián)網(wǎng)用戶通過(guò)鍵盤(pán)輸入某個(gè)WEB頁(yè)面的地址(URL)來(lái)訪問(wèn)WEB應(yīng)用類似,VoiceXML用戶通過(guò)電話或者VoIP終端撥打某個(gè)應(yīng)用對(duì)應(yīng)的電話號(hào)碼來(lái)訪問(wèn)該應(yīng)用程序(圖中的步驟1)。VoiceXML服務(wù)器收到用戶的呼叫后,根據(jù)用戶撥打的號(hào)碼去文檔服務(wù)器查找對(duì)應(yīng)的VoiceXML文件(圖中的步驟2),通過(guò)HTTP請(qǐng)求把文件下載到本機(jī)執(zhí)行,根據(jù)特定應(yīng)用的需要,VoiceXML服務(wù)器可能會(huì)發(fā)出多個(gè)HTTP請(qǐng)求獲取和應(yīng)用有關(guān)的其他文件,比如需要播放的語(yǔ)言文件等(圖中的步驟3)。然后由
VoiceXML解釋器組件( VoiceXML Browser)解釋和執(zhí)行VoiceXML腳本語(yǔ)言并把結(jié)果轉(zhuǎn)換成語(yǔ)音傳送給用戶(圖中的步驟4)。在執(zhí)行過(guò)程中,用戶可能需要通過(guò)語(yǔ)音和VoiceXML服務(wù)器進(jìn)行交互,比如菜單選擇或者對(duì)查詢結(jié)果進(jìn)行過(guò)濾等。VoiceXML服務(wù)器通過(guò)呼叫控制組件(CCXML
Browser),自動(dòng)語(yǔ)音識(shí)別組件(ASR),語(yǔ)音合成組件(TTS)來(lái)實(shí)現(xiàn)這些交互。
在VoiceXML系統(tǒng)中有兩種形式語(yǔ)音的輸出: 機(jī)器合成語(yǔ)音(TTS)和事先錄制好的語(yǔ)音文件。
TTS ( Text-To-Speech) : 是由機(jī)器把文本轉(zhuǎn)換為數(shù)字語(yǔ)音格式,這種聲音聽(tīng)起來(lái)會(huì)感覺(jué)有些機(jī)械和不自然,但是輸出內(nèi)容靈活,不受任何限制。
事先錄制好的語(yǔ)音文件: 和TTS相比聽(tīng)起來(lái)更自然,但是內(nèi)容受限制。在實(shí)際應(yīng)用中往往把二者結(jié)合起來(lái)。
VoiceXML系統(tǒng)中的輸入也有兩種形式: 自動(dòng)語(yǔ)音識(shí)別 (ASR) 和雙音多頻鍵盤(pán)音(DTMF)。
ASR (Automatic Speech Recognition) 是指計(jì)算機(jī)把用戶的語(yǔ)音自動(dòng)識(shí)別成文字信息,便于計(jì)算機(jī)的進(jìn)一步處理,從而使得用戶可以通過(guò)自然語(yǔ)言來(lái)控制計(jì)算機(jī)的執(zhí)行。
DTMF (Dual Tone MultiFrequency) 則是用戶可以通過(guò)電話的按鍵進(jìn)行輸入。
三、VoiceXML開(kāi)發(fā)示例
本文中的信息查詢例子演示了一個(gè)簡(jiǎn)單的VoiceXML應(yīng)用。該例子VoiceXML腳本中用到的所有的標(biāo)簽如表1所示,表2是該例子的源代碼。圖四是該例子的呼叫流程。首先是用戶發(fā)起呼叫,應(yīng)用程序通過(guò)計(jì)算機(jī)合成語(yǔ)音(TTS)告訴用戶所有的選擇項(xiàng)并等待用戶的響應(yīng)。用戶的語(yǔ)音將由計(jì)算機(jī)根據(jù)語(yǔ)法標(biāo)簽
圖四:信息查詢例子呼叫流程圖
表 2. 信息查詢例子源代碼
該示例程序已經(jīng)部署在http://evolution.voxeo.com。讀者可以下列幾個(gè)途徑來(lái)執(zhí)行該示例程序:
CTI論壇編輯
Voxeo VoiceObjects 統(tǒng)一自服務(wù)提高滿意度 2009-09-23 |
Voxeo攜Prophecy10高度亮相SpeechTEK2009 2009-09-03 |
擁有中文TTS的Prophecy IVR語(yǔ)音平臺(tái) 2009-08-17 |
Voxeo發(fā)布開(kāi)源的電話“云計(jì)算”服務(wù)平臺(tái) 2009-08-12 |
自助式語(yǔ)音平臺(tái)開(kāi)發(fā)利器Prophecy Platform 2009-08-03 |