首頁>>廠商>>語音識別與合成>> 北京無限商機

無限商機VoiceXML語音瀏覽器技術(shù)說明書

梁燁 2001/11/12

一 基于XML的數(shù)據(jù)瀏覽技術(shù)

Internet 的生命是瀏覽,基于HTML腳本描述語言的Web 的瀏覽機制的應(yīng)用是Internet 廣泛普及的基礎(chǔ)。

而一種新的腳本描述語言:XML 的出現(xiàn),為數(shù)據(jù)瀏覽技術(shù)帶來了一種全新的概念。XML 標(biāo)記語言,將以往的HTML 之類的標(biāo)記語言所關(guān)注于數(shù)據(jù)表達形式的概念轉(zhuǎn)移到對數(shù)據(jù)含義和內(nèi)容的關(guān)注上來。HTML 標(biāo)記語言中,計算機程序可以知道這些數(shù)據(jù)應(yīng)該以什么樣的方式在屏幕上表現(xiàn)出來,但我們卻很難讓計算機程序知道,這些數(shù)據(jù)是什么含義。而在XML 中,其標(biāo)記的是數(shù)據(jù)的含義和內(nèi)容,我們可以輕松的讓程序來識別和處理這些數(shù)據(jù),并以各種各樣適當(dāng)?shù)男问奖憩F(xiàn)出來。

基于XML 的數(shù)據(jù)瀏覽技術(shù)可以說是網(wǎng)絡(luò)時代的又一次數(shù)據(jù)革命,正如美國微軟公司首席執(zhí)行官史蒂夫.鮑爾默所說:“XML語言將革新人機界面”。

鮑爾默稱,XML語言是一種“更坦白的網(wǎng)絡(luò)語言”,它使得數(shù)據(jù)在網(wǎng)絡(luò)上的獲取和交流更加靈活便利,并可以通過包括電腦、電視和移動電話等更多的終端設(shè)備得到反映。鮑爾默說,“5年內(nèi)我希望能像和秘書講話一樣地和電腦交流!

二 VoiceXML :語音瀏覽

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應(yīng)用于語音瀏覽的標(biāo)記語言,它建立于XML 標(biāo)記語言規(guī)范的基礎(chǔ)之上,是語音瀏覽技術(shù)的核心。而因為其同樣是一種XML描述語言,其與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒有障礙。

通過VoiceXML ,可以像建立HTML 的Web 應(yīng)用一樣輕松的建立語音應(yīng)用系統(tǒng),而這樣的語音應(yīng)用系統(tǒng)可以為基于VoiceXML 的語音瀏覽器所廣泛支持。語音瀏覽器通過解析VoiceXML ,與語音識別和語音合成等方式進行人機交互,從而實現(xiàn)說話就可以上網(wǎng)的夢想。而語音瀏覽器不僅僅可以建立于電話服務(wù)器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。

通過VoiceXML ,可以很容易地建立新的語音應(yīng)用和服務(wù),如語音門戶、語音Call Center ,語音信息服務(wù)、語音電子商務(wù)等等。而這些應(yīng)用或服務(wù)可以很容易地和原有的數(shù)據(jù)系統(tǒng)結(jié)合起來,甚至可以輕易地從原有的各類應(yīng)用中延展出來。而VoiceXML 的語音應(yīng)用,可以以XML的數(shù)據(jù)表達形式,與其它的應(yīng)用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易交流。

三 北京無限商機公司的VoiceXML 語音瀏覽器

我們的VoiceXML語音瀏覽器,為解決眾多需求而設(shè)計。其設(shè)計層次如下:

在我們的實現(xiàn)中,我們分別設(shè)計了控制層、安全層、事務(wù)層、會話層、和應(yīng)用層。并開放了除控制層之外的所有層的開放接口。

1.VoiceXML 語音瀏覽器的組成部分

一個完整的VoiceXML 語音瀏覽器,由以下幾個部分組成:

(1).VoiceXML 解析器

VoiceXML 解析器是整個語音瀏覽器的核心部分。其在語音瀏覽器中擔(dān)負(fù)控制中心和司令者的腳色。VoiceXML 解析器通過網(wǎng)絡(luò)協(xié)議,如Http 等協(xié)議,獲取VoiceXML 腳本語言所描述的應(yīng)用文檔(document),解析該應(yīng)用文檔,解釋其中各個標(biāo)志(Tag ),產(chǎn)生相應(yīng)的控制命令,控制其它部件進行相應(yīng)的動作,并獲取結(jié)果,根據(jù)結(jié)果決定應(yīng)用的執(zhí)行方向和順序流。

(2).語音識別引擎

語音識別引擎是VoiceXML語音瀏覽器的生命力所在,語音識別使計算機能理解用戶的語音命令,產(chǎn)生相應(yīng)的文字結(jié)果,送回VoiceXML解析器做處理。

在VoiceXML 語音瀏覽器中,語音識別引擎為命令式的識別引擎,其根據(jù)有限的語法(grammar)來識別用戶的語音信號,產(chǎn)生對應(yīng)語法定義的識別結(jié)果。所以,語法便成為了VoiceXML語音瀏覽器中的重要概念。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么,如何說,好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識別引擎的識別率,使整個語音應(yīng)用的瀏覽流暢而輕松。

VoiceXML 語音瀏覽器中,語音識別引擎不僅需要處理對用戶語音信號的識別,同時也需要處理對用戶按鍵的識別,按鍵和語音以同樣的機制被處理和傳遞。

(3).語音合成引擎

語音合成引擎,其處理VoiceXML 解析器將文字轉(zhuǎn)換為語音信號,并通過語音通道播放給用戶的命令。VoiceXML 語音合成引擎可以將文字轉(zhuǎn)換成語音文件,也可以轉(zhuǎn)換成語音數(shù)據(jù)流,或者直接將已事先錄制好的語音文件直接播放或以流的方式播放給語音通道。

語音合成引擎的文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對系統(tǒng)的直接感覺,流暢自然的合成聲音,將使用戶感覺良好。如何提高語音合成引擎的合成品質(zhì),已成為影響語音應(yīng)用效果的重要因素。

(4).語音通道

語音通道是在VoiceXML語音瀏覽器中傳輸用戶的語音(speech)數(shù)據(jù)信號和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號的傳遞通道,其連接物理上的語音采集和播放設(shè)備,語音識別引擎的語音輸入端、語音合成引擎的語音輸出端。

在基于電信平臺的語音應(yīng)用系統(tǒng)中,語音通道的物理設(shè)備主要是語音卡、語音信道或者是以數(shù)字編碼形式所存在的虛擬通道,如IP 的語音編碼數(shù)據(jù)包等。而在PC 平臺上,聲卡則成為主要的語音通道。

對不同的平臺的語音通道物理設(shè)備的支持,決定了VoiceXML語音瀏覽器可實際應(yīng)用的平臺。

2.VoiceXML語音瀏覽器各部分的協(xié)作

VoiceXML語音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過建立應(yīng)用(Application)和會話(Session),獲取包含控制命令的文檔(Document),根據(jù)文檔中的標(biāo)志(Tag)建立對話(Dialog),從而解釋各個對話,控制語音識別、語音合成引擎以及語音通道的觸發(fā)、開啟和關(guān)閉、掛起等,實現(xiàn)與用戶的會話式的交互,并根據(jù)對用戶反應(yīng)的識別結(jié)果進行導(dǎo)向判斷,進行文檔之間的轉(zhuǎn)移和應(yīng)用之間的轉(zhuǎn)移。

3.我們的VoiceXML 語音瀏覽器的開放機制

在我們的VoiceXML語音瀏覽器中,我們采用了IBM公司為電信應(yīng)用而設(shè)計的語音識別引擎,L&H公司和中國科技大學(xué)訊飛公司的語音合成引擎,以及建立于NMS公司的AG系列語音板卡之上的電信級語音通道。

在我們的VoiceXML語音瀏覽器中,我們對識別引擎和合成引擎進行了開放性的接口設(shè)計,實現(xiàn)了與引擎無關(guān)的設(shè)計。根據(jù)我們的接口,其它開發(fā)商可以開發(fā)為其它識別或合成引擎的封裝模塊,從而在我們的VoiceXML語音瀏覽器中使用其它的識別或合成引擎。

而我們?yōu)閂oiceXML語音瀏覽器設(shè)計了與語音通道無關(guān)的接口設(shè)計,其它開發(fā)商可以根據(jù)接口封裝語音通道的模塊,實現(xiàn)基于其它語音板卡、IP甚至PC機、PDA 等的語音通道,使VoiceXML語音瀏覽器可以建立于其它的物理平臺之上。

我們的VoiceXML語音瀏覽器中,所有開發(fā)接口以CORBA 規(guī)范設(shè)計,其它開發(fā)商可以用各種編程語言如C、C++、Java 等在不同的平臺和操作系統(tǒng)上實現(xiàn),從而實現(xiàn)了對各種操作系統(tǒng)平臺的支持。并且,利用CORBA 的強大的分布式機制,整個VoiceXML語音瀏覽器可以建立于跨越各種物理平臺、操作系統(tǒng)之上的分布式網(wǎng)絡(luò)中。

4.如何在VoiceXML 語音瀏覽器上開發(fā)語音應(yīng)用?

在voiceXML 語音瀏覽器上開發(fā)語音應(yīng)用,如同開發(fā)Web應(yīng)用一樣輕松簡單。只需要有對XML的知識,就可以開發(fā)VoiceXML 應(yīng)用;赩oiceXML 的語音應(yīng)用系統(tǒng)可以很好的和其它已有的Web 應(yīng)用系統(tǒng)或數(shù)據(jù)應(yīng)用系統(tǒng)良好的結(jié)合。

開發(fā)VoiceXML 語音應(yīng)用:

在VoiceXML語音瀏覽器基礎(chǔ)的應(yīng)用開發(fā),改變了傳統(tǒng)的CTI系統(tǒng)的開發(fā)概念,在這里,開發(fā)人員無須關(guān)心復(fù)雜的流程和模塊,無須為數(shù)據(jù)接口編寫程序模塊,無須重新建立已有系統(tǒng)的邏輯實現(xiàn),也無須一次次重復(fù)某個模塊的開發(fā)。建立VoiceXML語音應(yīng)用系統(tǒng),就和建立Web 應(yīng)用一樣簡單

四 基于VoiceXML 機制的語音應(yīng)用

1.基于VoiceXML 機制的語音應(yīng)用的特點

基于voiceXML機制的語音應(yīng)用有以下幾個特點:

2.自由自在的流程

VoiceXML語音應(yīng)用系統(tǒng)中強調(diào)對話和導(dǎo)向,而不在有固定的流程結(jié)構(gòu)限制。如同用IE 瀏覽網(wǎng)頁一樣,我們無法定義清晰的用戶可能點擊和瀏覽的順序,而是以網(wǎng)頁為單位,以鏈接為導(dǎo)向。VoiceXML 亦是以同樣的機制來完成整個應(yīng)用的瀏覽。

在VoiceXML 語音應(yīng)用中,用戶可以選擇所有激活的鏈接處,象瀏覽Web 網(wǎng)頁一樣任意跳轉(zhuǎn)到其它頁中去。根據(jù)用戶的語音命令和對事件的捕獲,可以跳轉(zhuǎn)到其他應(yīng)用、其它文檔、甚至其它對話中去。

而利用Java Script 、ASP、Perl等描述語言,VoiceXML應(yīng)用可以動態(tài)的根據(jù)用戶的選擇、預(yù)制模板和其它數(shù)據(jù)環(huán)境動態(tài)地產(chǎn)生新的應(yīng)用或文檔以及語法定義,實現(xiàn)流程的動態(tài)生成,使VoiceXML 語音應(yīng)用不再受預(yù)先制定好的流程規(guī)范的限制。

3.無所限制的內(nèi)容

XML 的機制決定了VoiceXML 腳本語言不僅可以描述數(shù)據(jù)的式樣,其同樣描述數(shù)據(jù)的內(nèi)容和含義。而只要有共同規(guī)范的DTD 定義,VoiceXML 腳本可以輕松的與其它XML腳本交換數(shù)據(jù),理解其它XML腳本應(yīng)用中的數(shù)據(jù)含義。這就是說,其它的基于XML腳本的Web 應(yīng)用、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)文檔都可以輕松的和VoiceXML腳本結(jié)合起來。VoiceXML 應(yīng)用可以輕松的解釋它們的數(shù)據(jù)內(nèi)容,并通過適當(dāng)?shù)谋憩F(xiàn)式樣體現(xiàn)出來。

利用Java Script 、ASP 、Perl 等描述語言所建立的程序,可以訪問其它各種各樣的數(shù)據(jù)來源,不僅可以產(chǎn)生動態(tài)的瀏覽流程,同樣可以產(chǎn)生動態(tài)的內(nèi)容。正如在Web 應(yīng)用中ASP 所產(chǎn)生的動態(tài)網(wǎng)頁一樣,我們產(chǎn)生的動態(tài)VoiceXML語音網(wǎng)頁具有同樣的瀏覽自由度和內(nèi)容自由度。

正如基于VoiceXML 的語音郵件應(yīng)用所表現(xiàn)的那樣,通過主頁的導(dǎo)向,根據(jù)不同用戶的用戶ID ,利用Java Script 或ASP等進行對郵件服務(wù)器的訪問,根據(jù)郵件數(shù)據(jù)、郵件格式和郵件內(nèi)容會產(chǎn)生不同的VoiceXML 郵件網(wǎng)頁。不同的用戶所訪問到的郵件網(wǎng)頁的結(jié)構(gòu)和內(nèi)容都是不同的。

4.個性定制的體現(xiàn)

不同于傳統(tǒng)CTI系統(tǒng)對每個用戶的服務(wù)都一模一樣的方式,VoiceXML應(yīng)用可以根據(jù)用戶自己的喜好定制自己需要的內(nèi)容。根據(jù)已有用戶的信息數(shù)據(jù),如用戶的特征,用戶選擇的項目等,利用模板機制,可以生成完全個性化的應(yīng)用流程和內(nèi)容。

在VoiceXML 語音應(yīng)用系統(tǒng)中,用戶不僅可以定制他們各自喜好的服務(wù)項目,甚至可以定制他們期望的內(nèi)容、格式和風(fēng)格,完全體現(xiàn)自己的個性化。

在基于VoiceXML 的語音門戶應(yīng)用中,用戶也可以自己開發(fā)編寫自己的語音網(wǎng)頁,自由體現(xiàn)自我,建立自己的個人語音網(wǎng)站,展示自我個性。

五 應(yīng)用示例

1.VoiceXML 語音郵件

VoiceXML 語音郵件應(yīng)用,使用戶可以通過電話等聲音設(shè)備收發(fā)電子郵件。在基于VoiceXML的語音郵件應(yīng)用中,用戶可以自由的選擇性收聽郵件、只聽標(biāo)題或內(nèi)容、順序瀏覽、隨時刪除。利用通訊本功能,用戶通過說出姓名即可發(fā)送語音形式的郵件,讓對方聽到自己的聲音信息。

2.VoiceXML股票查詢

基于VoiceXML 的股票查詢應(yīng)用系統(tǒng),用戶無須記住股票代碼,只需說出股票名稱即可。用戶可以選擇性定制自己所關(guān)心的幾支股票,只查詢這幾支股票的信息。通過更為復(fù)雜的模板定制,用戶還可以定制他們關(guān)心的股票價格、成交量等細(xì)節(jié)內(nèi)容,以喜好的風(fēng)格來聽取,用戶也可以定制提醒、報警等功能,及時處理。

3.VoiceXML 天氣查詢

基于VoiceXML 的天氣查詢系統(tǒng),選擇用戶所關(guān)心的幾個城市,隨時查詢天氣情況,以便安排出行、旅游。

4.VoiceXML 語音游戲

試試和電腦玩玩猜拳游戲吧,聽聽電腦贏時的得意和輸時的抱怨,看看你能不能幾句話說得電腦低頭服輸?

北京無限商機供稿 CTI論壇編輯



相關(guān)鏈接:
融合通訊還有多遠(yuǎn)? 2003-04-15
我國語音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標(biāo)準(zhǔn)規(guī)范VAP探討 2002-03-04
北京無限商機 2002-03-04
北郵UBO共建實驗室致力語音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機 2001-12-20