首頁>>廠商>>語音板卡開發(fā)商>>NMS

VoiceXML與多通道

- 語音界面的新標(biāo)準(zhǔn)

2003/01/28

  世界上最古老的用戶界面--人類語言終于在二十一世紀(jì)借助于VoiceXML,一種語音可擴(kuò)展標(biāo)記語言發(fā)展成熟起來。作為世界上第一個(gè)真正的語音通信標(biāo)準(zhǔn),它定義了應(yīng)用開發(fā)商向用戶提供新型信息訪問服務(wù)的方式。通過這種服務(wù),用戶在任何地方,都可以通過電話或任何移動(dòng)設(shè)備,虛擬訪問任何信息。VoiceXML正在被廣泛應(yīng)用于旅游、金融與信息服務(wù)等行業(yè)的各種業(yè)務(wù)領(lǐng)域中,甚至是政府部門與市政機(jī)構(gòu),全球的無線運(yùn)營商等。

  VoiceXML最初由VoiceXML論壇創(chuàng)建,現(xiàn)在VoiceXML由萬維網(wǎng)聯(lián)盟(W3C)主持。后者是一個(gè)全球性組織,它已經(jīng)制定了一系列網(wǎng)絡(luò)技術(shù)標(biāo)準(zhǔn)。其宗旨在于為用戶定義一種新方法,運(yùn)用基于Web的服務(wù)通過口頭指令和DTMF鍵盤實(shí)現(xiàn)交流,通過事先記錄的話音、合成話音或音樂流獲取信息。為了迎接這種挑戰(zhàn),W3C定義了一套在設(shè)計(jì)上與網(wǎng)頁編寫標(biāo)準(zhǔn)相類似的標(biāo)記語言,以規(guī)范應(yīng)用程序的語音問題,例如用戶對話流、自動(dòng)語音識(shí)別與相關(guān)語法、語音合成與呼叫控制等。


應(yīng)用中的VoiceXML

  在今天的通話應(yīng)用市場上,應(yīng)用VoiceXML的基本目標(biāo)在于全力擴(kuò)大現(xiàn)有網(wǎng)站及其內(nèi)容的容量,使它們適應(yīng)交互式語音響應(yīng)應(yīng)用,同時(shí)減小復(fù)雜應(yīng)用方案的編程復(fù)雜性。此外,在客戶服務(wù)器信息處理環(huán)境中,它允許語音與數(shù)據(jù)服務(wù)的輕松結(jié)合。

  VoiceXML是專門設(shè)計(jì)用于抽取應(yīng)用開發(fā)商在底層特定平臺(tái)上的編程內(nèi)容。在本質(zhì)上,由于開發(fā)商不再需要在通話平臺(tái)上編寫微小細(xì)節(jié)的地址代碼,從而簡化了語音應(yīng)用的創(chuàng)建。它實(shí)現(xiàn)了應(yīng)用程序內(nèi)容的標(biāo)準(zhǔn)化,例如話音識(shí)別語法與呼叫控制等。因此,應(yīng)用VoiceXML編譯程序的系統(tǒng),雖然具有自己的特定規(guī)格,但是無需考慮已經(jīng)抽取的特定系統(tǒng)的要求,就可以容易地移植到其他系統(tǒng)中。作為一種通用語言,VoiceXML不但適合應(yīng)用開發(fā)商,而且也適合提供新聞、天氣預(yù)報(bào)及航空服務(wù)信息的服務(wù)提供商。

  VoiceXML設(shè)計(jì)的工作原理:語音應(yīng)用程序作為系列頁存儲(chǔ)在類似于網(wǎng)絡(luò)服務(wù)器的文件服務(wù)器上。從實(shí)現(xiàn)平臺(tái)接收到輸入呼叫時(shí),VoiceXML編譯程序會(huì)向文件服務(wù)器發(fā)出一個(gè)特定URL請求,就像用戶瀏覽網(wǎng)絡(luò)時(shí)輸入網(wǎng)站地址一樣。文件服務(wù)器可以與編譯程序直接相連,也可以設(shè)置在外部,通過本地網(wǎng)或互聯(lián)網(wǎng)的IP協(xié)議訪問。他們可以保持應(yīng)用程序的服務(wù)邏輯,可以提供數(shù)據(jù)庫查找與其他系統(tǒng)操作功能。

  然后,這些頁可以向編譯程序提供系統(tǒng)需要的對話流和各種操作,例如要求呼叫用戶提供特定語音輸入。用戶的回應(yīng)影響對話編譯,會(huì)使上述請求返回文件服務(wù)器。而后,下一VoiceXML頁會(huì)完成答復(fù),從而用戶對話得以持續(xù)。

  VoiceXML應(yīng)用于簡單應(yīng)用比較理想,例如自動(dòng)值班應(yīng)用程序。在此程序中,呼叫用戶與系統(tǒng)間的對話不很復(fù)雜,用戶交互簡單。同時(shí),VoiceXML也可應(yīng)用于較為復(fù)雜的應(yīng)用中。在這些應(yīng)用中,向用戶提供多種選擇,數(shù)據(jù)檢索范圍較大;赩oiceXML的應(yīng)用接口向用戶提示事先錄制的和合成的對話,可以理解簡單的單詞和詞組。隨著這種技術(shù)的不斷改進(jìn),它可以支持更豐富的人機(jī)自然語言對話。

結(jié)構(gòu)與HTML相同

  就結(jié)構(gòu)而言,VoiceXML應(yīng)用與目前應(yīng)用廣泛的HTML應(yīng)用相同。唯一的差別在于前者使用語音瀏覽器,而后者使用Netscape或Internet Explorer作為瀏覽器。語音瀏覽器可以生成HTTP請求,形成結(jié)果標(biāo)記。在這種情況下,VoiceXML圖2說明了語音系統(tǒng)的基本結(jié)構(gòu)。

更多新規(guī)范

  由于具有一系列新規(guī)范,Voice XML性能非常強(qiáng)大。作為W3C語音瀏覽器工作組的開發(fā)內(nèi)容,每種規(guī)范都具有自己獨(dú)特的作用。盡管本文不可能詳細(xì)說明所有的這些規(guī)范,但其中的兩個(gè)是值得介紹的。

  話音合成標(biāo)記語言(SSML)規(guī)范,界定了一種通過話音合成器生成合成話音的標(biāo)準(zhǔn)方法。在語音應(yīng)用方案中,合成話音又稱之為正文-語音合成;赟un Microsystems的JSGF或JSML規(guī)范,SSML規(guī)范設(shè)計(jì)用于向應(yīng)用開發(fā)商提供一種控制合成話音輸出,如單詞發(fā)音、大小、音調(diào)、語速與節(jié)奏等的標(biāo)準(zhǔn)方法。


  SSML提供一些關(guān)鍵設(shè)計(jì)元素,幫助實(shí)現(xiàn)跨平臺(tái)和跨不同文語轉(zhuǎn)換引擎之間語音輸出的一致性。

  呼叫控制可擴(kuò)展標(biāo)記語言(CCXML),設(shè)計(jì)用于支持VoiceXML應(yīng)用中的復(fù)雜的通話呼叫控制,處理與呼叫相關(guān)的操作,諸如呼叫轉(zhuǎn)移、會(huì)議、選擇呼叫應(yīng)答與長線連接(系統(tǒng)把呼叫用戶與出站線路連接,當(dāng)出站呼叫結(jié)束時(shí),再應(yīng)答此用戶)等。此外,CCXML還提供一種電話網(wǎng)絡(luò)信號傳輸故障訪問功能。這是一種運(yùn)營商非常需要的性能。上述兩種語言既相互獨(dú)立,又相互補(bǔ)充,并且可以單獨(dú)實(shí)現(xiàn)。

多通道

  目前,存在一種話音交互與其他交互模式相融合的趨勢。多通道順應(yīng)了應(yīng)用開發(fā)商的需求。在多通道應(yīng)用中,使用話音作為輸入輸出,同時(shí)還提供數(shù)據(jù)接口訪問,例如應(yīng)用HTML的網(wǎng)絡(luò)接口、短信息服務(wù)(SMS)與無線應(yīng)用協(xié)議(WAP)等。換一種說法,多通道應(yīng)用不僅僅限于簡單的輸入輸出,還能夠容納多種模式,用戶不僅可以實(shí)現(xiàn)說、寫、打字,而且可以通過更為自然的用戶界面實(shí)現(xiàn)聽和看。

  W3C已經(jīng)認(rèn)識(shí)到,把各種不同的設(shè)備融合成一種綜合應(yīng)用的需求,并且成立了一個(gè)小組進(jìn)行研究。他們把多通道視為一種擴(kuò)展網(wǎng)絡(luò)用戶接口、應(yīng)用多種交互模式的方法,讓用戶自由選擇語音和輸入設(shè)備,例如輔助鍵盤、鍵盤、鼠標(biāo)和輸入筆等。對于輸出,用戶能夠聽到語音提示和音頻,而且能夠查看圖形顯示器上的信息。 一般來說,真正的多通道應(yīng)用將不僅允許在訪問服務(wù)器信息時(shí),不同模態(tài)共存于一個(gè)設(shè)備上,例如移動(dòng)電話,而且可以存在于多個(gè)一起使用的設(shè)備上。例如,用戶可以一邊駕車,一邊詢問行駛方向。系統(tǒng)響應(yīng)生成,并通過圖形和文本顯示器傳送到司機(jī)的個(gè)人信息終端(PDA)或全球定位系統(tǒng)設(shè)備上。

  W3C已經(jīng)認(rèn)識(shí)到,把各種不同的設(shè)備融合成一種綜合應(yīng)用的需求,并且成立了一個(gè)小組進(jìn)行研究。此機(jī)構(gòu)正在制定一種各種容量下的多通道、多設(shè)備同步化規(guī)范。 除了W3C正在進(jìn)行的工作外,其他組織機(jī)構(gòu)也認(rèn)識(shí)到多通道應(yīng)用的重要性,也提出許多不同的實(shí)現(xiàn)多通道的方法。IBM提出一種名為XHTML + 語音的設(shè)計(jì)方案,將 VoiceXML、XML和HTML相結(jié)合。此外,Microsoft、Cisco與Phiplips 語音處理以及其他一些公司共同建立一個(gè)研究機(jī)構(gòu),已經(jīng)開發(fā)出一種名為語音應(yīng)用語言標(biāo)記(SALT)的多通道設(shè)計(jì)方案。

目前的多通道應(yīng)用

  近年來,隨著社會(huì)發(fā)展步伐的加快,用戶越來越期望隨時(shí)隨地獲得信息。盡管傳統(tǒng)的計(jì)算機(jī)是獲取信息的一種最佳方式,但是用戶更時(shí)常需要通過一種小的移動(dòng)裝置,如手機(jī)、無線PDA或智能全球定位系統(tǒng)來獲得這些信息。同時(shí),盡管語音應(yīng)用正在逐漸成為了一種訪問網(wǎng)絡(luò)或公司數(shù)據(jù)的有效方法,但是在很多情況下,這種應(yīng)用適用范圍與效率都相當(dāng)?shù)汀5,?yīng)用本文所論述的性能增強(qiáng)方法,用戶可以得到更好的服務(wù)。

一些目前成功應(yīng)用VoiceXML的多通道應(yīng)用包括:

· 蜂窩廣播 - 使用SMS 通知服務(wù)用戶,某一事件發(fā)生,允許用戶即時(shí)操作按鈕接受服務(wù)。
· 遠(yuǎn)程信息處理 - 在車輛上通過語音詢問信息,并在個(gè)人數(shù)據(jù)終端查看結(jié)果。
· 語音電子郵件 - 使用語音指令發(fā)送接收電子郵件。
· 即時(shí)會(huì)議 - 在接通現(xiàn)有呼叫同時(shí),使用語音指令撥打第三方號碼,然后三方同時(shí)通話。

  事實(shí)上任何應(yīng)用方式都是可能的!

  VoiceXML與多通道應(yīng)用,目前應(yīng)用正在逐步擴(kuò)大 - 電信運(yùn)營商DoCoMo與SprintPCS等將其應(yīng)用于增值服務(wù),以增加自己的收入,旅游巨頭美聯(lián)航等將它用于旅游信息服務(wù),通用電氣等企業(yè)將它用于允許公司用戶訪問公司的數(shù)據(jù)庫等。

  本文中簡要說明的VoiceXML標(biāo)準(zhǔn)以及輔助技術(shù),正在逐步激勵(lì)應(yīng)用開發(fā)商創(chuàng)建新型服務(wù),鼓舞用戶接受新型服務(wù)的信心。

  可以在下列網(wǎng)站上查看關(guān)于VoiceXML的信息:



NMS國際通訊有限公司供稿 CTI論壇編輯



相關(guān)鏈接:
Sun X4250 和X4450主板上的NMS板卡及NA 8.0 的使用 2008-10-31
NMS公司SS7 5.0 軟件現(xiàn)在正式發(fā)布 2008-10-29
NMS TX 5000e系列擴(kuò)充了基于PCI Express的SS7產(chǎn)品線 2008-10-27
南非市場開始推廣移動(dòng)視頻應(yīng)用 2008-09-25
TouchStar呼叫中心支持NMS Open Access媒體處理平臺(tái) 2008-09-23

分類信息:     文摘   技術(shù)_voicexml_文摘