首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

 

基于VoiceXML 的應(yīng)用系統(tǒng)規(guī)范提綱
(征求意見稿)

中國移動互聯(lián)應(yīng)用協(xié)議特別組---中文&漢語專家組 2001年7月

一 互聯(lián)網(wǎng)絡(luò)與語音應(yīng)用技術(shù)

以互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè)為中國帶來了巨大的機會和挑戰(zhàn),中國社會開始進入一個以信息為核心的時代。如何快速準確地獲取所關(guān)心的信息,對人們的日常工作和生活已經(jīng)具有越來越重要的影響。

至今為止,Internet 的訪問模式逐漸從單一的PC/HTML訪問方式向多種用戶終端發(fā)展 ,如:移動電話、PDA、機頂盒等。而我們知道,人類習(xí)慣于輕松簡單的說話,以語音的方式,通過友好的、人性的交互直接獲取信息和服務(wù),而并不愿依靠鍵盤和鼠標。近年來語音技術(shù)的飛速發(fā)展和不斷成熟,以及中文語音應(yīng)用技術(shù)的突破,為信息網(wǎng)絡(luò)帶來了一種極具誘惑的信息終端-----電話。

語音,是人類最為熟悉的交流方式。人有70%的信息獲取是通過聽,而90%的信息表達是通過說。語音是人們詢問問題,交換觀念、分享經(jīng)驗和建立關(guān)系的最主要方式,人類通過語音傳達著大量的信息。

語音應(yīng)用技術(shù)(Voice Application Technology ),是指人們可以使用有線電話或移動電話,以及PC、PDA和其它智能設(shè)備通過語音識別、語音合成的交互技術(shù),語音瀏覽、智能信息處理等技術(shù)實現(xiàn)人們訪問互聯(lián)網(wǎng)絡(luò),以及實現(xiàn)個人服務(wù)和商業(yè)服務(wù)的應(yīng)用技術(shù)。

語音應(yīng)用技術(shù),是語音技術(shù)(ASR和TTS。⒄Z音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,其形成一個完整的技術(shù)應(yīng)用規(guī)范體系,建立于已有的相關(guān)技術(shù)協(xié)議標準上,著重于應(yīng)用開發(fā)。

語音應(yīng)用技術(shù)是跨接在以語音為核心的電話網(wǎng)絡(luò)和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡(luò)兩者之間的一座橋梁,有線電話和移動電話成為了互聯(lián)網(wǎng)絡(luò)的信息終端,為人們以自然語言交互的方式來遨游信息世界打開了一扇自由的大門。語音應(yīng)用技術(shù)覆蓋語音識別、語音合成、語音瀏覽、語音集成、語音交互、Web服務(wù)等技術(shù)領(lǐng)域,可以輕松介入現(xiàn)有的網(wǎng)絡(luò)信息系統(tǒng),集成現(xiàn)有的各類信息處理技術(shù),如Web 、WAP、GPRS等等。

語音應(yīng)用技術(shù),使人們可以自由的以對話(Dialog)的方式與機器和遠端語音服務(wù)器交談,以語音(Speech)的方式命令機器為自己服務(wù)。這是人類長久以來的夢想,而這個夢想正是通過語音瀏覽技術(shù)而得以實現(xiàn)。

語音瀏覽技術(shù),類似于Web瀏覽技術(shù),它以一種XML標記語言為數(shù)據(jù)載體,通過各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語音瀏覽器所解析,通過語音的方式呈現(xiàn)給用戶。這類似于Web 與 IE瀏覽器的概念,只不過IE 以圖象的方式在顯示器上將信息呈現(xiàn)出來,而語音瀏覽器以語音的方式在電話、手機或其它語音通道中呈現(xiàn)。IE 接受用戶的鼠標和鍵盤指令,而語音瀏覽器接受用戶的說話為指令。

二 VoiceXML

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應(yīng)用于語音瀏覽的標記語言,它建立于XML 標記語言規(guī)范的基礎(chǔ)之上,是語音瀏覽技術(shù)的核心,其與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒有障礙。

通過VoiceXML ,可以很容易的建立新的語音應(yīng)用,如語音門戶、語音Call Center ,語音信息服務(wù)、語音電子商務(wù)等等應(yīng)用。而這些應(yīng)用可以很容易的和原有的數(shù)據(jù)系統(tǒng)結(jié)合起來,甚至可以輕易的從原有的各類應(yīng)用中發(fā)展出來。而VoiceXML 的語音應(yīng)用,可以以XML的數(shù)據(jù)表達形式,與其它的應(yīng)用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易的交互。

通過VoiceXML 建立的語音應(yīng)用系統(tǒng),可以為基于VoiceXML 的語音瀏覽器所廣泛支持。語音瀏覽器通過解析VoiceXML ,與語音識別和語音合成等方式進行人機交互,從而實現(xiàn)說話就可以上網(wǎng)的夢想。而語音瀏覽器不僅僅可以建立于電話服務(wù)器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。

正是VoiceXML 將語音交互引入了數(shù)據(jù)瀏覽的世界,使電話等以語音為主要形式的設(shè)備成為新型的網(wǎng)絡(luò)終端,并以自然、對話、簡單的特點,使之具備了更為廣泛的普及性和友好性。這種瀏覽機制為語音應(yīng)用領(lǐng)域展現(xiàn)了一個廣闊的未來。

Voicexml是基于XML(eXtensible Markup Language)標準的,其思想采用了現(xiàn)在流行的HTML的模式,Vxml解釋器的設(shè)計原理也采用了Html瀏覽器的設(shè)計思路,而且在現(xiàn)在階段,Vxml的服務(wù)器實際上就是一個WWW服務(wù)器。
自動電話業(yè)務(wù)是現(xiàn)在電話業(yè)務(wù)中的增長迅速的領(lǐng)域,由于Internet的出現(xiàn),使得用戶有了新的獲取信息的手段,但是由于電話的易用性,和長期的客戶群使得訪問自動業(yè)務(wù)的更多的是電話用戶,應(yīng)用提供者會發(fā)現(xiàn),利用現(xiàn)在Web中的技術(shù)來生成業(yè)務(wù),將是一種高效、快捷的方式。Vxml做到了將Web和電話的結(jié)合,而且使得內(nèi)容提供商的開發(fā)工作得到有效的保護,它可以應(yīng)用于不同的系統(tǒng),不會因為系統(tǒng)的擴容和系統(tǒng)切換導(dǎo)致業(yè)務(wù)的描述失效,真正做到了業(yè)務(wù)與平臺無關(guān)。

VoiceXML系統(tǒng)結(jié)構(gòu)如下圖所示:

其工作過程如下:

1.由解析器等待電話用戶的接入,如果有電話連接到Vxml文檔服務(wù)中,電話平臺將通知解析器,并將相關(guān)信息通知解析器;

2.解析器啟動解析器核心,解吸器核心向文檔服務(wù)器獲取Vxml文檔;

3.解析器核心解析文檔語義,根據(jù)語義和用戶發(fā)生交互,其中包括通過平臺向用戶播放語音文件或者播放文本合成語音,獲得用戶的按鍵輸入或者語音輸入;

4.文檔結(jié)束,解析器核心結(jié)束工作。

三 應(yīng)用體系結(jié)構(gòu)

基于VoiceXML的語音瀏覽技術(shù),應(yīng)用語音應(yīng)用技術(shù),我們可以建立豐富的語音應(yīng)用。諸如語音門戶、語音聲訊查詢、電話交易、V-commerce以及統(tǒng)一消息平臺(UMS) 應(yīng)用等等。

一個基于VoiceXML語音瀏覽技術(shù)的語音應(yīng)用的體系結(jié)構(gòu)如下圖所示:

在這樣的體系結(jié)構(gòu)中,各種終端通過PSTN網(wǎng)絡(luò)聯(lián)接到語音網(wǎng)關(guān),而通過語音網(wǎng)關(guān)來訪問后臺的數(shù)據(jù)服務(wù)、應(yīng)用服務(wù),或者通過互聯(lián)網(wǎng)絡(luò)訪問各個語音ICP。

從邏輯層次上,一個完整的語音應(yīng)用體系包括以下幾個層次:

其邏輯層次結(jié)構(gòu)中包括以下組成部分:

根據(jù)該體系,建設(shè)語音應(yīng)用系統(tǒng)需要實現(xiàn)三個部分:

1.語音網(wǎng)關(guān)
2.語音ICP
3.終端設(shè)備

四 VoiceXML 語音網(wǎng)關(guān)規(guī)范

語音網(wǎng)關(guān)是整個體系結(jié)構(gòu)中的核心部分,其跨接在PSTN網(wǎng)絡(luò)和互聯(lián)網(wǎng)絡(luò)之間,使電話用戶可以通過之訪問建立于互聯(lián)網(wǎng)絡(luò)或其他數(shù)據(jù)網(wǎng)絡(luò)之上的各種語音應(yīng)用和服務(wù)。

通過分析國際上各種語音網(wǎng)關(guān)系統(tǒng)極其技術(shù)規(guī)范,特別是參照 W3C組織的"Voice Browser" Activity的框架,我們認為作為一個比較完整的語音網(wǎng)關(guān)標準體系,應(yīng)該包含以下具體標準規(guī)范的制定,通常稱之為標準需求。下圖顯示所需的規(guī)范類型及其相互關(guān)聯(lián)。

以下是關(guān)于各個規(guī)范的簡介:

1.網(wǎng)關(guān)架構(gòu)規(guī)范

該規(guī)范定義建立一個總體架構(gòu)的參照模型,使之能滿足基于VoiceXML瀏覽機制的語音平臺的需要。該規(guī)范具體規(guī)定:

1)定義一個描述系統(tǒng)結(jié)構(gòu)的框架;
2)定義一個描述系統(tǒng)結(jié)構(gòu)、功能與應(yīng)用的詞匯表和符號集;
3)定義一個在系統(tǒng)構(gòu)件之間進行信息交換的格式、協(xié)議和方法;
4)為系統(tǒng)構(gòu)件定義必需的和可選的外界硬件接口和軟件程序接口;
5)為系統(tǒng)構(gòu)件的行為定義規(guī)則、規(guī)范與約定;
6)指出系統(tǒng)構(gòu)件應(yīng)該使用的外部服務(wù)和設(shè)備以建立和支持信息交換。

總之,本規(guī)范將為系統(tǒng)構(gòu)建提供文件和配置指南。

2.術(shù)語詞匯規(guī)范

本規(guī)范將定義所有的在本標準體系中其他規(guī)范中需使用的術(shù)語和詞匯。

3.信路與路由相關(guān)規(guī)范

該規(guī)范定義在語音網(wǎng)關(guān)系統(tǒng)中,所支持的信路標準,以及各種信路之間的路由控制、各種信路的接口和信令轉(zhuǎn)換規(guī)范。

4.用戶管理與計費規(guī)范

本規(guī)范定義在語音網(wǎng)關(guān)系統(tǒng)中,對用戶的管理機制和針對不同用戶需求和其自定義的相關(guān)信息的管理機制。其中還包括按時計費或按項目計費的規(guī)范。

5.語音瀏覽器相關(guān)規(guī)范

該規(guī)范中定義語音網(wǎng)關(guān)所使用的語音瀏覽器的具體規(guī)范,其中包括瀏覽器中的解析器規(guī)范、識別引擎、合成引擎、語音通道等以及各模塊之間的溝通和互動機制。

6.Media與控制規(guī)范

該規(guī)范定義在語音網(wǎng)關(guān)中,所支持的Media 格式、編碼和各media 文件的存儲、組織和管理規(guī)范,以及Media 的控制機制。

7.本地化標準

該規(guī)范定義在語音網(wǎng)關(guān)中,對本地化文字、語言的支持和實現(xiàn)規(guī)范,包括多語種支持和未來可能實現(xiàn)的語種轉(zhuǎn)換。

8.數(shù)據(jù)與元數(shù)據(jù)規(guī)范

在語音網(wǎng)關(guān)中,我們將對各類數(shù)據(jù)對象的描述信息稱為元數(shù)據(jù),而本規(guī)范應(yīng)當定義對這些數(shù)據(jù)對象的查找、管理和使用。通過定義一個統(tǒng)一的結(jié)構(gòu),對數(shù)據(jù)對象進行描述,從而增強各數(shù)據(jù)對象的互操作性。

五 語音ICP建設(shè)規(guī)范

本規(guī)范為語音應(yīng)用體系的服務(wù)方提供通用的HTTP綁定內(nèi)容,這樣開發(fā)者在服務(wù)器端和客戶端(主要是服務(wù)器端)進行系統(tǒng)開發(fā)時能夠遵循一致的內(nèi)容傳送和查詢的要求。

在這些規(guī)范中,我們將定義:

1.語音應(yīng)用描述規(guī)范

該規(guī)范定義如何描述一個語音應(yīng)用,主要是針對voiceXML規(guī)范的理解和支持規(guī)范,以及基于VoiceXML描述的語音應(yīng)用的體系規(guī)范和數(shù)據(jù)定義。

2.語音應(yīng)用語法描述規(guī)范

該規(guī)范主要描述在對語音網(wǎng)關(guān)的支持中,如何根據(jù)語音網(wǎng)關(guān)的識別引擎和合成引擎的特性,描述和定義識別語法和合成語法,并制定和管理可重用的語法模塊。以及一些通用性的語法模塊的規(guī)范定義和接口定義。

3.數(shù)據(jù)應(yīng)用開發(fā)規(guī)范

該規(guī)范將定義在語音應(yīng)用中,針對不同的數(shù)據(jù)內(nèi)容,應(yīng)該建立相應(yīng)的開發(fā)規(guī)范,使之符合語音應(yīng)用服務(wù)的特征和語音網(wǎng)關(guān)的需求,為用戶提供優(yōu)質(zhì)的良好交互性的服務(wù)。在數(shù)據(jù)應(yīng)用開發(fā)規(guī)范中,定義對不同數(shù)據(jù)服務(wù)系統(tǒng)和開發(fā)語音的支持(如對各種Web Application Server 的支持以及對java Bean 和Java Script 等語言和對象描述的支持)。以及各種數(shù)據(jù)應(yīng)用中的交互接口規(guī)范。

4.發(fā)布和管理規(guī)范

在該規(guī)范中,定義語音應(yīng)用在語音網(wǎng)關(guān)上的發(fā)布和鏈接規(guī)范,并定義對已發(fā)布或測試狀態(tài)中的語音應(yīng)用的管理規(guī)范。使語音網(wǎng)關(guān)能夠清晰的實現(xiàn)對各個語音ICP發(fā)布的語音服務(wù)應(yīng)用的執(zhí)行和管理,建立在線動態(tài)內(nèi)容更新機制以及針對服務(wù)項目性的計費管理、日志管理或遠程維護、控制。

五 終端產(chǎn)品規(guī)范

針對語音應(yīng)用體系,在用戶端的終端產(chǎn)品可以大有所為。而終端產(chǎn)品規(guī)范則定義在終端產(chǎn)品中語音應(yīng)用服務(wù)所帶來的技術(shù)改變和實現(xiàn)規(guī)范。

該規(guī)范包括:

1.語音信號處理規(guī)范

該規(guī)范定義在各種終端設(shè)備中,針對語音應(yīng)用服務(wù)系統(tǒng)的特性需求,需要對語音信號進行的編碼處理、抗噪處理和噪聲過濾等技術(shù)規(guī)范。

2.熱鍵定義規(guī)范

該規(guī)范試圖建立一種將電話按鍵與特色語音應(yīng)用項目之間的對應(yīng)規(guī)范,定義諸如 1 鍵 對于語音郵件 ,* 鍵對應(yīng)幫助、#鍵對應(yīng)按鍵輸入結(jié)束等等的熱鍵定義規(guī)范,建立用戶對語音應(yīng)用系統(tǒng)和服務(wù)項目的使用習(xí)慣。

3.內(nèi)嵌式數(shù)據(jù)服務(wù)規(guī)范

該規(guī)范定義在語音應(yīng)用體系中,可以針對語音應(yīng)用的特色而在終端設(shè)備中可以嵌入的一些數(shù)據(jù)服務(wù)的具體技術(shù)規(guī)范,如基于智能卡的身份認證、數(shù)據(jù)銀行、電子卡貨幣等,以及未來可能實現(xiàn)的內(nèi)嵌語音識別或合成引擎、數(shù)據(jù)交換規(guī)范等等。

我們可以預(yù)見,在不久的將來電話作為信息訪問的終端將遠遠超過電腦的數(shù)量。語音應(yīng)用技術(shù)將成為統(tǒng)一信息、統(tǒng)一網(wǎng)絡(luò)的移動互聯(lián)中的重要技術(shù)成分。作為高科技的網(wǎng)絡(luò)信息對廣大的中國百姓將不在神秘,中國百姓將隨時隨地在對電話機或手機說話,享受語音應(yīng)用技術(shù)為他們帶來的美好服務(wù)。



相關(guān)鏈接:
關(guān)于制定中國移動互聯(lián)網(wǎng)語音應(yīng)用協(xié)議標準的建議 2001-11-12
語音互聯(lián)再造Internet 2001-10-22
語音系統(tǒng)開發(fā)的新平臺:VoiceXML瀏覽器 2001-10-19
TTS與語音識別軟件 2001-09-21
Office XP中文語音功能的開發(fā) 2001-09-13