首頁>>廠商>>語音識(shí)別與合成>> 北京無限商機(jī)

語音互聯(lián)再造Internet

2001/10/22


  VoiceXML引爆語音互聯(lián)


  VoiceXML(語音可擴(kuò)展標(biāo)記語言)是由IBM、Lucent、Motorola、AT&T四家國際巨型公司于2000年提出的一種應(yīng)用于語音瀏覽的標(biāo)記語言,它建立于XML標(biāo)記語言規(guī)范的基礎(chǔ)之上,是下一代互聯(lián)網(wǎng)(Internet2)交互語音應(yīng)用的核心。它可以與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)進(jìn)行無縫資料交換,突破性地實(shí)現(xiàn)互聯(lián)網(wǎng)與電話網(wǎng)的融合,為語音應(yīng)用領(lǐng)域展現(xiàn)出一個(gè)更為廣闊的未來。目前VoiceXML已被W3C組織接受為國際工業(yè)標(biāo)準(zhǔn)。

  VoiceXML的主要特點(diǎn)是通過語音輸入和音頻輸出支持人機(jī)對(duì)話。基于VoiceXML的語音瀏覽機(jī)制與語音識(shí)別、語音合成技術(shù)、智能文字信息處理技術(shù)相結(jié)合,人們就可以通過電話或移動(dòng)電話以自然友好的語音形式訪問互聯(lián)網(wǎng),實(shí)現(xiàn)個(gè)人和商業(yè)服務(wù)的語音應(yīng)用。

  1999年,AT&T、IBM、Lucent和Motorola等公司組成了VoiceXML論壇(www.voicexml.org),討論所涉及的主要內(nèi)容,包括將VoiceXML確定為通過話音和電話利用Internet內(nèi)容的標(biāo)準(zhǔn)、用VoiceXML解釋程序取代HTML解釋程序,以及用人的語音取代鼠標(biāo)和鍵盤等。由于VoiceXML技術(shù)和語音技術(shù)的快速發(fā)展,已經(jīng)有150多家公司和組織加入了VoiceXML論壇,其中包括一些非常有名的通信公司,積極支持和推動(dòng)基于VoiceXML的應(yīng)用。

  在標(biāo)準(zhǔn)的統(tǒng)一與開放方面,中文VoiceXML已與國際標(biāo)準(zhǔn)完全接軌。由21家通信行業(yè)領(lǐng)頭單位共同倡導(dǎo)成立的“中國互聯(lián)網(wǎng)移動(dòng)應(yīng)用協(xié)議特別組”(CMIS)中文&漢語專家組,已提出了基于VoiceXML的應(yīng)用系統(tǒng)規(guī)范提綱,標(biāo)志著中文VoiceXML語音技術(shù)應(yīng)用標(biāo)準(zhǔn)正在逐步醞釀和推進(jìn)。北京無限商機(jī)通信技術(shù)有限公司和中國網(wǎng)通是移動(dòng)互聯(lián)網(wǎng)交互式語音應(yīng)用技術(shù)標(biāo)準(zhǔn)及產(chǎn)品規(guī)范課題的主承擔(dān)單位,承擔(dān)單位同時(shí)包括中國電信、中國移動(dòng)、Intel、Nokia、Motorola、中電東方通信、億陽信通、北京郵電大學(xué)等。


  超凡誘惑:會(huì)說話就能上網(wǎng)


  電話是最為普及的通信工具。世界上現(xiàn)在有10億電話終端,另外,有超過2億的移動(dòng)電話用戶。從絕對(duì)數(shù)量上看,個(gè)人計(jì)算機(jī)的數(shù)量遠(yuǎn)遠(yuǎn)低于電話終端的數(shù)量。目前,我國的PC上網(wǎng)用戶不過2000多萬,而固定電話和移動(dòng)電話用戶是PC用戶的10多倍,且增長勢頭迅猛。而且,在眾多國內(nèi)固定電話和移動(dòng)電話用戶中,不懂或不熟悉鍵盤操作的用戶占4/5。移動(dòng)通信終端的小鍵盤、小屏幕更是移動(dòng)互聯(lián)網(wǎng)發(fā)展的最大障礙。

  另一方面,語音是人類最原始最有效的交流方式。人有70%的信息是通過聽來獲取的,而90%的信息是通過說來表達(dá)的。語音是人們?cè)儐枂栴}、交換觀念、分享經(jīng)驗(yàn)和建立關(guān)系的最主要的方式。

  通過電話來上網(wǎng),以“說話”來代替鍵盤輸入,只要撥一個(gè)電話,就可以上網(wǎng)查股票、“聽”新聞、收郵件、叫出租車,對(duì)于許多不懂電腦或由于各種原因無法使用電腦上網(wǎng)的人來說,這無疑是一個(gè)夢想。而現(xiàn)在,這個(gè)夢想可以通過語音瀏覽技術(shù)得以實(shí)現(xiàn)。

  在國外,以Tellme.com和Nuance 、SpeechWorks為代表的企業(yè)異軍突起,倡導(dǎo)人性化的語音上網(wǎng)服務(wù),隨后TellmeNetworks、Yahoo!、Lycos和AOL等公司都相繼推出了語音門戶網(wǎng)站。國內(nèi)的TOM.COM也于去年11月底推出了“TOM及時(shí)語”語音門戶網(wǎng)站。繼PC、WAP手機(jī)上網(wǎng)之后,語音上網(wǎng)將掀起第三次上網(wǎng)浪潮。


  語音瀏覽:語音互聯(lián)的核心


  通過電話來“聽”網(wǎng)上的信息的前提是需要一個(gè)公共語言。建立于XML標(biāo)記語言規(guī)范基礎(chǔ)之上的VoiceXML(語音可擴(kuò)展標(biāo)記語言),可以與數(shù)據(jù)庫、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)進(jìn)行無縫資料交換,突破性地實(shí)現(xiàn)互聯(lián)網(wǎng)與電話網(wǎng)的融合。通過VoiceXML,可以像建立HTML的Web 應(yīng)用一樣輕松地建立語音應(yīng)用系統(tǒng)。

  用戶想知道某公司的當(dāng)前股價(jià),就打電話到提供該服務(wù)的公司。電話網(wǎng)上傳來的聲音信息通過DN URL的映射,到達(dá)了該網(wǎng)站的VoiceXML服務(wù)器。聲音信息要與互聯(lián)網(wǎng)上的文本信息很好地結(jié)合起來,實(shí)現(xiàn)快速自動(dòng)交換,這就需要一個(gè)解析器,把文本、語音、圖像的數(shù)據(jù)以一個(gè)統(tǒng)一格式快速交換。在此基礎(chǔ)上,需要通過瀏覽器來接受用戶的請(qǐng)求,找出用戶所需要的內(nèi)容,然后再把內(nèi)容呈現(xiàn)給用戶,如圖1所示。

  Internet的核心是瀏覽。語音瀏覽技術(shù),類似于互聯(lián)網(wǎng)上的Web瀏覽技術(shù),它以一種XML標(biāo)記語言為數(shù)據(jù)載體,通過各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server的方式為語音瀏覽器所解析,通過語音的方式呈現(xiàn)給用戶。這類似于Web與IE瀏覽器的概念,只不過IE以圖像的方式在顯示器上將信息呈現(xiàn)出來,而語音瀏覽器以語音的方式在電話、手機(jī)或其它語音手持設(shè)備的通道中呈現(xiàn)。IE接受用戶的鼠標(biāo)和鍵盤指令,而語音瀏覽器接受用戶的說話為指令。語音瀏覽器通過解析VoiceXML,與語音識(shí)別和語音合成等方式進(jìn)行人機(jī)交互,從而實(shí)現(xiàn)說話就可以上網(wǎng)的夢想。

  2001年6月,由北京無限商機(jī)通信技術(shù)有限公司與北京郵電大學(xué)CTI中心聯(lián)合研制的VoiceXML中文語音瀏覽器通過了中國電信、中國移動(dòng)、中國聯(lián)通、中國網(wǎng)通、信息產(chǎn)業(yè)部郵電科技委、北京郵電大學(xué)、IBM公司專家的聯(lián)合權(quán)威技術(shù)鑒定。這是國內(nèi)首家研制成功的VoiceXML中文語音瀏覽器,它由VoiceXML解析器、語音識(shí)別引擎、語音合成引擎和語音通道等部分組成。

  VoiceXML解析器 VoiceXML解析器在語音瀏覽器中擔(dān)負(fù)控制中心的角色。VoiceXML解析器通過網(wǎng)絡(luò)協(xié)議,獲取VoiceXML腳本語言所描述的應(yīng)用文檔,解析該應(yīng)用文檔和其中各個(gè)標(biāo)志(Tag ),產(chǎn)生相應(yīng)的控制命令。

  語音識(shí)別引擎 語音識(shí)別引擎是VoiceXML語音瀏覽器的生命力所在。語音識(shí)別使計(jì)算機(jī)能理解用戶的語音命令,產(chǎn)生相應(yīng)的文字結(jié)果,送回VoiceXML解析器作處理。在VoiceXML語音瀏覽器中,語音識(shí)別引擎為命令式的識(shí)別引擎,它根據(jù)有限的語法(Grammar)來識(shí)別用戶的語音信號(hào),產(chǎn)生對(duì)應(yīng)語法定義的識(shí)別結(jié)果。在VoiceXML語音瀏覽器中,語法決定了用戶能說什么、如何說。好的語法能帶給用戶良好的交互感覺,也能從邏輯上提高語音識(shí)別引擎的識(shí)別率,使整個(gè)語音應(yīng)用的瀏覽流暢而輕松。

  圖1 語音互聯(lián)拓?fù)浣Y(jié)構(gòu)圖

  語音合成引擎 語音合成引擎將文字轉(zhuǎn)換為語音信號(hào),并通過語音通道播放給用戶。VoiceXML 語音合成引擎可以將文字轉(zhuǎn)換成語音文件,也可以轉(zhuǎn)換成語音數(shù)據(jù)流,或者將已事先錄制好的語音文件直接播放或者以流的方式播放給語音通道。語音合成引擎把文字轉(zhuǎn)化為聲音的品質(zhì),決定了用戶對(duì)系統(tǒng)的直接感覺。

  語音通道 語音通道是傳輸用戶的語音數(shù)據(jù)信號(hào)和合成引擎所產(chǎn)生的聲音數(shù)據(jù)信號(hào)的傳遞通道,它連接語音采集和播放設(shè)備、語音識(shí)別引擎的語音輸入端、語音合成引擎的語音輸出端。


  語音互聯(lián):驅(qū)動(dòng)產(chǎn)業(yè)價(jià)值鏈


  到2001年,全球?qū)⒂?0億多部電話投入使用,任何企業(yè)都不應(yīng)該置身于這些用戶視線之外。語言互聯(lián)將從根本上改變企業(yè)與用戶“溝通”的方式,以及用戶與企業(yè)互動(dòng)的方式。

  語音互聯(lián)網(wǎng)將最終形成由語音技術(shù)開發(fā)商-應(yīng)用/內(nèi)容提供商-語音服務(wù)提供商-電信運(yùn)營商-終端廠商組成的產(chǎn)業(yè)價(jià)值鏈(見圖2)。

  北京無限商機(jī)通信技術(shù)有限公司總裁廖杰遠(yuǎn)先生認(rèn)為,形成一個(gè)良性的產(chǎn)業(yè)鏈的前提,就是必須有一個(gè)非常清晰的盈利模式。語音互聯(lián)一開始就明確定位為電信的增值業(yè)務(wù)。而一項(xiàng)新的增值業(yè)務(wù)能否取得成功,取決于是否有一個(gè)開放靈活的運(yùn)行平臺(tái),是否有滿足用戶需要的豐富實(shí)用的內(nèi)容,是否有性能出色的終端產(chǎn)品,是否有清晰的商業(yè)模式。所有這些因素加起來,才有可能保證新業(yè)務(wù)的成功。這顯然不是一兩家公司可以做到的。

  在語音識(shí)別技術(shù)領(lǐng)域,IBM ViaVoice一直保持著絕對(duì)的領(lǐng)先地位。中國科技大學(xué)訊飛公司推出了KD-2000漢語文語轉(zhuǎn)換系統(tǒng),將語音合成技術(shù)推進(jìn)到應(yīng)用水平。北京無限商機(jī)通信技術(shù)有限公司作為語音技術(shù)開發(fā)商,已在語音瀏覽這一核心技術(shù)領(lǐng)域取得突破。

  由于語音應(yīng)用還處于初級(jí)階段,目前語音互聯(lián)網(wǎng)面臨的最大的問題是服務(wù)和應(yīng)用內(nèi)容本身。不管是國外還是國內(nèi),語音門戶的數(shù)量還相當(dāng)少,提供的服務(wù)大多比較單調(diào),僅限于郵件、新聞、股票信息、天氣等一些本地化和個(gè)人化非常強(qiáng)的信息,而且,受閱讀速度和電話資費(fèi)等方面因素的影響,目前這些信息都經(jīng)過高度的“精簡”。與傳統(tǒng)互聯(lián)網(wǎng)的海量信息相比,語音網(wǎng)站只能提供高度個(gè)性化和本地化的服務(wù)。因此,如果不完善服務(wù),形成規(guī)模,語音網(wǎng)站要想真正贏得用戶的青睞還比較困難。

 圖2 語音互聯(lián)產(chǎn)業(yè)鏈

  但我們同時(shí)也應(yīng)該看到,無論國外還是國內(nèi),已經(jīng)有越來越多的廠商支持和開發(fā)基于VoiceXML在電子商務(wù)、通信、呼叫中心服務(wù)、個(gè)人信息服務(wù)、娛樂、辦公等方面的語音應(yīng)用。在基于VoiceXML 的語音門戶應(yīng)用中,用戶還可以自己開發(fā)編寫自己的語音網(wǎng)頁,自由體現(xiàn)自我,建立眾多的個(gè)人語音網(wǎng)站。另外,對(duì)傳統(tǒng)Internet的改造或移植是語音互聯(lián)網(wǎng)的一個(gè)趨勢,這樣就可以大量利用傳統(tǒng)Internet網(wǎng)絡(luò)資源為網(wǎng)絡(luò)用戶提供語音服務(wù)。

  移動(dòng)夢網(wǎng)計(jì)劃的出臺(tái)使運(yùn)營商能夠與ICP合作分成,提供全新的應(yīng)用服務(wù)。這無疑也將有力推動(dòng)基于VoiceXML的語音應(yīng)用以及語音互聯(lián)網(wǎng)的發(fā)展。

  對(duì)電信運(yùn)營商而言,語音互聯(lián)網(wǎng)意味著話費(fèi)收入的增加,競爭力的加強(qiáng)。目前在美國,申請(qǐng)語音服務(wù)的用戶平均話費(fèi)增長為12.8%。對(duì)服務(wù)提供商來說,語音門戶提供了較為清晰的盈利模式,是進(jìn)入開放電信行業(yè)的良好途徑;對(duì)內(nèi)容提供商,語音應(yīng)用帶來新的贏利增長點(diǎn),并獲得用戶的倍速擴(kuò)展;對(duì)電話終端廠商,語音上網(wǎng)無疑是新的產(chǎn)品賣點(diǎn)和增值點(diǎn)。

  語音門戶方興未艾


  語音門戶網(wǎng)站一般都采用了語音識(shí)別及合成技術(shù),相對(duì)于傳統(tǒng)的互聯(lián)網(wǎng)服務(wù)來說,它所提供的服務(wù)都是以語音的形式提交的,用戶只要撥打服務(wù)商的電話號(hào)碼,通過簡單的語音口令,就可以獲得所需的網(wǎng)絡(luò)服務(wù),從而將互聯(lián)網(wǎng)的門檻降低到“零”。

  據(jù)Kelsey咨詢公司估計(jì),到2005年,在北美會(huì)有4500萬無線電話用戶經(jīng)常使用語音門戶。

  事實(shí)上,語音門戶在國外的發(fā)展相對(duì)于國內(nèi)較早。在Yahoo!宣布與Net2Phone聯(lián)手向Yahoo!郵件用戶提供基于電話的Internet內(nèi)容服務(wù)、語音郵件及免費(fèi)長話服務(wù)之后,其競爭對(duì)手Lycos也推出了新的語音門戶。Oracle移動(dòng)電話分公司OracleMobile.com也在其無線網(wǎng)絡(luò)入口站點(diǎn)上添加了語音。此外,還有美國在線、InternetSpeech.com、Quack.com和TelSurf等公司也提供語音門戶網(wǎng)站。

  2000年11月24日,TOM.COM在國內(nèi)開通了語音門戶“TOM及時(shí)語”,用戶通過撥打熱線電話,通過與系統(tǒng)的語音交互,就可獲得個(gè)人理財(cái)、語音郵件、航班查詢、北京地區(qū)酒店預(yù)定、定餐及叫車、全球新聞、天氣預(yù)報(bào)等方面的服務(wù)。北京無限商機(jī)網(wǎng)絡(luò)技術(shù)有限公司也推出了“電話家園”服務(wù),針對(duì)電話用戶提供電話郵件、股票、游戲、航班、個(gè)人主頁、購票等語音應(yīng)用服務(wù)。

中國計(jì)算機(jī)報(bào) 2001/10/22



相關(guān)鏈接:
融合通訊還有多遠(yuǎn)? 2003-04-15
我國語音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統(tǒng)一標(biāo)準(zhǔn)規(guī)范VAP探討 2002-03-04
北京無限商機(jī) 2002-03-04
北郵UBO共建實(shí)驗(yàn)室致力語音數(shù)據(jù)兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機(jī) 2001-12-20