首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)  語音合成產(chǎn)品

 

語音應(yīng)用開財源

盧曉信、段云峰 2001/06/25

  語音技術(shù),雖然在國外出現(xiàn)得很早,但在國內(nèi)開始步入實用領(lǐng)域,還是最近的事情。這一方面是因為硬件處理能力的提高,另一方面也是因為漢語處理在技術(shù)上已經(jīng)有所突破。國外有資料顯示,語音技術(shù)在未來的幾年里,將以31%的年增長率進(jìn)行發(fā)展。

  語音技術(shù)主要是指基于語音進(jìn)行處理的技術(shù),主要包括:語音識別ASR、語音合成TTS等等。


  語音技術(shù)進(jìn)入商用


  語音技術(shù)開辟了一個如此巨大的應(yīng)用市場,那么目前的語音技術(shù)發(fā)展到何種程度了呢?

  技術(shù)成熟進(jìn)入商用

  在技術(shù)方面,英語的語音技術(shù)比漢語的語音技術(shù)的商用程度更廣,實用程度更好。國內(nèi)在漢語的語音技術(shù)方面,語音合成技術(shù)比較成熟,已經(jīng)達(dá)到了商用的標(biāo)準(zhǔn)。而在語音識別方面,雖然已經(jīng)有一些產(chǎn)品開始投入商用,但還有很多的技術(shù)問題要解決。

  廠家眾多

  由于語音技術(shù)不僅要涉及到軟件算法,而且也要涉及到硬件的實現(xiàn)技術(shù)問題,因此,目前的語音技術(shù)廠家,也分為幾類。

  有的是從傳統(tǒng)的CTI語音板卡廠商的角度,在產(chǎn)品中增加語音處理功能,國內(nèi)像深圳東進(jìn)技術(shù)、飛環(huán),國外NMS、Intel通信產(chǎn)品事業(yè)部的Dialogic板卡;有的完全是語音技術(shù)的科研機(jī)構(gòu),根據(jù)自己的研究成果,進(jìn)行產(chǎn)品化,例如中國科技大學(xué)的訊飛公司、清華大學(xué)的人機(jī)交互與媒體集成研究所等。在語音識別方面,國外的IBM、飛利浦、Nuance等公司,均有相關(guān)的產(chǎn)品;國內(nèi)的有香港的InfoTalk、捷通等。

  在語音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來實現(xiàn),有的專門設(shè)計了硬件芯片。


  促進(jìn)網(wǎng)絡(luò)的融合


  語音技術(shù)的發(fā)展,帶動了網(wǎng)絡(luò)的融合過程。目前,世界上的兩大通信網(wǎng)絡(luò)是電信網(wǎng)和計算機(jī)網(wǎng),電信網(wǎng)絡(luò)是以語音信號為處理對象,計算機(jī)網(wǎng)絡(luò)則是以數(shù)據(jù)對象為其處理內(nèi)容。而語音技術(shù)為兩個網(wǎng)絡(luò)的結(jié)合,奠定了技術(shù)基礎(chǔ)。

  在為用戶服務(wù)的過程中,兩種網(wǎng)絡(luò)分別扮演不同的角色。

  語音接入通過PSTN

  目前,人們進(jìn)行信息交流的主要方式,還是通過電話網(wǎng)。用戶可以通過撥打一個電話號碼,接入到信息訪問中心。

  語音處理依靠計算機(jī)網(wǎng)絡(luò)

  計算機(jī)網(wǎng)絡(luò)最大的優(yōu)點是處理信息的能力十分強(qiáng)大。因此,采用語音技術(shù),計算機(jī)就可以讀懂用戶想要哪方面的信息,并自動尋找該信息,然后,通過語音技術(shù)將信息以語音的形式回放給用戶。

  這就形成了一個理想的網(wǎng)絡(luò)信息訪問模式,電話網(wǎng)絡(luò)負(fù)責(zé)語音接入,計算機(jī)網(wǎng)絡(luò)負(fù)責(zé)信息的處理。


  開辟新應(yīng)用


  語音技術(shù)的應(yīng)用十分廣泛。

  金融方面

  采用了語音技術(shù)后,通過電話,不用人工的干預(yù),就可以進(jìn)行賬戶余額查詢,完成賬戶間的轉(zhuǎn)賬等工作。不僅提高了工作的效率,也改善了服務(wù)的形象。

  證券方面

  用戶通過電話可以查詢當(dāng)前的股市情況,不用再按電話上的按鍵,而是直接說出自己關(guān)心的股票的名稱,例如“深發(fā)展”,然后計算機(jī)就通過語音合成技術(shù),將結(jié)果播報出來。這樣,用戶就不用記那些股票號碼了。

  電信方面

  采用語音技術(shù),在電信業(yè)務(wù)中將產(chǎn)生很多的應(yīng)用。例如在“114”電話黃頁中,目前還要有大量的人工服務(wù),而如果采用語音技術(shù),就可以不用人工服務(wù),讓計算機(jī)自動接聽用戶的需要,然后回放查詢的電話號碼。

  旅游方面

  用戶可以通過電話,自動查詢那些感興趣的景點的語音介紹材料,相當(dāng)于請了一個電話導(dǎo)游。而且出現(xiàn)問題時,也可以通過電話,進(jìn)行各種求助。

  尋呼方面

  尋呼目前還是通過尋呼小姐記下用戶要尋呼的目標(biāo)號碼,然后將內(nèi)容輸入到尋呼系統(tǒng)進(jìn)行發(fā)射。采用語音技術(shù)后,可以讓計算機(jī)自動地進(jìn)行整個操作過程。

  娛樂方面

  語音技術(shù)在娛樂方面,也可以激發(fā)出許多的新應(yīng)用。例如,在通過電話進(jìn)行電視MTV點播時,可以避免重復(fù)地按電話上的按鍵,而是直接說出哪個歌手的哪首歌,電視臺就接受語音輸入,而播放相應(yīng)的曲目。


  面臨問題


  可以看到,將來成熟的語音技術(shù)將會帶來巨大的影響,但目前的語音技術(shù)還存在著一些問題,而且,單靠語音技術(shù)也是不夠的,要和其他領(lǐng)域的知識進(jìn)行結(jié)合,才能產(chǎn)生豐富的應(yīng)用。

  語音識別技術(shù)方面

  目前,在漢語方面,語音合成的技術(shù)已經(jīng)達(dá)到了實用階段,但在語音識別方面,還有很多問題要解決。

  用戶的獨立性問題:就是如何識別不同嗓音和口音的用戶,而無需通過軟件訓(xùn)練來實現(xiàn)。

  自然語音理解能力:能夠直接了解用戶的需要,就像人一樣,可以通過幾個簡單縮語,就可以明白對方的想法。

  插入處理能力:插入能力允許用戶在系統(tǒng)提示時中斷系統(tǒng),但系統(tǒng)仍然能夠知道用戶的請求。

  聲紋識別問題:每個人的聲音都有一定的特點,是否也能夠像識別指紋一樣,識別聲紋呢?這樣許多鑒權(quán)應(yīng)用將十分簡單。

  業(yè)務(wù)策略方面

  業(yè)務(wù)的應(yīng)用情況,也取決于業(yè)務(wù)的管理水平,業(yè)務(wù)的營銷能力、服務(wù)水平、售后能力等因素,也同樣制約著最終業(yè)務(wù)的應(yīng)用情況。

摘自《中國計算機(jī)報》



相關(guān)鏈接:
L&H瓦解 語音技術(shù)走向移動 2001-06-22
語音合成技術(shù)與電信應(yīng)用 2001-06-06
捷通語音技術(shù)又獲突破 2001-06-06
統(tǒng)一消息平臺中的語音技術(shù) 2001-06-04
文本-可視語音轉(zhuǎn)換及其應(yīng)用 2001-06-04