語音技術(shù)的拓展與展望
清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所
蔡蓮紅 吳志勇 王瑋 陶建華 王志明
2001/06/01
研究現(xiàn)狀
1.語音識別獲得應(yīng)用
伴隨著語音識別技術(shù)的不斷發(fā)展,誕生了全球首套多語種交談式語音識別系統(tǒng)E-talk。這是全球惟一擁有中英混合語言的識別系統(tǒng),能聽能講普通話、廣東話和英語,還可以高度適應(yīng)不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國地區(qū)語言差別較大的廣大用戶。由于E-talk可以大大提高工作效率,降低運(yùn)營成本,并為用戶提供更便捷的增值服務(wù),我們相信它必將成為電信、證券、金融、旅游等重視客戶服務(wù)的行業(yè)爭相引用的電子商務(wù)應(yīng)用系統(tǒng),并成為電子商務(wù)發(fā)展的新趨勢,為整個(gè)信息產(chǎn)業(yè)帶來無限商機(jī)。
目前,飛利浦推出的語音識別自然會(huì)話平臺SpeechPearl和SpeechMania已成功地應(yīng)用于國內(nèi)呼叫中心,SpeechPearl中的每個(gè)識別引擎可提供高達(dá)20萬字的超大容量詞庫,尤其在具有大詞匯量、識別準(zhǔn)確性和靈活性等要求的各種電信增值服務(wù)中有著廣泛的應(yīng)用。
2.語音合成信息服務(wù)被用戶接受
語音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽的聲音信息,其應(yīng)用的經(jīng)濟(jì)效益和社會(huì)效益前景良好。尤其對漢語語音合成技術(shù)的應(yīng)用而言,全球有十幾億人使用中文,其市場需求、應(yīng)用前景和經(jīng)濟(jì)效益等可見一斑。
語音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域智能電話查詢系統(tǒng)中展開應(yīng)用,并迅速推廣。在電話高度普及的今天,如果打電話就能查詢到所需信息,無疑將給人們的日常生活帶來極大方便。漢語語音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi),對現(xiàn)有的電話查詢系統(tǒng)將產(chǎn)生革命性的影響。
語音技術(shù)與互聯(lián)網(wǎng)已成功地結(jié)合。電話Internet網(wǎng)關(guān)是一種用于實(shí)現(xiàn)電話網(wǎng)和Internet網(wǎng)之間信息互訪的系統(tǒng)。簡而言之,就是讓電話用戶能夠輕松地通過電話訪問Internet網(wǎng)。系統(tǒng)的功能主要體現(xiàn)在兩個(gè)方面。一方面,讓用戶通過電話、手機(jī)或傳真機(jī)隨時(shí)隨地訪問Internet上的各種信息,如新聞、電子郵件等,大大擴(kuò)展了Internet信息的用戶群和地域范圍,同時(shí)大大降低了用戶參與到Internet的技術(shù)難度;另一方面,能夠?qū)㈦娫捊K端上信息流或控制指令發(fā)送到Internet上,例如用戶可以通過電話方便地發(fā)送電子郵件和類似的留言信息,不僅具有傳統(tǒng)的語音信箱功能,還可以將用戶語音以IP的方式廉價(jià)地發(fā)送到全球任何一個(gè)電腦或電話終端上,大大降低了信息交流的成本。利用語音合成技術(shù)的信息服務(wù)得到了用戶的廣泛接納,給用戶生活提供了極大的方便。
3.面向?qū)ο蟮恼Z音編碼
長期以來,在通信網(wǎng)的發(fā)展中,解決信息傳輸效率是一個(gè)關(guān)鍵問題,極其重要。目前科研人員已通過兩個(gè)途徑研究這一課題,其一是研究新的調(diào)制方法與技術(shù),來提高信道傳輸信息的比特率,指標(biāo)是每赫茲帶寬所傳送的比特?cái)?shù);其二是壓縮信源編碼的比特率,例如標(biāo)準(zhǔn)PCM編碼,對3.4kHz頻帶信號需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話路數(shù)。這對任何頻率資源有限的傳輸環(huán)境來說,無疑是極為重要的,尤其是在無線通信技術(shù)決定今后通信發(fā)展命運(yùn)的今天更顯得重要。實(shí)際上,壓縮語音編碼比特率與話音存儲、語音識別及語音合成等技術(shù)都直接相關(guān)。
語音編碼技術(shù)的進(jìn)展對通信新業(yè)務(wù)的發(fā)展有極為明顯的影響,例如IP電話業(yè)務(wù)、實(shí)時(shí)長途翻譯業(yè)務(wù)、交換機(jī)的人工智能接口等。因此,國際電報(bào)電話咨詢委員會(huì)(CCITT)第15組提出了許多急需制訂的話音編碼標(biāo)準(zhǔn)建議,以推動(dòng)通信網(wǎng)的發(fā)展。由于VLSI的發(fā)展,實(shí)現(xiàn)這一技術(shù)的代價(jià)已從在昂貴的信道中采用,發(fā)展到一般信道中都可接受的水平,因此,編碼技術(shù)日益受到重視。當(dāng)前,數(shù)字移動(dòng)通信和個(gè)人通信(PCN)是深受人們重視的通信手段,其重要問題之一是壓縮語音編碼速率,形成面向?qū)ο蟮恼Z音編碼技術(shù)。
數(shù)字語音編碼技術(shù)從1938年提出PCM開始,其編碼方法已有了很大的發(fā)展,如1968年提出的線性預(yù)測編碼技術(shù)(LPC)、20世紀(jì)70年代末出現(xiàn)的隱馬科夫技術(shù)(HMM)以及矢量量化(VQ)等。
當(dāng)前,語音編碼技術(shù)不僅受到研究部門、應(yīng)用部門的重視,而且推動(dòng)了標(biāo)準(zhǔn)的制訂,因?yàn)闃?biāo)準(zhǔn)是工業(yè)生產(chǎn)的一個(gè)重要前提,對通信體制的確定有很大影響。目前,關(guān)于低速率語音編碼的算法發(fā)展較快,它可應(yīng)用的范圍也相當(dāng)廣泛,人們將從中獲得極大的效益。這些對推動(dòng)各種通信標(biāo)準(zhǔn)及網(wǎng)絡(luò)的建設(shè)都十分重要。
4.口語機(jī)器翻譯受到重視
口語翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流,近來越來越受到人們的重視。首先,聾啞人要戴上一副特制的手套,計(jì)算機(jī)根據(jù)他打出的手語進(jìn)行識別,然后,通過語音合成系統(tǒng)就可以把圖像信息翻譯成語言信息。同時(shí),系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語,只要將正常人說的話鍵入計(jì)算機(jī),經(jīng)程序分析處理之后,翻譯成有表情、有動(dòng)作的三維圖像,從而最終達(dá)到聾啞人與正常人之間通過翻譯機(jī)進(jìn)行交流的目的?谡Z翻譯的研究在其他很多方面都有重要價(jià)值,如用手勢控制計(jì)算機(jī),甚至用手勢導(dǎo)航等。
語音合成的最新進(jìn)展
1.神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練韻律模型
由于人工神經(jīng)網(wǎng)絡(luò)具備良好的自學(xué)習(xí)和自適應(yīng)能力,將其應(yīng)用于語音合成系統(tǒng)中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡(luò)模型與已有的文語轉(zhuǎn)換系統(tǒng)有機(jī)結(jié)合,可以改變傳統(tǒng)的文語轉(zhuǎn)換系統(tǒng)的韻律模型,具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性,使合成語音的自然度得到顯著提高,增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。
2.?dāng)?shù)據(jù)挖掘用于發(fā)現(xiàn)語音知識
數(shù)據(jù)挖掘作為一種在大量數(shù)據(jù)庫中發(fā)現(xiàn)隱藏新知識的計(jì)算技術(shù)方法,通過語音定性模型的建立,將數(shù)據(jù)分析和挖掘結(jié)果轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式進(jìn)行表達(dá)。因此,將數(shù)據(jù)挖掘和人機(jī)交互接口緊密地聯(lián)系在一起,將對計(jì)算機(jī)語音信號處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語音信號處理提供了一條嶄新的研究途徑。
3.文本-可視語音轉(zhuǎn)換系統(tǒng)研制成功
文本-可視語音轉(zhuǎn)換技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物,也迎合了社會(huì)發(fā)展的需求。它給人們的生活增添了新的色彩,使計(jì)算機(jī)更加人性化,人們與計(jì)算機(jī)的交流變得更為簡單。相信在不久的將來,它會(huì)在眾多的技術(shù)、商業(yè)和娛樂領(lǐng)域得到廣泛的應(yīng)用,并逐步進(jìn)入我們每個(gè)人的生活。
拓展語音計(jì)算
1.韻律研究與感知相結(jié)合
韻律是語音信號的自身屬性,它反映了一個(gè)人說話時(shí)的語調(diào)高低和時(shí)間長短信息,同時(shí)反映了說話人說話時(shí)的語境信息。韻律模塊也是語音合成系統(tǒng)中的重要組成模塊,韻律參數(shù)研究的成功與否直接影響合成系統(tǒng)的輸出。感知信息主要體現(xiàn)說話人對一句話中某些部分的強(qiáng)調(diào)和語句重音信息,語句重音也會(huì)對系統(tǒng)的合成輸出產(chǎn)生很大的影響,因此,要想得到較好的語音合成效果,需要對韻律和感知進(jìn)行深入的研究。
2.從語法、語義層面探索語音計(jì)算的理論和方法
語音計(jì)算中包含對語言語法、語義的理解,語音合成系統(tǒng)的輸出不僅僅取決于語音數(shù)據(jù)音質(zhì)的好壞,同時(shí)在很大程度上受到所處理文本的語法及語義現(xiàn)象的制約,如果沒有正確的語法描述、合理地體現(xiàn)語義信息,就不可能產(chǎn)生很好的合成效果。而獲得這種相互關(guān)系只有通過對大量的語言現(xiàn)象進(jìn)行分析總結(jié),形成規(guī)則描述。為了更加客觀地進(jìn)行描述,可以借助于人工智能領(lǐng)域里的數(shù)據(jù)挖掘方法,因此,語音計(jì)算的關(guān)鍵技術(shù)是挖掘語法、語義和語音之間的相互關(guān)系,采用規(guī)則描述,將這種關(guān)系結(jié)合到實(shí)際合成語音系統(tǒng)中,提高語音合成輸出的自然度。
3.建設(shè)海量語音數(shù)據(jù)資源
語音計(jì)算的成功與否在很大程度上取決于語音資源的積累。目前,在比較先進(jìn)的語音處理方法中,無一例外都提到了采用基于數(shù)據(jù)的驅(qū)動(dòng)方式,然而這種方式首先就需要大量的語料數(shù)據(jù),沒有大語料,數(shù)據(jù)的驅(qū)動(dòng)就無從談起。因此,為了盡可能地覆蓋各種語言現(xiàn)象,需要長期積累各種語音資源,同時(shí)對于語音信號的處理也需要大量的語音處理軟件。這些都是日積月累的過程。
語音技術(shù)的研究方向
1.連續(xù)自然語音的識別與理解
自然語音識別與理解研究的是計(jì)算機(jī)如何理解人類的語言,其目的就是讓計(jì)算機(jī)能夠理解人說的話,當(dāng)我們使用計(jì)算機(jī)時(shí),只要告訴它應(yīng)該做什么,它就能按照所理解的去執(zhí)行。雖然現(xiàn)在自然語音識別與理解的理論研究得到了進(jìn)一步完善,同時(shí),計(jì)算機(jī)的功能、容量和速度都有了很大的提高,但研究仍局限在對孤立音節(jié)的識別與理解上。人類流暢的自然發(fā)音不是孤立音節(jié)發(fā)音的簡單組合,它是在一定時(shí)間范圍內(nèi)輸出的一種連續(xù)語流,因此,需要對連續(xù)語音進(jìn)行處理。連續(xù)語音識別與理解技術(shù)中需要解決的難點(diǎn)很多,對它的研究是語音技術(shù)今后的目標(biāo)之一。
2.高自然度、具有表現(xiàn)力的合成語音
提高合成語音的自然度仍然是高性能文語轉(zhuǎn)換的當(dāng)務(wù)之急。就漢語語音合成來說,目前在單字和詞組級上,合成語音的可懂度和自然度已基本解決,但是對于句子乃至篇章級,其自然度問題就比較大。未來的文語轉(zhuǎn)換系統(tǒng)的發(fā)展趨勢是采用基于語境相關(guān)的合成思想進(jìn)行設(shè)計(jì),能夠?qū)l(fā)音人的原始發(fā)音特征最大限度地保留下來,輔助以先進(jìn)的層次化語言韻律模型,通過分散統(tǒng)計(jì)的模型方法來涵蓋語義語音之間的內(nèi)在聯(lián)系,使系統(tǒng)能夠輸出具有高自然度和表現(xiàn)力的合成語音。但是,在目前的合成系統(tǒng)中,普遍存在合成輸出語音的機(jī)器味比較濃、語境的知識層次模型研究不完善等問題。因此,獲得高自然度、具有表現(xiàn)力的合成語音也是今后語音技術(shù)的研究目標(biāo)之一。
3.語音技術(shù)與多媒體技術(shù)的結(jié)合
伴隨著現(xiàn)代語音技術(shù)的不斷發(fā)展,人類對語音信號的需要已經(jīng)不僅僅停留在可懂性和正確性上,語音合成技術(shù)的研究方向已是合成語音的美感并同時(shí)輸出輔助的視頻特征,實(shí)現(xiàn)虛擬主持人的效果,通過將視覺效果包括人的頭部建模、唇形同步技術(shù)和表情因素等視頻信息的加入,可以更好地體現(xiàn)語音合成系統(tǒng)的表現(xiàn)力和感染力。因此,我們完全有理由相信,語音技術(shù)和多媒體技術(shù)的有機(jī)結(jié)合將使合成系統(tǒng)展現(xiàn)出廣闊的應(yīng)用前景。
4.語音技術(shù)與網(wǎng)絡(luò)技術(shù)的結(jié)合
目前,語音技術(shù)已逐漸應(yīng)用于電信的聲訊信息服務(wù)領(lǐng)域和互聯(lián)網(wǎng)消息收發(fā)方面。隨著電話網(wǎng)與互聯(lián)網(wǎng)的融合、網(wǎng)絡(luò)信息項(xiàng)目的增多和時(shí)效性要求逐步提高,建立適合于股票交易、航班動(dòng)態(tài)查詢、電話自動(dòng)報(bào)稅等業(yè)務(wù)的語音系統(tǒng)成為可能,電話用戶可以通過傳統(tǒng)的語音、傳真獲取互聯(lián)網(wǎng)上無窮無盡的信息。這些業(yè)務(wù)將徹底解決傳統(tǒng)數(shù)字錄音回放技術(shù)所無法解決的海量信息庫和動(dòng)態(tài)變化信息的實(shí)時(shí)生成與存儲的難題,因此,將語音技術(shù)與網(wǎng)絡(luò)進(jìn)行完美的結(jié)合具有強(qiáng)大的生命力。
5.多語種
語言是人們交流的工具,不同民族有自己不同的語言,不同語言之間的交流在今天開放的信息社會(huì)和網(wǎng)絡(luò)時(shí)代顯得十分重要,因此,多語種的文語合成有著獨(dú)特的應(yīng)用價(jià)值。例如在自動(dòng)電話翻譯、有聲電子郵件等應(yīng)用中都提出了多語種語音合成的需求,即使是對漢語合成也有多方言文語轉(zhuǎn)換問題。理想的多語種合成系統(tǒng)最好是各種語言共用一種合成算法或語音合成器,但現(xiàn)有的語音合成系統(tǒng)大多是針對某一種語言或若干種語言開發(fā)出來的,所采用的算法及規(guī)則都是與某種語言密切相關(guān)的,因此很難推廣到其他語種。如漢語和西方語言之間存在著很大的差異,而目前國內(nèi)的系統(tǒng)都是做漢語文語轉(zhuǎn)換的,其韻律控制規(guī)則完全不適合于英語,而且它們主要是合成漢語普通話的,即使推廣到廣東話和上海話都有相當(dāng)?shù)碾y度?梢娨嬲鉀Q多語種的文語合成,從文本處理到語音合成都必須有新的思路,因此,研制多語種語音合成轉(zhuǎn)換系統(tǒng)具有重要的理論和現(xiàn)實(shí)意義。
《計(jì)算機(jī)世界》 2001/06/01
神經(jīng)網(wǎng)絡(luò)與漢語TTS韻律模型 2001-06-01 |
語音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11 |
VoiceXML簡介 2001-04-19 |
語音網(wǎng)站不是信息臺 2001-02-16 |
網(wǎng)絡(luò)與電話技術(shù)的完美結(jié)合 -- VoiceXml 2001-02-07 |