神經(jīng)網(wǎng)絡(luò)與漢語(yǔ)TTS韻律模型
陶建華 蔡蓮紅 2001/06/01
韻律模型
每個(gè)人說(shuō)話的語(yǔ)音中都有一個(gè)基本頻率,被稱做基頻,它體現(xiàn)了說(shuō)話人聲音的高低。在漢語(yǔ)文語(yǔ)轉(zhuǎn)換系統(tǒng)(TTS)中,對(duì)基頻、語(yǔ)音單元的長(zhǎng)度、說(shuō)話停頓、能量等韻律信息進(jìn)行預(yù)測(cè)的模塊一般稱做韻律模塊。
眾所周知,漢語(yǔ)是一個(gè)有調(diào)的語(yǔ)言,這是它與其他西方語(yǔ)系最大的不同之處。漢語(yǔ)的每一個(gè)字(兒化音除外),通常都被認(rèn)為是一個(gè)有調(diào)的音節(jié)。每一個(gè)聲調(diào)都有一些固定的調(diào)型(基頻形狀),但我們通常所說(shuō)的話往往是由多個(gè)字組成的連續(xù)語(yǔ)句,這些聲調(diào)的調(diào)型受相鄰其他字或詞的影響,常常會(huì)產(chǎn)生變換,甚至失去原有的調(diào)型,這就是漢語(yǔ)中常說(shuō)的協(xié)同發(fā)音現(xiàn)象。這也就是為什么人說(shuō)話時(shí)會(huì)有連續(xù)感,而不是一個(gè)字一個(gè)字地發(fā)音。同時(shí),連續(xù)語(yǔ)句發(fā)音的中間還會(huì)有短暫的停頓,這些又體現(xiàn)了人說(shuō)話的節(jié)奏感。漢語(yǔ)TTS韻律模型的主要任務(wù)就是根據(jù)文字中的信息,通過(guò)對(duì)基頻、音長(zhǎng)、停頓等參數(shù)的預(yù)測(cè),達(dá)到控制TTS系統(tǒng)發(fā)音方式的目的,使發(fā)音自然、好聽(tīng)。
采用神經(jīng)網(wǎng)絡(luò)模型的背景
隨著語(yǔ)音學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展,TTS系統(tǒng)的研究目前已獲得了重大進(jìn)展,并成功地應(yīng)用在許多不同的場(chǎng)合。但是,以往語(yǔ)音合成的結(jié)果與人自然流暢的發(fā)音仍相去甚遠(yuǎn),其中的關(guān)鍵就在于語(yǔ)音韻律模型還不很完善。另外,人有思想、會(huì)思考,語(yǔ)音合成系統(tǒng)不僅應(yīng)該發(fā)音清晰、自然,還應(yīng)該能像人一樣具有自我學(xué)習(xí)的功能,具有個(gè)人特色,甚至具有模擬特定人發(fā)音的能力。
近幾年來(lái),隨著計(jì)算機(jī)處理的進(jìn)一步深入,從大量語(yǔ)料中提取連續(xù)語(yǔ)句的韻律特征已逐漸成為可能。鑒于神經(jīng)網(wǎng)絡(luò)具有良好的自動(dòng)學(xué)習(xí)和參數(shù)映射的特點(diǎn),可以使系統(tǒng)具有不斷自我學(xué)習(xí)和輸出優(yōu)化功能,因此,將神經(jīng)網(wǎng)絡(luò)用于語(yǔ)音合成系統(tǒng)的研究越來(lái)越受到重視。研究結(jié)果表明,對(duì)比傳統(tǒng)的規(guī)則語(yǔ)音合成方法,運(yùn)用神經(jīng)網(wǎng)絡(luò)技術(shù)合成的語(yǔ)音的自然度均得到了相當(dāng)程度的提高。
清華大學(xué)計(jì)算機(jī)系在國(guó)內(nèi)最早進(jìn)行了神經(jīng)網(wǎng)絡(luò)用于漢語(yǔ)TTS系統(tǒng)的研究,目前已經(jīng)取得了非常成功的結(jié)果。所提出的帶特殊加權(quán)因子的神經(jīng)網(wǎng)絡(luò)韻律模型,無(wú)論在提高TTS系統(tǒng)自然度方面,還是在執(zhí)行效率上,相比較其他已有的模型,均獲得了較大的提高。
清華大學(xué)計(jì)算機(jī)系對(duì)人機(jī)語(yǔ)音交互的研究始于1979年,并長(zhǎng)期致力于語(yǔ)音合成的聲學(xué)模型、韻律模型、文本分析、韻律描述語(yǔ)言、語(yǔ)音數(shù)字編碼、多媒體等相關(guān)技術(shù)的研究和開(kāi)發(fā)。下面介紹由清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所提出的漢語(yǔ)TTS系統(tǒng)神經(jīng)網(wǎng)絡(luò)韻律模型。
神經(jīng)網(wǎng)絡(luò)韻律模型的輸入和輸出
構(gòu)筑神經(jīng)網(wǎng)絡(luò)韻律模型必須首先解決模型的輸入和輸出問(wèn)題。對(duì)TTS系統(tǒng)來(lái)說(shuō),系統(tǒng)的輸入就是從計(jì)算機(jī)屏幕或文件中得到的文字,輸出則是連續(xù)語(yǔ)音。因此,神經(jīng)網(wǎng)絡(luò)韻律模型的輸入必須是與文字相關(guān)的信息,通常稱其為語(yǔ)境信息,而輸出則是與語(yǔ)音相關(guān)的韻律信息。
正如前面所述,當(dāng)漢語(yǔ)中多個(gè)字組成詞或詞組而連續(xù)發(fā)音時(shí),它們之間會(huì)相互影響,形成較獨(dú)立、完整的韻律塊,這些韻律塊的韻律特征對(duì)語(yǔ)音的自然度起著非常重要的作用,而不同的韻律塊組合在一起,往往可以形成不同的語(yǔ)調(diào),使人的發(fā)音具有不同的語(yǔ)氣。根據(jù)這樣的思路,可以將漢語(yǔ)的文字信息沿著語(yǔ)句(sentence)→短語(yǔ)(phrase)→音節(jié)(syllable)的思路劃分,共分為五組:音節(jié)(字)信息、相鄰音節(jié)(字)信息、短語(yǔ)信息、語(yǔ)句信息及重音信息。有17個(gè)參數(shù)能對(duì)漢語(yǔ)韻律產(chǎn)生重要的影響,這些參數(shù)就是神經(jīng)網(wǎng)絡(luò)韻律模型的輸入。當(dāng)然,這些參數(shù)都能夠從文字中得到,但必須輔以另外的文本分析模塊。
神經(jīng)網(wǎng)絡(luò)的輸出就是漢語(yǔ)韻律控制參數(shù)。在基頻方面,使用SPiS模型,如圖1所示。
圖1 漢語(yǔ)音節(jié)基頻規(guī)格化模型--SPiS
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)如圖2所示,基本可以分為三層,即輸入層(語(yǔ)境標(biāo)注矢量層)、輸出層(韻律控制矢量層)和中間隱層。
圖2 韻律神經(jīng)網(wǎng)絡(luò)模擬
語(yǔ)音學(xué)的研究表明,漢語(yǔ)較其他語(yǔ)言更強(qiáng)調(diào)文字發(fā)音的輕重和語(yǔ)氣的走勢(shì)。前面所述的模型輸入?yún)?shù)(語(yǔ)境參數(shù))被分為兩組,同時(shí)在其中一組上加入一個(gè)特殊的加權(quán)隱層,以突出改組的權(quán)重,該隱層的神經(jīng)元函數(shù)為:y=x2。
測(cè)試結(jié)果證明,加權(quán)隱層的引入使網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步體現(xiàn)了漢語(yǔ)獨(dú)特的韻律特點(diǎn),使網(wǎng)絡(luò)的收斂速度在原有的基礎(chǔ)上提高了約18%,從而較大地改善了網(wǎng)絡(luò)的收斂性。同時(shí),在模型的建立中,還利用概率分布的原理,采用輸出離散化并取其質(zhì)心的方法,對(duì)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行優(yōu)化,使網(wǎng)絡(luò)的輸出精度進(jìn)一步提高了約7%,從而增強(qiáng)了網(wǎng)絡(luò)輸出值的穩(wěn)定性,最大限度地減少了因輸入和輸出參數(shù)的隨機(jī)特性而導(dǎo)致的輸出誤差。
結(jié)果分析
1.可訓(xùn)練漢語(yǔ)TTS系統(tǒng)
圖3 可訓(xùn)練漢語(yǔ)TTS系統(tǒng)結(jié)構(gòu)
圖3給出了完整的可訓(xùn)練漢語(yǔ)TTS系統(tǒng)結(jié)構(gòu)。
系統(tǒng)的構(gòu)成分為用戶編程接口和TTS內(nèi)核兩大部分。其中,內(nèi)核部分又可按照系統(tǒng)運(yùn)作的不同過(guò)程分為多個(gè)子模塊,包含了訓(xùn)練模塊、文本分析模塊、神經(jīng)網(wǎng)絡(luò)韻律生成模塊、語(yǔ)音合成模塊以及與語(yǔ)料庫(kù)之間的通信協(xié)議等。同時(shí),系統(tǒng)還考慮了不同類型用戶對(duì)TTS系統(tǒng)功能的需要,提供了豐富的編程接口。
系統(tǒng)使用了2270個(gè)句子分別對(duì)模型進(jìn)行了訓(xùn)練和測(cè)試。語(yǔ)句內(nèi)容涵蓋了漢語(yǔ)中常見(jiàn)的句型、漢語(yǔ)中所有的讀音、文字上下文的特性、聲調(diào)、重音等信息。語(yǔ)音的采樣頻率為16kHz。其中,75%的語(yǔ)料用來(lái)進(jìn)行訓(xùn)練,而25%的語(yǔ)料則用來(lái)測(cè)試。
2.基頻控制參數(shù)(SPiS參數(shù))的測(cè)試結(jié)果
圖4 陳述句基頻曲線的測(cè)試結(jié)果
韻律模型的基頻輸出基本反應(yīng)了漢語(yǔ)語(yǔ)句的韻律特征。由圖4可以看出,其基頻參數(shù)的測(cè)試結(jié)果與真實(shí)的基頻參數(shù)比較接近,基頻變化過(guò)程基本保持了陳述語(yǔ)氣的下傾趨勢(shì),同時(shí)它還反映出了發(fā)音過(guò)程的韻律塊特性。如圖中陳述句“他總標(biāo)榜自己是一個(gè)老手”,受發(fā)音停頓的影響,“是”作為一個(gè)韻律短語(yǔ)的開(kāi)頭,其基頻和音域變得相對(duì)較高。另外,神經(jīng)網(wǎng)絡(luò)韻律模型還能很好地反映上聲變調(diào)的現(xiàn)象。如“老手”中的“老”字,受后音的影響,由上聲變?yōu)榱岁?yáng)平。
3.連續(xù)語(yǔ)句中音長(zhǎng)參數(shù)的測(cè)試結(jié)果
圖5 陳述句音節(jié)音長(zhǎng)參數(shù)的測(cè)試結(jié)果
神經(jīng)網(wǎng)絡(luò)韻律模型同樣輸出了較好的音節(jié)音長(zhǎng)參數(shù),圖5很好地反映出了語(yǔ)句音長(zhǎng)的變換趨勢(shì)。由于在自然語(yǔ)句中,音節(jié)音長(zhǎng)參數(shù)對(duì)控制音節(jié)發(fā)音的節(jié)奏和輕重起著非常重要的作用。我們對(duì)所有測(cè)試結(jié)果進(jìn)行的統(tǒng)計(jì)表明,81%的音節(jié)輸出誤差在0~50ms,約14%的音節(jié)輸出誤差在50~120ms,而只有約5%的音節(jié)輸出誤差會(huì)超過(guò)120ms。從音長(zhǎng)改變的百分比上看:89.8%的音節(jié),其音長(zhǎng)輸出誤差占目標(biāo)音長(zhǎng)的百分比在0~20%之間;另外,9%的音節(jié)輸出誤差百分比在20%~50%之間,而只有1.2%的音節(jié)輸出誤差百分比會(huì)超過(guò)50%。因此,該模型的音長(zhǎng)參數(shù)輸出結(jié)果基本上滿足了較高質(zhì)量韻律控制參數(shù)的要求。
將神經(jīng)網(wǎng)絡(luò)模型與已有的TTS系統(tǒng)相結(jié)合,改變了傳統(tǒng)的TTS系統(tǒng)的構(gòu)筑方式。新系統(tǒng)合成語(yǔ)音的自然度得到了提高,同時(shí)也使語(yǔ)音合成系統(tǒng)中的韻律模型具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性。新系統(tǒng)經(jīng)過(guò)學(xué)習(xí)和訓(xùn)練,合成的語(yǔ)音能體現(xiàn)不同的韻律特征,增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。大量測(cè)試表明,漢語(yǔ)神經(jīng)網(wǎng)絡(luò)韻律模型及其輸出參數(shù)的優(yōu)化方法,能適于漢語(yǔ)韻律特征的處理。目前,這一模型已集成在清華大學(xué)計(jì)算機(jī)系研制的語(yǔ)音合成系統(tǒng)中,輸出了較為滿意的合成語(yǔ)音,其輸出的語(yǔ)音自然度在相當(dāng)程度上幾乎可以和自然語(yǔ)音相比,整體水平上達(dá)到了國(guó)際先進(jìn)水平并獲得專家和用戶的一致好評(píng)。
《計(jì)算機(jī)世界》 2001/06/01
語(yǔ)音技術(shù)的拓展與展望 2001-06-01 |
語(yǔ)音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11 |
VoiceXML簡(jiǎn)介 2001-04-19 |
語(yǔ)音網(wǎng)站不是信息臺(tái) 2001-02-16 |
網(wǎng)絡(luò)與電話技術(shù)的完美結(jié)合 -- VoiceXml 2001-02-07 |