一、產(chǎn)品背景
捷通華聲公司于2002年12月承接了國(guó)家信息產(chǎn)業(yè)部下達(dá)的《奧運(yùn)之聲-面向奧運(yùn)的多語(yǔ)種聲訊服務(wù)平臺(tái)》任務(wù)的開(kāi)發(fā)工作。以此項(xiàng)目為基礎(chǔ),捷通華聲全力投入到多語(yǔ)種語(yǔ)音合成平臺(tái)的設(shè)計(jì)和開(kāi)發(fā)工作中,并將此作為jTTS4.0升級(jí)的重要內(nèi)容。
在2003年4月,捷通華聲公司又承擔(dān)了北京市科委下達(dá)的《面向奧運(yùn)的多語(yǔ)種語(yǔ)音合成產(chǎn)品研制》項(xiàng)目。這一項(xiàng)目是《面向奧運(yùn)的多語(yǔ)言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)》的一項(xiàng)重要的子課題,《面向奧運(yùn)的多語(yǔ)言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)》是北京市科學(xué)技術(shù)委員會(huì)批準(zhǔn)的2003年至2004年度重點(diǎn)科研項(xiàng)目,也是科技奧運(yùn)十大專(zhuān)項(xiàng)之一。多語(yǔ)種語(yǔ)音合成產(chǎn)品是構(gòu)成整個(gè)服務(wù)網(wǎng)絡(luò)系統(tǒng)的重要組成部分,其主要目的是:借助語(yǔ)音合成技術(shù),利用計(jì)算機(jī)將文本自動(dòng)播報(bào)出來(lái),按用戶選定的語(yǔ)種自動(dòng)播報(bào)出來(lái),本產(chǎn)品支持包括漢語(yǔ)、英語(yǔ)、日語(yǔ)在內(nèi)的多種語(yǔ)言,從而打破語(yǔ)言的界限和隔閡,及時(shí)地以無(wú)障礙的語(yǔ)音形式提供各類(lèi)奧運(yùn)信息;采用語(yǔ)音這種最自然的人機(jī)交流方式,提供信息發(fā)布、信息查詢、人機(jī)交互等多種形式的信息服務(wù),保證任何人在任何時(shí)間、任何地點(diǎn)、通過(guò)任何手段獲取奧運(yùn)相關(guān)信息。
《jTTS4.0多語(yǔ)種語(yǔ)音合成平臺(tái)產(chǎn)品》正是在這個(gè)背景下推出的。我們相信,這一產(chǎn)品的推出,必然會(huì)有力地促進(jìn)國(guó)際交流,推動(dòng)奧運(yùn)建設(shè),為"科技奧運(yùn)"、"人文奧運(yùn)"貢獻(xiàn)自己的力量。
二、產(chǎn)品結(jié)構(gòu)
1、核心結(jié)構(gòu)
jTTS4.0多語(yǔ)種語(yǔ)音合成平臺(tái)系統(tǒng)結(jié)構(gòu)如上圖所示。jTTS4.0多語(yǔ)種語(yǔ)音合成平臺(tái)是以一種開(kāi)發(fā)式的架構(gòu)進(jìn)行設(shè)計(jì)的,其核心是一套統(tǒng)一的對(duì)外編程接口(API-Application Programming Interface),即jTTS API 4.0,以及統(tǒng)一的多語(yǔ)種引擎管理模塊,即jTTS_ML.DLL。多語(yǔ)種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語(yǔ)種引擎管理模塊的調(diào)度下進(jìn)行實(shí)際的合成工作,而目前尚未提供的其他語(yǔ)種的引擎也可以方便地加入到這個(gè)體系結(jié)構(gòu)中來(lái)。
jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等則為各個(gè)語(yǔ)種的TTS實(shí)際引擎。引擎和音色庫(kù)的基本概念如下:
- 開(kāi)發(fā)工具包--包括開(kāi)發(fā)所需的頭文件、鏈接庫(kù)文件、示例程序。
- 基本運(yùn)行時(shí)刻庫(kù)--包括最基本的引擎管理模塊,通用工具,說(shuō)明書(shū)等。
- 多個(gè)獨(dú)立的資源包--每個(gè)資源包針對(duì)某個(gè)音庫(kù)以及一個(gè)特定領(lǐng)域。
三、產(chǎn)品特點(diǎn)
- 支持多語(yǔ)種,支持多領(lǐng)域的設(shè)置。
- 支持音色的查找、訪問(wèn)、加載等。
- 支持SSML(語(yǔ)音合成標(biāo)記語(yǔ)言,Speech Synthesis Markup language)。
- 可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。
- 支持GB(包括 GB2312, GBK, GB18030)、Big5 、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8 等各種字符集,自動(dòng)識(shí)別具有 BOM 標(biāo)記的 Unicode 文本。
- 支持同步、異步合成一個(gè)Session ,通過(guò)被動(dòng)的回調(diào)函數(shù)方式給用戶傳遞數(shù)據(jù)。在原有版本的主動(dòng)獲取語(yǔ)音數(shù)據(jù)的基礎(chǔ)上又提供了一個(gè)選擇。
- 可以外掛語(yǔ)音格式轉(zhuǎn)換程序。
- 全新的中英文混讀引擎
- 預(yù)處理功能
- 采用了基于分詞和詞性標(biāo)注一體化的前端分析算法以及基于統(tǒng)計(jì)的韻律詞分析算法,提供了更好的韻律分析結(jié)果,閱讀更為自然流暢。
- 全面改進(jìn)了多音字處理算法,多音字的誤讀率大為下降。
- 改進(jìn)了數(shù)字符號(hào)讀法的分析算法,數(shù)字符號(hào)的讀法的閱讀準(zhǔn)確率更高。同時(shí)支持?jǐn)?shù)字、符號(hào)讀法的外部規(guī)則使用,提供給用戶自行定義數(shù)字符號(hào)讀法的方法。
- 多領(lǐng)域支持
- 對(duì)SSML的支持
中文引擎放棄了原來(lái)使用的第三方的英文引擎(即Microsoft Free的SAPI 英文引擎),采用了自行開(kāi)發(fā)的英文引擎,達(dá)到了清晰流利、中英文同一音色的效果。
中文引擎在預(yù)處理部分做了比較大的改進(jìn):
中文引擎提供了多個(gè)領(lǐng)域的優(yōu)化資源包。例如,在天氣預(yù)報(bào)領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫(kù),在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫(kù)、預(yù)選音音庫(kù)等。通過(guò)這些針對(duì)不同專(zhuān)業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時(shí),多領(lǐng)域支持也采用了一種模塊化的方式,用戶可以自行安裝不同領(lǐng)域的資源包。
SSML(Speech Synthesis Markup Language) 語(yǔ)音合成標(biāo)記語(yǔ)言定義了一套豐富的,基于 XML 的標(biāo)記語(yǔ)言以支持在Web語(yǔ)音瀏覽器或者其它應(yīng)用程序中生成合成語(yǔ)音。這一標(biāo)記語(yǔ)言的的主要作用在于提供給合成內(nèi)容的作者一個(gè)標(biāo)準(zhǔn)的方法來(lái)控制語(yǔ)音的各個(gè)方面,例如發(fā)音、音量、語(yǔ)速、基頻等。
捷通華聲公司供稿 CTI論壇編輯