首頁>>廠商>>語音識別與合成>>捷通華聲

奧運(yùn)之聲——捷通華聲語音合成技術(shù)v4.0奧運(yùn)版

2006/01/26

一、產(chǎn)品背景

  捷通華聲公司于2002年12月承接了國家信息產(chǎn)業(yè)部下達(dá)的《奧運(yùn)之聲-面向奧運(yùn)的多語種聲訊服務(wù)平臺》任務(wù)的開發(fā)工作。以此項目為基礎(chǔ),捷通華聲全力投入到多語種語音合成平臺的設(shè)計和開發(fā)工作中,并將此作為jTTS4.0升級的重要內(nèi)容。

  在2003年4月,捷通華聲公司又承擔(dān)了北京市科委下達(dá)的《面向奧運(yùn)的多語種語音合成產(chǎn)品研制》項目。這一項目是《面向奧運(yùn)的多語言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)》的一項重要的子課題,《面向奧運(yùn)的多語言智能信息服務(wù)網(wǎng)絡(luò)系統(tǒng)》是北京市科學(xué)技術(shù)委員會批準(zhǔn)的2003年至2004年度重點科研項目,也是科技奧運(yùn)十大專項之一。多語種語音合成產(chǎn)品是構(gòu)成整個服務(wù)網(wǎng)絡(luò)系統(tǒng)的重要組成部分,其主要目的是:借助語音合成技術(shù),利用計算機(jī)將文本自動播報出來,按用戶選定的語種自動播報出來,本產(chǎn)品支持包括漢語、英語、日語在內(nèi)的多種語言,從而打破語言的界限和隔閡,及時地以無障礙的語音形式提供各類奧運(yùn)信息;采用語音這種最自然的人機(jī)交流方式,提供信息發(fā)布、信息查詢、人機(jī)交互等多種形式的信息服務(wù),保證任何人在任何時間、任何地點、通過任何手段獲取奧運(yùn)相關(guān)信息。

  《jTTS4.0多語種語音合成平臺產(chǎn)品》正是在這個背景下推出的。我們相信,這一產(chǎn)品的推出,必然會有力地促進(jìn)國際交流,推動奧運(yùn)建設(shè),為"科技奧運(yùn)"、"人文奧運(yùn)"貢獻(xiàn)自己的力量。

二、產(chǎn)品結(jié)構(gòu)

1、核心結(jié)構(gòu)


  jTTS4.0多語種語音合成平臺系統(tǒng)結(jié)構(gòu)如上圖所示。jTTS4.0多語種語音合成平臺是以一種開發(fā)式的架構(gòu)進(jìn)行設(shè)計的,其核心是一套統(tǒng)一的對外編程接口(API-Application Programming Interface),即jTTS API 4.0,以及統(tǒng)一的多語種引擎管理模塊,即jTTS_ML.DLL。多語種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語種引擎管理模塊的調(diào)度下進(jìn)行實際的合成工作,而目前尚未提供的其他語種的引擎也可以方便地加入到這個體系結(jié)構(gòu)中來。

  jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等則為各個語種的TTS實際引擎。引擎和音色庫的基本概念如下:
2、產(chǎn)品體系結(jié)構(gòu)


  用戶在使用時同樣可以采用本地合成方案、網(wǎng)絡(luò)合成方案、集群網(wǎng)絡(luò)合成方案進(jìn)行合成工作。

三、產(chǎn)品特點
  1. 支持多語種,支持多領(lǐng)域的設(shè)置。

  2. 支持音色的查找、訪問、加載等。

  3. 支持SSML(語音合成標(biāo)記語言,Speech Synthesis Markup language)。

  4. 可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。

  5. 支持GB(包括 GB2312, GBK, GB18030)、Big5 、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8 等各種字符集,自動識別具有 BOM 標(biāo)記的 Unicode 文本。

  6. 支持同步、異步合成一個Session ,通過被動的回調(diào)函數(shù)方式給用戶傳遞數(shù)據(jù)。在原有版本的主動獲取語音數(shù)據(jù)的基礎(chǔ)上又提供了一個選擇。

  7. 可以外掛語音格式轉(zhuǎn)換程序。

  8. 全新的中英文混讀引擎

  9.   中文引擎放棄了原來使用的第三方的英文引擎(即Microsoft Free的SAPI 英文引擎),采用了自行開發(fā)的英文引擎,達(dá)到了清晰流利、中英文同一音色的效果。
  10. 預(yù)處理功能

  11. 中文引擎在預(yù)處理部分做了比較大的改進(jìn):
    1. 采用了基于分詞和詞性標(biāo)注一體化的前端分析算法以及基于統(tǒng)計的韻律詞分析算法,提供了更好的韻律分析結(jié)果,閱讀更為自然流暢。

    2. 全面改進(jìn)了多音字處理算法,多音字的誤讀率大為下降。

    3. 改進(jìn)了數(shù)字符號讀法的分析算法,數(shù)字符號的讀法的閱讀準(zhǔn)確率更高。同時支持?jǐn)?shù)字、符號讀法的外部規(guī)則使用,提供給用戶自行定義數(shù)字符號讀法的方法。

  12. 多領(lǐng)域支持

  13.   中文引擎提供了多個領(lǐng)域的優(yōu)化資源包。例如,在天氣預(yù)報領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫,在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫、預(yù)選音音庫等。通過這些針對不同專業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時,多領(lǐng)域支持也采用了一種模塊化的方式,用戶可以自行安裝不同領(lǐng)域的資源包。

  14. 對SSML的支持

  15.   SSML(Speech Synthesis Markup Language) 語音合成標(biāo)記語言定義了一套豐富的,基于 XML 的標(biāo)記語言以支持在Web語音瀏覽器或者其它應(yīng)用程序中生成合成語音。這一標(biāo)記語言的的主要作用在于提供給合成內(nèi)容的作者一個標(biāo)準(zhǔn)的方法來控制語音的各個方面,例如發(fā)音、音量、語速、基頻等。
  從jTTS 4.0開始,捷通華聲語音合成系統(tǒng)定義了S3ML (SinoVoice Speech Synthesis Markup Language) --捷通華聲語音標(biāo)記語言。S3ML符合基本的SSML規(guī)范,但更為詳細(xì)地定義了SSML沒有精確定義的部分(例如的具體語法),同時也支持一些針對中文語音合成的擴(kuò)展。

捷通華聲公司供稿 CTI論壇編輯



相關(guān)鏈接:
捷通華聲發(fā)布jASR5.5 ASR價格面前將無怯步 2008-04-16
捷通華聲TTS成功登陸中國郵政儲蓄銀行 2008-04-03
捷通華聲 jTTS 5.5 全面支持 MRCPv2標(biāo)準(zhǔn) 2008-03-31
捷通華聲移動導(dǎo)航HCI解決方案廣受青睞 2008-03-26
身邊的“智能”生活 2007-12-28

相關(guān)頻道:           技術(shù)_語音合成_解決方案