語(yǔ)音識(shí)別標(biāo)準(zhǔn)之痛
章森 王偉 華紹和 2006/06/19
語(yǔ)音技術(shù)涉及到語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音技術(shù)應(yīng)用等多個(gè)技術(shù)領(lǐng)域。本文討論的不是語(yǔ)音編碼的標(biāo)準(zhǔn)問(wèn)題,而是對(duì)語(yǔ)音合成與識(shí)別領(lǐng)域的技術(shù)標(biāo)準(zhǔn)做一個(gè)研究與探討。
語(yǔ)音技術(shù)涉及到語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別、語(yǔ)音技術(shù)應(yīng)用等多個(gè)技術(shù)領(lǐng)域。目前,關(guān)于語(yǔ)音編碼,國(guó)際標(biāo)準(zhǔn)化組織ISO和國(guó)際電信聯(lián)盟ITU上已經(jīng)制訂了一系列的技術(shù)標(biāo)準(zhǔn),分別應(yīng)用在有線通信、移動(dòng)通信、數(shù)字音響等領(lǐng)域。但是,關(guān)于語(yǔ)音合成與識(shí)別技術(shù)的標(biāo)準(zhǔn)還沒(méi)有一個(gè)統(tǒng)一的規(guī)范,ISO和ITU在這些領(lǐng)域也沒(méi)有頒布技術(shù)標(biāo)準(zhǔn)和規(guī)范。雖然有些標(biāo)準(zhǔn)化組織、研究機(jī)構(gòu)和大公司提出了各自的技術(shù)規(guī)范草案,但是沒(méi)有得到廣泛的承認(rèn)和支持。國(guó)際上,許多跨國(guó)公司,如IBM、Microsoft、AT&T、Naunce、Sun System等對(duì)語(yǔ)音技術(shù)的研究已經(jīng)持續(xù)了多年,對(duì)制定語(yǔ)音技術(shù)領(lǐng)域的標(biāo)準(zhǔn)非常關(guān)心并積極參與,希望能把各自公司的研究成果納入到技術(shù)規(guī)范和標(biāo)準(zhǔn)中去,以期在激烈的競(jìng)爭(zhēng)中處于技術(shù)的制高點(diǎn)。現(xiàn)在,與互聯(lián)網(wǎng)有關(guān)的語(yǔ)音技術(shù)應(yīng)用領(lǐng)域,相關(guān)的國(guó)際語(yǔ)音標(biāo)準(zhǔn)發(fā)展迅速,形成了VoiceXML和SALT兩大語(yǔ)音標(biāo)準(zhǔn)陣營(yíng),并各自都獲得了廣泛的支持。但是,對(duì)語(yǔ)音合成與識(shí)別的核心技術(shù),如系統(tǒng)框架、接口規(guī)范等還沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。本文不討論語(yǔ)音編碼的標(biāo)準(zhǔn)問(wèn)題,而是對(duì)語(yǔ)音合成與識(shí)別領(lǐng)域的技術(shù)標(biāo)準(zhǔn)做一個(gè)初步的探討。
語(yǔ)音技術(shù)標(biāo)準(zhǔn)的三個(gè)層面
雖然目前國(guó)際上還沒(méi)有統(tǒng)一的、得到廣泛承認(rèn)和支持的語(yǔ)音合成與識(shí)別領(lǐng)域的技術(shù)標(biāo)準(zhǔn),但是,這方面的研究工作發(fā)展迅速,近幾年推出了許多研究成果,特別是W3C組織積極推動(dòng)并發(fā)布了多個(gè)語(yǔ)音技術(shù)應(yīng)用方面的規(guī)范或標(biāo)準(zhǔn)。例如, W3C發(fā)布了Voice Browser(語(yǔ)音瀏覽器)標(biāo)準(zhǔn)的草案。在這個(gè)標(biāo)準(zhǔn)中,Voice Browser標(biāo)準(zhǔn)(草案)定義了幾種支持語(yǔ)音輸入和輸出的鏈接語(yǔ)言。這些鏈接語(yǔ)言使語(yǔ)音設(shè)備可以跨越各種硬件和軟件平臺(tái),特別是設(shè)計(jì)了關(guān)于對(duì)話、語(yǔ)音識(shí)別語(yǔ)法、語(yǔ)音合成、自然語(yǔ)言語(yǔ)義和搜集可重復(fù)使用的對(duì)話組件的鏈接語(yǔ)言。這些鏈接語(yǔ)言和組件就構(gòu)成了未來(lái)語(yǔ)音界面框架。現(xiàn)在,這個(gè)標(biāo)準(zhǔn)組中的參加成員有AT&T、Cisco、Hitachi、HP、IBM、Intel、 Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。由于語(yǔ)音識(shí)別與合成技術(shù)還處在迅速發(fā)展階段,制訂出一套合適的技術(shù)標(biāo)準(zhǔn)很不容易。關(guān)于語(yǔ)音技術(shù)(除了語(yǔ)音編碼)有關(guān)標(biāo)準(zhǔn)的制定工作主要集中在三個(gè)層面。
語(yǔ)音技術(shù)應(yīng)用: 在這個(gè)層面上,主要規(guī)定在應(yīng)用開(kāi)發(fā)中如何使用語(yǔ)音合成與識(shí)別技術(shù),即應(yīng)用程序與語(yǔ)音合成/識(shí)別引擎之間的通信協(xié)議/語(yǔ)言,許多跨國(guó)公司積極參加了這個(gè)層面的規(guī)范與標(biāo)準(zhǔn)的起草、制訂工作,例如,如IBM、AT&T、Naunce、Microsoft、Sun System等,推動(dòng)并且形成了VoiceXML和SALT兩大語(yǔ)音標(biāo)準(zhǔn)陣營(yíng)。從開(kāi)發(fā)者的角度看,這些標(biāo)準(zhǔn)都是面向應(yīng)用系統(tǒng)開(kāi)發(fā)用的。萬(wàn)維網(wǎng)聯(lián)盟W3C主持了VoiceXML的起草和制定工作,并從2000年開(kāi)始陸續(xù)發(fā)布了VoiceXML的多個(gè)版本,其中包括了語(yǔ)音識(shí)別語(yǔ)法規(guī)范和語(yǔ)音合成標(biāo)記語(yǔ)言等。這些標(biāo)準(zhǔn)不僅使應(yīng)用程序可以移植,而且還能夠使語(yǔ)法相關(guān)聯(lián)。VoiceXML 2.0是一種標(biāo)記語(yǔ)言,用于建立話音界面,相當(dāng)于帶語(yǔ)音功能的HTML。現(xiàn)在已經(jīng)有數(shù)百個(gè)大的廠商開(kāi)發(fā)了基于VoiceXML的應(yīng)用程序。SALT表示語(yǔ)音應(yīng)用標(biāo)記語(yǔ)言,它是在現(xiàn)有的標(biāo)記語(yǔ)言,如在HTML、XHTML的基礎(chǔ)上,增加了對(duì)語(yǔ)音和多媒體功能的支持而形成的。對(duì)語(yǔ)音應(yīng)用,它主要關(guān)注的是如何通過(guò)電話得到語(yǔ)音服務(wù)。2002年,SALT聯(lián)盟論壇發(fā)布了SALT技術(shù)規(guī)范的草案,并且把它提交給了W3C,希望能成為技術(shù)標(biāo)準(zhǔn)。參加和支持SALT技術(shù)規(guī)范的大公司包括: Cisco Systems Inc., Comverse Inc., Intel Corp., Microsoft Corp., Philips Speech Processing 以及 SpeechWorks International Inc.等。
語(yǔ)音識(shí)別/合成系統(tǒng)性能評(píng)測(cè)標(biāo)準(zhǔn): 美國(guó)國(guó)家技術(shù)與標(biāo)準(zhǔn)研究所(NIST)主持了這個(gè)方面的工作。從20世紀(jì)90年代中期開(kāi)始,NIST就開(kāi)始組織語(yǔ)音識(shí)別/合成系統(tǒng)的性能評(píng)測(cè)工作。由于語(yǔ)音識(shí)別/合成系統(tǒng)的實(shí)現(xiàn)技術(shù)各種各樣,對(duì)它們的評(píng)測(cè)實(shí)際上是相當(dāng)困難的。20世紀(jì)90年代初期的時(shí)候,語(yǔ)音識(shí)別/合成系統(tǒng)大量推出,但往往出現(xiàn)下面的情況: 某個(gè)系統(tǒng)在推出時(shí),聲稱該系統(tǒng)有很高的性能,但實(shí)際應(yīng)用的時(shí)候其性能與宣傳的差別很大。因此,NIST認(rèn)為應(yīng)制定出一套評(píng)價(jià)語(yǔ)音識(shí)別/合成系統(tǒng)的技術(shù)標(biāo)準(zhǔn),讓所有的語(yǔ)音識(shí)別/合成系統(tǒng)在這套評(píng)測(cè)標(biāo)準(zhǔn)下進(jìn)行評(píng)估,以得到客觀的性能評(píng)價(jià)指標(biāo)。在該領(lǐng)域,NIST陸續(xù)制定了評(píng)價(jià)語(yǔ)音識(shí)別/合成系統(tǒng)的詞錯(cuò)誤率WER的計(jì)算規(guī)范,語(yǔ)言模型的復(fù)雜度的計(jì)算規(guī)范,訓(xùn)練和測(cè)試語(yǔ)料的選取,系統(tǒng)響應(yīng)時(shí)間標(biāo)準(zhǔn),合成語(yǔ)音自然度的評(píng)價(jià)規(guī)范,測(cè)試程序的規(guī)范等。近年來(lái),NIST又制定了針對(duì)其它語(yǔ)種(如,漢語(yǔ),日語(yǔ)等)的評(píng)價(jià)標(biāo)準(zhǔn)。NIST的評(píng)價(jià)標(biāo)準(zhǔn)迅速得到了語(yǔ)音識(shí)別/合成領(lǐng)域開(kāi)發(fā)者的支持,越來(lái)越多的大公司積極參加NIST組織的評(píng)測(cè)活動(dòng),同時(shí)也推動(dòng)了語(yǔ)音識(shí)別/合成技術(shù)的發(fā)展。國(guó)內(nèi)的“863”智能人機(jī)接口專家組也開(kāi)展了類似的工作,陸續(xù)制定了針對(duì)漢語(yǔ)語(yǔ)音識(shí)別與合成系統(tǒng)性能的評(píng)價(jià)規(guī)范。
語(yǔ)音識(shí)別/合成引擎及其開(kāi)發(fā)接口: 在這個(gè)層面上還沒(méi)有一個(gè)技術(shù)標(biāo)準(zhǔn)或規(guī)范被廣泛承認(rèn)和采納。ISO、ITU、NIST、W3C等標(biāo)準(zhǔn)化組織都沒(méi)有在該方面推出技術(shù)標(biāo)準(zhǔn)或規(guī)范。實(shí)際上,這方面的工作涉及到許多語(yǔ)音識(shí)別/合成系統(tǒng)的具體實(shí)現(xiàn)問(wèn)題,而系統(tǒng)的實(shí)現(xiàn)方法千變?nèi)f化,難以用一個(gè)統(tǒng)一的規(guī)范和標(biāo)準(zhǔn)來(lái)規(guī)范。雖然沒(méi)有語(yǔ)音識(shí)別/合成引擎及其開(kāi)發(fā)接口的統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,但一些開(kāi)發(fā)廠商和研究機(jī)構(gòu)還是制定了各自的規(guī)范,在各自的語(yǔ)音系統(tǒng)中得到了實(shí)現(xiàn),并隨著語(yǔ)音識(shí)別/合成系統(tǒng)的推出而發(fā)布。
IBM在其推出的語(yǔ)音識(shí)別與合成引擎ViaVoice中規(guī)定了開(kāi)發(fā)接口,提供了幾百個(gè)開(kāi)發(fā)接口函數(shù)。Microsoft推出了基于它的語(yǔ)音識(shí)別與合成引擎開(kāi)發(fā)語(yǔ)音應(yīng)用的接口Speech SDK, 在其中也提供了類似的開(kāi)發(fā)接口函數(shù)。但是,IBM和Microsoft的語(yǔ)音識(shí)別與合成引擎的實(shí)現(xiàn)細(xì)節(jié)沒(méi)有公開(kāi),也沒(méi)有提供這方面的技術(shù)規(guī)范。另外,美國(guó)的CMU大學(xué)、英國(guó)劍橋大學(xué)電子工程系的HTK開(kāi)發(fā)組都發(fā)布了開(kāi)放式的語(yǔ)音識(shí)別與合成引擎的源碼以及相應(yīng)的開(kāi)發(fā)工具,它們的語(yǔ)音識(shí)別與合成引擎的實(shí)現(xiàn)方法紛紛被眾多的開(kāi)發(fā)者所借鑒,從而形成了業(yè)界很有影響的開(kāi)發(fā)規(guī)范,但是,這些規(guī)范也不是標(biāo)準(zhǔn)。目前,有許多語(yǔ)音識(shí)別與合成引擎,但是沒(méi)有提供實(shí)現(xiàn)的技術(shù)規(guī)范,因此,這些系統(tǒng)的實(shí)現(xiàn)和提供的接口只是遵守各自特殊的規(guī)定,沒(méi)有規(guī)范化并得到廣泛的應(yīng)用。
中文語(yǔ)音技術(shù)標(biāo)準(zhǔn)現(xiàn)狀
制訂中文語(yǔ)音技術(shù)的有關(guān)標(biāo)準(zhǔn),對(duì)促進(jìn)中文語(yǔ)音技術(shù)應(yīng)用、推動(dòng)中文語(yǔ)音產(chǎn)業(yè)發(fā)展、增強(qiáng)民族軟件核心競(jìng)爭(zhēng)力均具有非常重要的意義。國(guó)家信息產(chǎn)業(yè)部、“863”專家組、國(guó)家技術(shù)監(jiān)督局和國(guó)家信息標(biāo)準(zhǔn)化委員會(huì)分別于2001年、2002年、2003年召開(kāi)了三屆語(yǔ)音標(biāo)準(zhǔn)研討會(huì),并于2003年11月由信息產(chǎn)業(yè)部科技司正式下文成立了“中文語(yǔ)音交互技術(shù)標(biāo)準(zhǔn)工作組”。
“中文語(yǔ)音交互技術(shù)標(biāo)準(zhǔn)工作組”是由國(guó)內(nèi)產(chǎn)、學(xué)、研、用等企事業(yè)單位以及大專院校等自愿聯(lián)合組織、經(jīng)信息產(chǎn)業(yè)部科技司批準(zhǔn)成立的、組織開(kāi)展中文語(yǔ)音交互領(lǐng)域技術(shù)標(biāo)準(zhǔn)制定和研究活動(dòng)的非營(yíng)利性技術(shù)工作組織。該工作組的主要工作任務(wù)是研究并制定與中文語(yǔ)音交互技術(shù)有關(guān)的數(shù)據(jù)交換格式、系統(tǒng)架構(gòu)與接口、系統(tǒng)分類與評(píng)測(cè)及數(shù)據(jù)庫(kù)格式與標(biāo)注等方面的標(biāo)準(zhǔn)。目前,語(yǔ)音合成和語(yǔ)音識(shí)別通用標(biāo)準(zhǔn)已正式立項(xiàng)為國(guó)家標(biāo)準(zhǔn),報(bào)批稿已經(jīng)完成,多個(gè)產(chǎn)業(yè)相關(guān)的應(yīng)用技術(shù)標(biāo)準(zhǔn)也正在制定之中。
國(guó)家“863”智能人機(jī)接口專家組在20世紀(jì)90年代中后期邀請(qǐng)國(guó)內(nèi)的一些研究機(jī)構(gòu)和大學(xué)制訂了針對(duì)漢語(yǔ)語(yǔ)音識(shí)別與合成系統(tǒng)的評(píng)價(jià)規(guī)范,該評(píng)價(jià)規(guī)范應(yīng)用到了歷屆對(duì)“863”支持的漢語(yǔ)語(yǔ)音識(shí)別與合成系統(tǒng)的評(píng)價(jià)過(guò)程中。如果從語(yǔ)音識(shí)別與合成技術(shù)標(biāo)準(zhǔn)的三個(gè)層面考察,國(guó)內(nèi)在該領(lǐng)域的研究工作主要集中在系統(tǒng)性能的評(píng)價(jià)規(guī)范的制訂上,至今還沒(méi)有正式實(shí)施的國(guó)家標(biāo)準(zhǔn)。但是,隨著國(guó)內(nèi)的語(yǔ)音應(yīng)用開(kāi)發(fā)地迅速發(fā)展,沒(méi)有一個(gè)統(tǒng)一的技術(shù)規(guī)范或標(biāo)準(zhǔn)會(huì)造成許多開(kāi)發(fā)重復(fù),資源浪費(fèi)。
例如,如果語(yǔ)音識(shí)別與合成引擎支持媒體資源控制協(xié)議(MRCP), 語(yǔ)音應(yīng)用開(kāi)發(fā)者采用MRCP,IVR和語(yǔ)音識(shí)別與合成引擎開(kāi)發(fā)廠商之間的專有用的連接器就不需要了。再如,隨著語(yǔ)音技術(shù)和應(yīng)用市場(chǎng)需求增大的同時(shí),面臨著復(fù)雜系統(tǒng)互聯(lián)的問(wèn)題。在系統(tǒng)的互聯(lián)接口、內(nèi)容交換數(shù)據(jù)格式等方面沒(méi)有一個(gè)大家共同遵循的標(biāo)準(zhǔn),其開(kāi)發(fā)難度、維護(hù)難度和運(yùn)營(yíng)難度是非常巨大的; 沒(méi)有一個(gè)大家共同遵循的標(biāo)準(zhǔn),語(yǔ)音合成/識(shí)別引擎與電話設(shè)備、后臺(tái)數(shù)據(jù)庫(kù)、地理信息、無(wú)線定位等其他組成部分完成通信也是非常困難的,這些都成了阻礙語(yǔ)音應(yīng)用大規(guī)模發(fā)展的絆腳石。因此,制訂和研究漢語(yǔ)語(yǔ)音技術(shù)領(lǐng)域的標(biāo)準(zhǔn)已迫在眉睫。
技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容
為了適應(yīng)網(wǎng)上語(yǔ)音瀏覽、語(yǔ)音信息檢索、交互式語(yǔ)音應(yīng)用的發(fā)展需求,語(yǔ)音識(shí)別與合成技術(shù)的標(biāo)準(zhǔn)制訂工作的重點(diǎn)目前應(yīng)該集中語(yǔ)音技術(shù)應(yīng)用層面和語(yǔ)音識(shí)別/合成引擎及其開(kāi)發(fā)接口上。這樣的一個(gè)標(biāo)準(zhǔn)或規(guī)范必須是有代表性的,通用的,被廣泛接受和采用的; 顯然,制定一個(gè)這樣的標(biāo)準(zhǔn)不能閉門造車,要有標(biāo)準(zhǔn)的使用機(jī)構(gòu)或潛在的使用機(jī)構(gòu)參與,還必須與國(guó)際上已有的類似的標(biāo)準(zhǔn)接軌,與國(guó)際上的標(biāo)準(zhǔn)化機(jī)構(gòu),如ISO、W3C、ITU等密切合作。值得注意的是,語(yǔ)音識(shí)別/合成的實(shí)現(xiàn)算法千差萬(wàn)別,該領(lǐng)域的標(biāo)準(zhǔn)或規(guī)范只能提供一個(gè)實(shí)現(xiàn)框架,沒(méi)有必要對(duì)具體的實(shí)現(xiàn)算法和技術(shù)細(xì)節(jié)進(jìn)行約束。另外,語(yǔ)音技術(shù)標(biāo)準(zhǔn)還應(yīng)該與具體應(yīng)用無(wú)關(guān),與語(yǔ)音識(shí)別/合成引擎無(wú)關(guān)等。
如上所述,語(yǔ)音技術(shù)標(biāo)準(zhǔn)(除了語(yǔ)音編碼)的制訂工作主要集中在三個(gè)不同的層面上。這三個(gè)層面標(biāo)準(zhǔn)的內(nèi)容分別是:
語(yǔ)音技術(shù)應(yīng)用: 一般基于語(yǔ)音的應(yīng)用都有如下圖所示的架構(gòu)(已簡(jiǎn)化)。
在這個(gè)層面上,語(yǔ)音技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容是: 規(guī)定語(yǔ)音輸入、語(yǔ)音輸出、識(shí)別結(jié)果、返回結(jié)果的格式和屬性。語(yǔ)音輸入和語(yǔ)音輸出屬于用戶與語(yǔ)音信號(hào)處理引擎之間的交互過(guò)程,所以,這部分也包括語(yǔ)音用戶界面的內(nèi)容;
識(shí)別結(jié)果是語(yǔ)音信號(hào)處理引擎輸出的結(jié)果,也是識(shí)別結(jié)果執(zhí)行引擎的輸入,識(shí)別的結(jié)果一般是文本或命令,如何將識(shí)別結(jié)果格式化是該層面的主要任務(wù); 返回結(jié)果是識(shí)別結(jié)果執(zhí)行引擎的輸出,也是語(yǔ)音信號(hào)處理引擎的輸入,經(jīng)語(yǔ)音信號(hào)處理引擎處理后,以語(yǔ)音的方式返回給用戶。為此,需要規(guī)定語(yǔ)音輸出的參數(shù)格式,如韻律特征、重音特征和停頓等。制訂這方面的標(biāo)準(zhǔn)內(nèi)容還應(yīng)該考慮漢語(yǔ)語(yǔ)言和語(yǔ)音結(jié)構(gòu)的特殊性,F(xiàn)在已經(jīng)發(fā)布的技術(shù)標(biāo)準(zhǔn)或規(guī)范主要是VoiceXML和SALT,它們都屬于描述和規(guī)定語(yǔ)音技術(shù)應(yīng)用的層面,都是基于標(biāo)記語(yǔ)言的格式。
語(yǔ)音識(shí)別/合成系統(tǒng)性能評(píng)測(cè)標(biāo)準(zhǔn): 在這個(gè)層面上,語(yǔ)音技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容是: 評(píng)價(jià)語(yǔ)音識(shí)別引擎的性能指標(biāo),主要包括: 詞匯量大小、識(shí)別方式、詞錯(cuò)誤率WER、語(yǔ)言模型復(fù)雜度、響應(yīng)時(shí)間、訓(xùn)練和測(cè)試語(yǔ)料等; 評(píng)價(jià)語(yǔ)音合成引擎的性能指標(biāo),主要包括: 詞匯量、自然度、清晰度、測(cè)試語(yǔ)料等。雖然我們可以借鑒NIST在這方面的經(jīng)驗(yàn)和標(biāo)準(zhǔn),但是針對(duì)漢語(yǔ)語(yǔ)音識(shí)別/合成系統(tǒng)性能評(píng)測(cè)標(biāo)準(zhǔn),我們不能照搬,必須考慮漢語(yǔ)的特點(diǎn)。
語(yǔ)音識(shí)別/合成引擎及其開(kāi)發(fā)接口: 在這個(gè)層面上,語(yǔ)音技術(shù)標(biāo)準(zhǔn)的主要內(nèi)容是: 規(guī)定語(yǔ)音識(shí)別引擎的輸入/輸出的格式,如輸入語(yǔ)音的方式(已有的語(yǔ)音數(shù)據(jù)的輸入/Mic語(yǔ)音輸入)、語(yǔ)音數(shù)據(jù)的格式、語(yǔ)音特征向量的格式、控制參數(shù)的語(yǔ)義格式、輸出是文本串的格式、拼音串的格式、音素串的格式等,提供給用戶開(kāi)發(fā)接口的函數(shù)名、入口/出口參數(shù)、功能描述等; 但是,語(yǔ)音識(shí)別引擎的實(shí)現(xiàn)細(xì)節(jié)不應(yīng)該包含在此部分的標(biāo)準(zhǔn)內(nèi),如引擎應(yīng)該包含哪些模塊,使用什么樣的語(yǔ)音特征向量,如何計(jì)算語(yǔ)音特征向量,如何建立模板,如何匹配計(jì)算等,都不應(yīng)該加以約束,而允許開(kāi)發(fā)者采用適當(dāng)?shù)乃惴▽?shí)現(xiàn)。關(guān)于規(guī)定語(yǔ)音合成引擎,需要規(guī)定的是: 輸入的格式,如純文本/拼音、帶有控制串的文本/拼音、控制串的語(yǔ)義格式描述、輸出的格式、提供給用戶開(kāi)發(fā)接口的函數(shù)名、入口/出口參數(shù)、功能描述等; 但是,語(yǔ)音合成引擎的實(shí)現(xiàn)細(xì)節(jié)不應(yīng)該包含在此部分的標(biāo)準(zhǔn)內(nèi),如引擎應(yīng)該包含哪些模塊,如何進(jìn)行輸入文本的分析,如何分詞,采用什么樣的合成基元和算法等,都不應(yīng)該加以約束。關(guān)于這部分標(biāo)準(zhǔn)的內(nèi)容,IBM和Microsoft語(yǔ)音識(shí)別/合成引擎開(kāi)發(fā)文檔提供了詳細(xì)的開(kāi)發(fā)接口函數(shù)的信息,而且功能基本相同,可以為制訂語(yǔ)音識(shí)別/合成引擎開(kāi)發(fā)接口提供參考。語(yǔ)音識(shí)別引擎開(kāi)發(fā)工具包HTK詳細(xì)描述了如何開(kāi)發(fā)一個(gè)新的語(yǔ)音識(shí)別引擎,對(duì)制訂該部分標(biāo)準(zhǔn)的內(nèi)容也具有參考意義。
鏈接:推動(dòng)技術(shù)標(biāo)準(zhǔn)制訂
語(yǔ)音技術(shù)在網(wǎng)絡(luò)瀏覽器和其他領(lǐng)域的的需求越來(lái)越迫切,制訂語(yǔ)音技術(shù)標(biāo)準(zhǔn)或規(guī)范的條件工作已經(jīng)基本就緒,但針對(duì)各個(gè)具體語(yǔ)種的工作還很多。萬(wàn)維網(wǎng)聯(lián)盟W3C在制定語(yǔ)音技術(shù)標(biāo)準(zhǔn)或規(guī)范方面做了大量工作,從2000年開(kāi)始,先后發(fā)布了一系列用于語(yǔ)音識(shí)別、語(yǔ)音合成的標(biāo)記語(yǔ)言規(guī)范; 為了制訂一種通用標(biāo)準(zhǔn),并被廣泛采用,W3C邀請(qǐng)了國(guó)際上的大公司,如Sun、 IBM、Intel、微軟等參加工作組。除了語(yǔ)音識(shí)別/合成標(biāo)記語(yǔ)言,工作組還在開(kāi)發(fā)語(yǔ)義翻譯和呼叫控制擴(kuò)展標(biāo)記語(yǔ)言兩種語(yǔ)音標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)都是W3C語(yǔ)音接口框架的重要部分,目的是為網(wǎng)絡(luò)建立語(yǔ)音應(yīng)用軟件。
據(jù)報(bào)道,W3C計(jì)劃提出針對(duì)普通話的語(yǔ)音技術(shù)標(biāo)準(zhǔn),并計(jì)劃加入日語(yǔ)、韓語(yǔ)等亞洲語(yǔ)種。到目前為止,W3C推出的語(yǔ)音技術(shù)標(biāo)準(zhǔn)中最成功的是VoiceXML 2.0,支持VoiceXML 2.0的Web瀏覽器可以解釋VoiceXML 2.0腳本并向用戶呈現(xiàn)語(yǔ)音信息,同時(shí)還能接受用戶的語(yǔ)音請(qǐng)求,其功能相當(dāng)于語(yǔ)音瀏覽器,大大促進(jìn)了語(yǔ)音技術(shù)在網(wǎng)絡(luò)中的應(yīng)用。
計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)
相關(guān)鏈接: