語音技術(shù)應(yīng)用的現(xiàn)狀和未來
2004/09/30
2004年2月對于從事語音方面技術(shù)研究和產(chǎn)品開發(fā)的人士來講,是一個值得紀(jì)念的日子。
中國教育部副部長吳啟迪在"大學(xué)英語教學(xué)改革試點工作視頻會議"上指出,大學(xué)英語教育改革試點工作將從2004年2月在180所高校中開展,時間為一年。在此次改革的試點中,主要是突出對學(xué)生英語實用能力的培養(yǎng)。同時,提出和研制出了一流的多媒體、個性化的學(xué)習(xí)軟件和新的教材,以改變過去的黑板、粉筆加教材的單一教學(xué)模式。
這個規(guī)定是一個外語教學(xué)的多米諾骨牌。這些規(guī)定的出臺,不但對大學(xué)的外語教學(xué)提出了要求。在一定程度上也引導(dǎo)了中小學(xué)外語教學(xué)的發(fā)展方向。目前語音研究情況如何,能否適應(yīng)外語教學(xué)改革的要求?帶著這些問題,我們走訪了北京華育時空信息技術(shù)研究院劉金增院長。
語音技術(shù)研究和應(yīng)用現(xiàn)狀
從目前語音技術(shù)的研究現(xiàn)狀來講,技術(shù)已經(jīng)有了很大發(fā)展。語音識別和語音合成技術(shù)是實現(xiàn)人機(jī)語音通信及建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關(guān)鍵技術(shù)。使電腦具有類似于人一樣的說話和聽懂人說話的能力。
語音識別技術(shù)主要包含幾個方面:語音控制、電子發(fā)聲、連續(xù)語音識別、非連續(xù)語音識別和語音學(xué)習(xí)。目前主要是在支持中英文,實現(xiàn)中英文混合識別問題上,存在一些障礙。同時在識別大量詞匯和個別發(fā)音方面還很難做到準(zhǔn)確。作為語音識別技術(shù)新方向的語音學(xué)習(xí),它則要求人模仿標(biāo)準(zhǔn)發(fā)音,其面臨的困難是如何衡量人模仿的好壞。
和語音識別相比,語音合成技術(shù)相對說來要成熟一些,是該領(lǐng)域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術(shù)。語音合成技術(shù)是計算機(jī)"開口說話"的關(guān)鍵,現(xiàn)階段語音合成的最大進(jìn)展是已經(jīng)能夠?qū)崟r地將任意文本轉(zhuǎn)換成連續(xù)可懂的自然語句輸出,相應(yīng)技術(shù)通常稱為文語合成或文語轉(zhuǎn)換(TTS)。TTS使得數(shù)據(jù)通信和語音通信在終端一級實現(xiàn)交融,人們將有望在獲取Internet信息時,使短消息服務(wù)、電子郵件等多數(shù)以文本方式提供的信息也用語音的方式輸出。語音合成的主要功能是:根據(jù)韻律建模的結(jié)果,從原始語音庫中取出相應(yīng)的語音基元,利用特定的語音合成技術(shù)對語音基元進(jìn)行韻律特性的調(diào)整和修改,最終合成出符合要求的語音。
語音合成技術(shù)的應(yīng)用范圍非常的廣,如電話查詢、話費催繳、呼叫中心、證券股票查詢、教育系統(tǒng)資料查詢等各類都有應(yīng)用,在面對教育市場就主要是語音教學(xué)。
目前的語音室功能都是基于語音教學(xué)功能上,傳統(tǒng)的教與學(xué)還是占主導(dǎo),教育部曾委托高等教育出版社、清華大學(xué)出版社、外語教學(xué)與研究出版社及上海外語教育出版社研制開發(fā)了四個版本的教學(xué)系統(tǒng),并且遠(yuǎn)遠(yuǎn)不止這些研究機(jī)構(gòu),包括中科院也同樣在研制一些有關(guān)語音方面的技術(shù)和產(chǎn)品,這為語音合成方面的發(fā)展和成熟做出了一定的推動作用。在課堂上學(xué)生通過語音平臺聽說練習(xí),將學(xué)生的學(xué)習(xí)過程評價與終結(jié)考試相結(jié)合,對學(xué)生學(xué)習(xí)評測與對教師教學(xué)評估相協(xié)調(diào),多層面、多角度、多環(huán)節(jié)地測試學(xué)生的英語實用能力。
在基礎(chǔ)教育領(lǐng)域,目前語音方面的產(chǎn)品并不是很多。但基礎(chǔ)教育的市場是巨大的,而且是很有前景的。劉院長希望能夠通過自己的努力和合作,開發(fā)出適合基礎(chǔ)教育的語音產(chǎn)品。
語音庫的建設(shè)的關(guān)鍵所在
現(xiàn)在語音識別技術(shù)存在的一些瓶頸主要在于:方言或口音會降低語音識別率、背景噪音、"口語"的問題:它既涉及到自然語言理解,又與聲學(xué)有關(guān),口語的語法不規(guī)范和語序不正常的特點會給語義的分析和理解帶來困難,有些很不自然的合成效果往往是因為沒有能正確的使用合成與識別系統(tǒng)而導(dǎo)致的,并不是說是合成技術(shù)的不成熟,而是語音庫的完善度存在一定的差距。
在教育部所提出的學(xué)生考核中有這樣的一個方面,考務(wù)人員要對學(xué)生口語成績作出評估,但就目前來說是比較困難的,2003年我國高校在校生就已經(jīng)達(dá)到了1900萬,而從事大學(xué)英語教學(xué)的教師僅5萬人左右,如此大量的在校生如果用傳統(tǒng)的一對一教授方法是遠(yuǎn)遠(yuǎn)無法完成教學(xué)任務(wù)的,那么這些工作大部分都需要求助于計算機(jī)軟硬件的實現(xiàn),而實現(xiàn)這種可能就需要很完善的語音庫。
劉院長指出,我們國家目前的語音庫建設(shè)相較國際水平還是有些差距,合成出來音質(zhì)達(dá)不到高要求,對語音識別還沒有特別突出的成果,主要還是資源的缺乏。在現(xiàn)有的語音庫里大部分是女聲,男聲只占有很少的一部分,其他年齡階段的數(shù)據(jù)就更加的少,這對我們進(jìn)行情景對話,進(jìn)行語音控制,進(jìn)行模擬現(xiàn)實,進(jìn)行時實語音評估等都存在一定的困難。誠然有許多的科研機(jī)構(gòu)都在涉及語音識別技術(shù)這方面的研究,但對于語音庫的建設(shè)就有一定的困難性,這是一項需要大投入時間、人才、資金的項目,國內(nèi)目前只有少數(shù)幾家走在前端的企業(yè)在做這一市場,正致力于解決困擾語音識別領(lǐng)域的某些技術(shù)缺陷,突破大量詞匯、連續(xù)語音、非特定人的三大障礙。劉院長說,"國際上大的IT企業(yè)都非?春眠@塊語音的尖端市場,我覺得語音識別技術(shù)是以后IT界未來十年中具有強(qiáng)勁潛力的發(fā)展方向"。
語音技術(shù)的未來
未來的語音技術(shù)將在智能化等方面有較大發(fā)展。在未來我們會生活在這樣的世界里:當(dāng)我們深夜回到家中,為床上熟睡的孩子蓋好被角,并將寵物貓咪帶出房間后,我們將大聲向機(jī)器發(fā)出指令,說出我們想做的事情由語音設(shè)備完成執(zhí)行,這并不是科幻,而是語音技術(shù)發(fā)展的結(jié)果。
語音技術(shù)發(fā)展將在不同應(yīng)用領(lǐng)域得到突破,并逐漸普及。在教育方面,語音技術(shù)的應(yīng)用將會對語言教學(xué)和科研帶來很大的影響。
hc360慧聰網(wǎng)教育行業(yè)頻道
相關(guān)鏈接: