首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)  語音識別產(chǎn)品

 

語音技術(shù):走出實(shí)驗(yàn)室的革命

蔡虹 2001/06/21

  最近在清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室里,記者參觀了一項(xiàng)名為“Talking Head”的技術(shù)展示。與近期十分熱鬧的“虛擬主持人”電腦合成的形象不同,這里屏幕上顯示的是一張真實(shí)的人臉,能清晰地朗讀出任選的一段中文或者中、英文夾雜的文字,她的嘴唇及整個面部隨著發(fā)音的不同而變化。實(shí)驗(yàn)室的陶建華博士跟記者開玩笑說:“把你的照片拿來,20分鐘我就能讓它開口說話。”苛刻地說“說話的人臉”仍顯得有些可怕。陶博士解釋說數(shù)據(jù)分析的量很大,現(xiàn)在還未做到眼睛以上部分的緣故,所以“說話時(shí)”整張臉的活動還不太自然。

  如果有了十分自然的“Talking Head”,人們將會擁有許多個性化的TTS(語音合成技術(shù))應(yīng)用。例如可以在用在E-mail里,用自己的形象和聲音“口述”郵件內(nèi)容;母親可以利用它給獨(dú)自留在家中的小孩講故事。國外某機(jī)構(gòu)甚至宣布了“復(fù)活夢露”的瘋狂計(jì)劃,宣稱夢露可以在重新活躍在銀幕上,她甚至可以主演新的劇本,與觀眾談?wù)摤F(xiàn)在的時(shí)事。   種種美好的、有趣的、大膽的、革命性的應(yīng)用得益于語音技術(shù)的發(fā)展。語音是核心技術(shù),與其他任何技術(shù)的交叉組合,就會產(chǎn)生活力。優(yōu)美而復(fù)雜的漢語因處理的困難屢次受到“是否阻礙了信息化進(jìn)程”的質(zhì)疑,如今在語音技術(shù)方面也慢慢地跟上來了。

  應(yīng)用突圍

  語音技術(shù)可分為語音識別和語音合成兩大類。語音識別涉及的問題更復(fù)雜一些,例如方言、應(yīng)用中語音通過電話(特別是無線方式)傳遞時(shí)的失真等等。就漢語來說TTS技術(shù)更成熟,若把機(jī)器的發(fā)音分為能聽懂——清晰——有表現(xiàn)力三個階段的話,目前只能說“接近比較自然”,能播新聞,但也許不能講故事。技術(shù)已經(jīng)到了可以走上應(yīng)用的階段,各種產(chǎn)品早就迫不及待地冒出了頭。

  有關(guān)通信的應(yīng)用是市場比較需要、產(chǎn)品也相對豐富的方面。在“移動夢網(wǎng)”建設(shè)中,炎黃新星公司與清華大學(xué)合作提供的IP—IVR與TTS語音網(wǎng)關(guān)產(chǎn)品已在5月安裝到了杭州和廣州的中國移動統(tǒng)一信息平臺上。用戶將可以用手機(jī)、固定電話播打或接收電子消息,并可以利用IP網(wǎng)關(guān)技術(shù),進(jìn)行IP語音消息、IP傳真在公網(wǎng)與專網(wǎng)上的數(shù)據(jù)傳送。電子詞典以及圖書發(fā)行方面的應(yīng)用也很廣泛。

  由新華書店等投資的新華世紀(jì)軟件公司新推出了以漢語普通話為標(biāo)準(zhǔn)發(fā)音的朗讀軟件—“新華音霸KingVoice1.0”,在電腦朗讀的同時(shí)能顯示具有口型變化的Talking Head。2000年掌上電腦“開口說話”的話題炒得很熱,捷通公司開發(fā)出WinCE環(huán)境下的語音閱讀軟件。這些用的都是清華大學(xué)的核心技術(shù)。

  同為863計(jì)劃基地的中科大訊飛公司在“國家863計(jì)劃十五周年成就展”上展出了新穎有趣的“虛擬主持人”、“機(jī)器人足球賽虛擬評論員”,引得觀眾駐足圍觀。訊飛推出了一系列的“EVoice有聲電子郵件系統(tǒng)”、“電話語音金融雷達(dá)系統(tǒng)”等解決方案,以及針對教育領(lǐng)域的“老師家長一線通”和“網(wǎng)絡(luò)信息凈化器”等軟件產(chǎn)品。由其承建的我國首家應(yīng)用語音技術(shù)的數(shù)字化圖書館在安徽通過了驗(yàn)收,突破了傳統(tǒng)數(shù)字圖書館只能通過計(jì)算機(jī)網(wǎng)絡(luò)查詢的限制,讀者通過電話就可以獲取圖書館的大量信息。

  企業(yè)需要一般公務(wù)及商業(yè)方面的應(yīng)用,例如“統(tǒng)一消息處理系統(tǒng)”。只要一臺計(jì)算機(jī)或電話,員工無論在家中、在路上,還是在辦公室或旅館,都可以隨時(shí)隨地處理個人語音信息、傳真和電子郵件,十分方便。例如員工通過電話登錄,系統(tǒng)可以用“口述”的方式讓員工了解郵件的內(nèi)容。 TTS應(yīng)用已經(jīng)開始滲透到大眾身邊。打開個人電腦,號稱“無話不說的超厚詞典”—金山詞霸.net 2001,就能夠?qū)θ我鈫卧~、語句,甚至可以流利的帶語氣的朗讀出用戶指定的任何一段英文。

  與國內(nèi)各大科研院所不同,IBM、Intel等跨國公司花了更多力氣在語音識別技術(shù)方面。IBM早在1997年就推出了中文的“聽寫機(jī)”。其“ViaVoice”軟件已經(jīng)不僅用于電腦,還應(yīng)用于電視和便攜式信息終端等,如智能電話轉(zhuǎn)接系統(tǒng)、Web網(wǎng)站上的應(yīng)用、在Word2000文檔模板中可以直接通過語音輸入文件等。Intel公司自己就采用了語音識別自動轉(zhuǎn)接系統(tǒng),撥通其總機(jī)后,說出撥叫方的姓名,經(jīng)確認(rèn)后就可自動轉(zhuǎn)接過去,而無需按鍵。

  市場升溫

  一個方便的系統(tǒng)肯定需要語音識別與語音合成兩種技術(shù)的配合,例如系統(tǒng)通過語音識別來確定身份、了解要求,然后通過語音合成使移動的用戶通過手機(jī)、PDA等便攜的終端“聽”到消息。 技術(shù)最近看來不會有飛躍性的突破。各公司的技術(shù)基礎(chǔ)基本相同,倒是在系統(tǒng)的集成和市場的推廣上分出了高低。

  市場需求十分高漲。韓國的智能家電系列、美國的能提醒人們按時(shí)服藥的藥瓶、德國的會說話的全自動洗衣機(jī)、英國的能說四國語言的新穎吸塵器等無不吸引了眾多傳媒的目光以及用戶的擁有欲望。語音不僅是“錦上添花”,使應(yīng)用更方便的技術(shù),而且常!把┲兴吞俊。例如印尼政府近日為盲人開設(shè)了一個有聲網(wǎng)站www.mitranet.or.id,看不見屏幕的盲人也能在該網(wǎng)站的語音提示下進(jìn)行上網(wǎng)操作,大大方便了盲人與世界的交流。而且很多應(yīng)用已帶來了巨大的經(jīng)濟(jì)效益。如幾年前Bell實(shí)驗(yàn)室研制出的ZeroPlus自動語音應(yīng)答系統(tǒng)為AT&T電話公司每年節(jié)省1億美元的人工服務(wù)費(fèi)用,該系統(tǒng)根據(jù)美國的多種電話付費(fèi)方式,通過自動語音交互應(yīng)答,自動識別用戶的付費(fèi)方式。韓國使用語音股票交易服務(wù)的用戶以四五十歲的人士居多,雖然只占了整體用戶的20%,卻是交易量最高的一群。

  爭奪也很激烈,早在1998年市場上銷售的語音識別系統(tǒng)已經(jīng)超過80多種。2001年中國市場上語音產(chǎn)品也已經(jīng)形成了一定的市場規(guī)模。IBM和Intel 在中國市場上已經(jīng)努力了很久,IBM的語音識別軟件占據(jù)了大半的市場份額。2000年底兩大巨人牽手,IBM中國與Intel中國Dialogic分部聯(lián)合推出了語音開發(fā)平臺。國內(nèi)企業(yè)很小很弱,但是擁有一些語音合成方面的核心技術(shù),應(yīng)該說市場機(jī)會還是有的。

【互聯(lián)網(wǎng)周刊消息】 2001/06/21



相關(guān)鏈接:
炎黃新星與新華世紀(jì)聯(lián)手推出《新華音霸KingVoice 1.0》 2001-06-08
統(tǒng)一消息平臺中的語音技術(shù) 2001-06-04
數(shù)據(jù)挖掘走入語音處理 2001-06-04
語音技術(shù)的拓展與展望 2001-06-01
語音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11