首頁>>廠商>>語音識別與合成>>中科模識

Pattek語音識別產品:找一條走得通的路

2002/08/08

長期以來,我國很多基礎性的技術研究都靠國家投資在支撐著。這些項目如何更快地走出實驗室?guī)砩鐣徒洕б鎸ζ淠芊窀斓匕l(fā)展具有重要意義。語音識別技術的研發(fā)面臨著同樣的問題,中科院自動化所在如何能更快地帶來回報,獲得社會資源的支持方面選擇了一條捷徑,其Pattek語音識別產品由此誕生……

當我們發(fā)現一條路因施工而很難走,甚至無法通行時,我們面臨著兩種選擇:按原計劃繼續(xù)走,而不管前路是否通暢,或是退回去找一條能夠繞過施工地段的路。這種選擇對語音識別技術也同樣存在。

艱難語音路

1997年9月,IBM在國內發(fā)布了一款語音識別產品——ViaVoice,這款產品的到來令整個計算機行業(yè)為之沸騰,厭倦了鍵盤輸入的人們看到了一線希望。但是,5年時間過去了,我們幾乎看不到有人用語音來輸入文字,可以說,用語音聽寫的思路在過去這個時段的市場上敗得一塌糊涂。

ViaVoice的每一步都吸引著每一個關注語音識別技術和產品的人的密切關注。它在市場上遭受的挫折同樣引人注目。于是,有人便開始思考:語音識別技術在聽寫方面的應用是否已經成熟?語音識別技術的應用是否非得定位于聽寫應用?

從ViaVoice的字面意義看,這是一條“語音通道”,但IBM已經在這條語音通道里走了40年的時間,早在20世紀60年代初,IBM及其他一些力圖在語音識別領域有所作為的大型企業(yè)就開始了語音識別技術的研究。40年的努力讓計算機從“稀世珍寶”變成了普通百性的必備之物,卻沒有讓語音識別技術走入人們的視野。于是,有人說:“語音識別技術從目前來看,食之無味,棄之可惜!

“從目前的技術水平來看,語音識別技術要滿足聽寫應用的需要的確還有困難,但語音識別技術的應用不僅僅在聽寫,其他一些方面的應用要求相對較低一些。因此,在某些領域的應用,語音識別技術已經可以實現具有應用價值的產品!痹谡Z音識別領域工作了14年的徐波提出他的看法。

這種思路直接影響了中科院自動化所Pattek語音識別產品的出臺。

今年6月底,中科院自動化所在北京發(fā)布了四款語音識別產品,這些產品的出臺既是研發(fā)人員10多年努力的結晶,同時標志著國內語音技術發(fā)展完全依靠國家投資的狀況將有所改變。

路漫漫其修遠

1987年,中科院自動化所模式識別實驗室在國家領導的關心下成立。其后,有關語音識別技術的研究工作隨即展開。這與世界語音識別技術研究的發(fā)展進程相比已經晚了20多年!皠倓偝闪r的語音識別技術研究項目組僅有3個成員,當時我們開展的研究主要在于針對特定人的單音節(jié)語音識別。”徐波在回憶那段研究工作時說,“我們都看不懂國外的論文資料,因為他們的研究早已轉移到連續(xù)語音的識別上了(國外連續(xù)語音識別技術的研究工作在20世紀70年代就已經開始)!睆倪@個小小的細節(jié),我們可以感受到技術研究的差距。

盡管如此,課仍需一節(jié)一節(jié)地補。語音識別項目組在1990年時建立了一個特定人的單字語音識別系統(tǒng)。當時就有企業(yè)想把這一系統(tǒng)產品化,但從事后的結果來看,市場上并沒有看到相應的產品。這個時期的技術離產品化尚有相當長的距離。

補完了特定人、單音節(jié)語音識別的課,項目組迅速進入到了下一個階段的研究工作中。1991年,項目組開始了連續(xù)語音的非特定人識別技術研究。這時,項目組與國際上的語音識別技術研究距離開始縮短。經過一年的努力,項目組拿出了一個小詞表的連續(xù)語音特定人識別系統(tǒng)。這個系統(tǒng)擁有2000個語音識別詞匯,它在一些特定領域的應用開始成為可能。他們將這一技術應用在了中關村公交路線的查詢系統(tǒng)上。

從非連續(xù)語音到連續(xù)語音的研究面臨著很多完全不同的技術難點,非連續(xù)語音的識別是一些孤立的聲波片段,但連續(xù)語音則面臨著如何切分聲波的問題。諸如此類的新問題使連續(xù)語音識別率的提高比非連續(xù)語音更加困難。

另外,由于實際應用中的語音識別應該是面對非特定人的——作為一種語音識別產品,它可能面對各種各樣的人。這些人可能來自北京、上海、廣東、四川、新疆等全國各個角落,他們的口音存在著很大的差別,要很好地“聽”懂這些有著巨大差別的語音,識別技術就必須相當地“聰明”。在ViaVoice產品中,IBM為其加入了“學習”功能來解決這一問題,即根椐具體使用者的口音對語音模板進行修正。但這種方式下使用者因為感冒或其他原因影響發(fā)音都將使識別率發(fā)生大幅度波動。

為了獲得具有更強適應性的語音模板,自動化所通過合作的方式在全國各地建立了7個采樣點,收集全國各地不同口音的樣板,用于修正語音模板。這樣的采集工作已經持續(xù)了10年之久。據徐波介紹,迄今為止,他們已經擁有了4000個人的語音樣本,這些樣本更加準確地反映了各地不同口音的發(fā)音特點。

隨著研究的深入,工作的復雜度也逐漸提升。1995年,項目組拿出了一個非特定人的大詞匯量語音識別系統(tǒng)。這一系統(tǒng)能處理4.6萬以上的字詞,但它是非連續(xù)的孤立詞的識別。就像鍵盤輸入一樣,我們可以輸入系統(tǒng)內含的單字或詞語,但用戶無法連續(xù)地整句輸入。

有了以上一些研究工作的基礎,項目組于1996年開始著手全力攻克集語音識別三大難點于一身的非特定人大詞匯量連續(xù)語音識別。也就在這一工作展開一年后,IBM推出了ViaVoice產品。ViaVoice的推出不僅給研究組很大的震動,也讓他們看到了語音識別技術真正推向市場,成為一種普及技術的曙光。

ViaVoice像有人在黎明前劃亮的一根火柴,它讓很多人以為是曙光已經來臨,但這根火柴很快熄滅了。于是,有人開始悲觀,但也有人發(fā)現真正的曙光正在東方顯露出來。

期待曙光



“2000年的時候,我們非常圓滿地解決了在大詞匯量非特定人的連續(xù)語音識別中遇到的關鍵問題。我們在此基礎上發(fā)表的論文在中文口語信息處理國際會議中榮獲了一等獎,這一技術在同等條件下已經優(yōu)于國外一些著名研究機構公開發(fā)表的準確率。”徐波對這一成果相當地滿意。與此同時,他們的語音識別技術更多地把上下文相關等語義分析技術加入到了其中。正如我們聽別人說話一樣,我們聽懂的不是字詞,而是整句話的語義,以至于我們常常理解了語義卻并不記得原話。因此,一句話中每個字詞的識別與上下文密切相關。

雖然技術已經有了大幅度地突破,而且計算機的處理能力也已經今非昔比,但“真正實用的聽寫應用仍是個瓶頸”。徐波對語音識別技術的應用有他自己的看法。

聽寫應用不夠成熟并不意味著語音識別技術的產品化就應該等待技術的成熟。徐波提出了目前可行的語音識別技術應用方向!拔覀冇X得目前的語音識別技術最主要的應用不在于PC上,而在移動通信設備和嵌入式產品中!痹谶@種思路的指導下,自動化所開始了技術的產品化嘗試。他們在中文大詞匯量、非特定人、連續(xù)語音識別技術的基礎上開始了三個方向的產品化工作。PC應用、嵌入式應用、移動通信和網絡應用。

但是,一直以技術研究為核心能力的研究所在面對市場時將面臨很多的問題。畢竟,長期以來我國基礎研究與市場化運作的嚴重脫節(jié)難以在短時間內得到連接。而即便是一項成熟的技術,它要在市場上獲得成功也仍有很長的路需要走。因此,自動化所的語音識別技術想在市場上獲得期望的效果就必然要有更廣泛的社會力量的支持。

為此,自動化所一方面成立了下屬公司,對比較成熟的技術進行市場化運作;另一方面,他們與國內外眾多的企業(yè)開展了技術合作。通過與社會資源的聯合,自動化所終于在6月底推出了基本成型的語音識別產品。正如自動化所所長譚鐵牛在會議上所說的:“這是一件大事,中國人的聲音必須由中國人掌握!彼粌H僅標志著自動化所在語音識別領域10多年的努力開始有了成果,更重要的是它趟出了一條從國家支持的技術研究項目走向市場的道路。

語音識別技術能夠走出實驗室,及時地進行產品化,其中很重要的一點在于如何把研究所的技術研究能力、企業(yè)的產品化和市場化能力結合起來。自動化所的嘗試填補了研究與市場之間的鴻溝。

合作出產品

6月27日,眾多的新聞媒體和IT業(yè)人士把北京大運村天鴻科園大酒店的鴻運廳擠得水泄不通。自動化所的四款語音識別產品在這里發(fā)布引起了廣泛的關注。這四款產品包括三款語音識別SDK(軟件開發(fā)包)和一款DSP語音識別板卡。這些產品都還不是可以直接拿到市場上賣的終端產品,但它將通過與大量的產品開發(fā)商合作最終實現這些產品的巨大價值。如DSP可以被電器廠商加入到它們的電器中,使電器能夠接收主人用語言下的指令。

把它用在電視中,用戶就可以直接告訴它開機、關機或切換頻道。

三款SDK產品中,分別面向通信/網絡、嵌入式系統(tǒng)和PC環(huán)境。它們可以讓手機、掌上電腦、PC軟件開發(fā)商輕易地在相應的設備中加入語音控制功能。

“2000年下半年,我們開始考慮語音識別的應用問題,最初的考慮是把語音識別技術做成SDK,通過許可證的方式讓各軟件開發(fā)商使用!币簿驮谶@個時候,自動化所下屬的北京中科模識科技有限公司(簡稱模識科技)成立了。“我們的想法是把一些可以在半年左右推向市場的技術通過模識科技的市場化運作,把它推出去!毙觳ǖ南敕ê苤苯,也很務實。

此后,模識科技與市場上的其他企業(yè)也展開了一系列的合作,如針對具有語音識別能力的XML平臺的開發(fā),自動化所就與中文之星及Intel展開了全面的合作。它們三者中,模識科技負責語音識別引擎的開發(fā),中文之星負責XML平臺級的軟件開發(fā),而Intel負責架構的設計和應用市場的支持。這種合作為產品的順利出臺鋪平了道路。

2001年,自動化所開始考慮開發(fā)一種獨立于軟件平臺的硬件語音識別產品。它們通過與上海廣電信息股份有限公司和粵TCL聯合開發(fā)完成了語音遙控器。它將使人們可以用語音來控制家用電器!跋乱徊轿覀儗袲SP板卡做成語音識別芯片,這樣一方面可以降低成本,另一方面也將促進語音識別技術的大規(guī)模應用。”徐波的話音里透露出看到希望時的興奮,“語音識別技術是一種基礎性技術,它現在也是一種戰(zhàn)略性技術。未來的各種隨身設備都將允許人們用語音來控制和操作,它不僅僅是在PC的輸入方法中一種‘錦上添花’的技術,而是不可或缺的技術!毙觳ǘ啻螐娬{信息設備的多模態(tài)交互能力,在他的心目中,人們在使用設備時往往希望借助畫面、聲音、手寫、鍵盤等多種方式,以便人們更方便地使用它。

對自動化所來說,這僅僅是一個開頭,它的語音識別技術還有很多的應用領域,而這些領域的應用要求它更加廣泛地開展合作。事實也正是如此,模識科技與更多企業(yè)在不同領域的合作也正在商洽之中。也許,這是一條走得通的路。

產品檔案

Pattek語音識別產品

Pattek是今年6月底中科院自動化所推出的語音識別產品,它包括了Pattek ASR/C2.0、Pattek ASR/T2.0、Pattek ASR/P2.0和Pattek DSP/A1.3四款產品。其中Pattek ASR/C2.0是面向計算資源要求較為苛刻的嵌入式系統(tǒng)的SDK,Pattek ASR/T2.0是面向通信和網絡應用的SDK,Pattek ASR/P2.0是面向PC平臺的SDK,Pattek DSP/A1.3則是面向嵌入式環(huán)境的硬件語音識別板卡。

這些產品的特點在于識別率高,對環(huán)境噪聲和口音有很強的適應能力。其中,面向嵌入式系統(tǒng)的Pattek ASR/C2.0對系統(tǒng)要求很低,它對內存資源的占用小于1MB,能運行于所有基于Windows CE操作系統(tǒng)的嵌入式產品中。Pattek ASR/T2.0可以支持多服務器和分布式語音識別應用,單個服務器CPU可以同時處理16路語音輸入,它將主要應用于各種行業(yè)的呼叫中心,代替一些人工服務。面向PC環(huán)境的Pattek ASR/P2.0可以應用于基于PC的各種應用,如語音玩具、語音教學、語音多媒體信息查詢等。Pattek DSP/A1.3可以獨立地嵌入到不同設備和系統(tǒng)中,提供完整的嵌入式語音識別解決方案。

計算機世界(www.ccw.com.cn)


相關鏈接:
愛可信與模識科技攜手 推動語音識別技術應用 2006-08-02
模識科技推出跨平臺 "天語"語音識別引擎 3.0 2003-03-24
新一代智能語音總機PATTEK VoiceSwitch 2.0 2002-08-29
電話撥號不按鍵 中文語音識別技術大突破 2002-07-20
中文語音識別技術取得突破 2002-06-28

分類信息:     文摘   技術_語音識別_文摘