你好!新語音識別時代

唐瀟霖 2006/06/01

  語音識別技術(shù)真有那么“風花雪月”嗎?也許過不了多久,面貌煥然一新、同時蘊藏巨大商機的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢

  微波爐或者電視機能聽懂你的話嗎?“加熱3分鐘”、“換到2頻道”等等簡單的指令,對于加載了嵌入式語音控制芯片的智能家電而言并不算難事,目前的語音識別技術(shù)已經(jīng)完全可以勝任。如中國科學院聲學研究所語音實驗室這樣的科研機構(gòu),甚至已經(jīng)在跟家電廠商洽談合作的可能。問題的關(guān)鍵在于,誰會為得到一臺能聽懂幾個簡單指令的微波爐而多付出幾倍的價錢呢?

  一直以來,語音控制模塊的成本因素似乎都是阻礙語音識別技術(shù)接近普通消費者的“攔路虎”。也正因為如此,像微軟那座著名的“未來之家”一樣,能通過自己的聲音來控制家中的燈光、電視、冰箱、等各種電器,絕非語音識別技術(shù)最被看好、最值得期待的應(yīng)用前景。即使是中科院自動化所以31萬元的價格,為四川科技館定做的那位能根據(jù)人類語音命令來完成畫像的特種機器人“貝奇”,或許其更多的用處也只是被拿來展示和娛樂觀眾! 

  走出實驗室

  語音識別技術(shù)真有那么“風花雪月”嗎?實際上,這項技術(shù)一直都是計算機研究領(lǐng)域內(nèi)的一個熱門課題,也一向倍受IBM、微軟等等IT巨頭器重,相關(guān)研究成果層出不窮。隨著語音識別技術(shù)在最近幾年逐漸向移動通訊、互聯(lián)網(wǎng)等領(lǐng)域,以及各種不方便通過手寫輸入與機器進行“交流”的手持設(shè)備,如車載GPS定位系統(tǒng)、娛樂系統(tǒng)等硬件領(lǐng)域滲透,供其施展的舞臺日益寬廣起來。也許過不了多久,面貌煥然一新、同時蘊藏巨大商機的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢。

  只需撥打一個號碼,就可以搞定問路、訂票、美食推薦、家政服務(wù)、娛樂休閑、火車時刻等等信息?對,這是中國電信最近推出的一項名為“號碼百事通”的新業(yè)務(wù),也是一款在挖掘和整合用戶號碼信息的基礎(chǔ)上,針對用戶的模糊查詢等信息服務(wù)需求提供的新產(chǎn)品。因為是模糊查詢,所以現(xiàn)行的“號碼百事通”業(yè)務(wù)還需要靠人工坐席來實現(xiàn),這必然需要投入大量資金來建設(shè)和不斷完善呼叫中心。為解決這一問題,中國電信找到了中科院聲學所。利用聲學所的技術(shù),中國電信不久后將在“號碼百事通”系統(tǒng)中引入語音搜索引擎,可以根據(jù)人們打入電話的聲音來識別、搜索出客戶需要查詢的信息并自動提供。

  同樣是電信增值業(yè)務(wù),目前江蘇移動、山東移動等電信運營商,已經(jīng)實現(xiàn)了用戶通過“哼”一段旋律,就能查找到自己聽過卻不知道名稱的歌曲或彩鈴,并且進行點播和下載的新業(yè)務(wù)。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進入了成熟階段。中科院聲學所語音實驗室的潘接林副主任對《互聯(lián)網(wǎng)周刊》表示,在商業(yè)應(yīng)用上,這套系統(tǒng)最關(guān)鍵的部分是解決了計費環(huán)節(jié)的問題,電信運營商和聲學所,由此可以按照每條查詢的下載量來進行按比例分賬。目前,聲學所正在與互聯(lián)網(wǎng)上的幾大音樂內(nèi)容提供商合作,不久后將可以實現(xiàn)在互聯(lián)網(wǎng)上,通過唱出一段旋律的方式來進行音樂搜索! 

  抓住語音搜索的商機

  今年4月11日,Google向美國專利署遞交了一份語音技術(shù)專利申請,其中涵蓋了Google在語音識別方面的大量技術(shù)發(fā)明。許多經(jīng)濟觀察家們認為,Google有可能憑借此項專利,又一次牢牢控制住搜索引擎技術(shù)發(fā)展的前沿陣地。

  而一直視Google為最大潛在競爭對手的微軟,從來都對語音識別技術(shù)格外重視。微軟CEO鮑爾默在5月22日訪華期間對記者說,在微軟的技術(shù)創(chuàng)新方向上,有四個重要的落點,除了網(wǎng)絡(luò)服務(wù)、安全和新設(shè)備等領(lǐng)域之外,還包括了自然語言理解。“語音識別技術(shù)在今后幾年內(nèi)會變得越來越重要。”鮑爾默解釋說。

  其實,也正因為微軟對該領(lǐng)域重兵布防,所以在去年發(fā)生了“李開復事件”之后,鮑爾默才會顯得分外惱怒。跳槽到Google的微軟原全球副總裁李開復在美國卡耐基梅隆大學讀書的時候,就選擇了語音識別技術(shù)作為研究方向,后來順理成章的成為國際知名的語音識別技術(shù)專家,進入微軟后一直主導著微軟交互式語言及人機界面的研發(fā)工作。如此重要和關(guān)鍵的人物跑去了競爭對手那里,也難怪微軟要為此訴諸法庭。

  在文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時候,這些技術(shù)巨頭顯然已經(jīng)瞄準了未來的語音、視頻搜索市場。微軟曾把語音識別的未來應(yīng)用重心放在計算機的聽寫機上,即類似于IBM ViaVoice的研究方向,希望把人的語音直接轉(zhuǎn)換成文字。微軟曾在其Word軟件中嵌入了這種功能,但并未實現(xiàn)商業(yè)化。而在2006年的“微軟亞洲研究院創(chuàng)新日”上,微軟一口氣介紹了11項與搜索相關(guān)的技術(shù),其中“點播視/音頻搜索”更是讓人眼前一亮。可以想見,在爭奪未來語音識別搜索技術(shù)話語權(quán)的問題上,微軟決不會坐視Google去申請專利而無動于衷。  

  下一座技術(shù)堡壘

  對于微軟的語音識別技術(shù),中科院聲學所下屬的中科信利技術(shù)有限公司高級副總裁劉建認為,目前微軟的語音識別技術(shù)還處于技術(shù)跟蹤階段,而在商用化的道路上,中科院的技術(shù)目前在國際上已經(jīng)走在了前列。目前世界上只有少數(shù)幾家公司能夠形成核心技術(shù),而中科院聲學所是國內(nèi)唯一完全擁有核心自主技術(shù)的單位,目前其最大的競爭對手主要是美國的Nuance公司。

  Nuance由原來國際上的四大語音公司以及其它幾家在語音技術(shù)方面有特點的語音公司整合而成。自合并以來,Nuance已發(fā)展成為全球首屈一指的語音解決方案供應(yīng)商,它能夠提供從網(wǎng)絡(luò)到IVR(Interactive Voice Response,互動式語音應(yīng)答)的應(yīng)用方案。早在1996年9月,嘉信理財(Charles Schwab)公司所開通的首個大規(guī)模商用的語音識別應(yīng)用系統(tǒng):股票報價系統(tǒng),其背后的技術(shù)就是由Nuance提供的。

  據(jù)劉建介紹,語音識別技術(shù)大致可以分為兩個發(fā)展方向:一是大詞匯量連續(xù)語音識別系統(tǒng),主要應(yīng)用于計算機的聽寫機,以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計算機平臺上實現(xiàn)的;另外一個重要的方向是小型化、便攜式語音產(chǎn)品的應(yīng)用,如手機撥號、汽車設(shè)備的語音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實現(xiàn),特別是近幾年來迅速發(fā)展的語音信號處理專用芯片和語音識別片上系統(tǒng)的出現(xiàn),都為語音識別的廣泛應(yīng)用創(chuàng)造了有利的條件。

  現(xiàn)在,機器識別人的單詞式的命令和指令,已經(jīng)不再困難,并且已經(jīng)開始了商用,例如中科信利幾個月后將推出的具有語音識別功能的芯片,就可以應(yīng)用在家電遙控、手機、汽車GPS、智能玩具等各種小型設(shè)備中。中信科利稱,其2006年的預(yù)期收入將達到1000萬元,較上年度有100%的增長。而另一種則是連續(xù)語音識別系統(tǒng),比如說如果兩個人在聊天,那么這些連貫的句子,將很難被機器識別,這也是語音識別技術(shù)領(lǐng)域內(nèi)未來的研究重點。

互聯(lián)網(wǎng)周刊



相關(guān)鏈接:
北京中科信利語音識別技術(shù)成功應(yīng)用到中移動彩鈴項目 2007-08-02
中科院研發(fā)語音識別搜索新技術(shù) 2006-10-31
富迪、中科共開音頻應(yīng)用 2006-05-16
音樂快搜:中科信利識別引擎賦予彩鈴平臺全新應(yīng)用模式 2005-09-13
清唱點歌:中科信利識別引擎賦予彩鈴平臺全新應(yīng)用模式 2005-07-26

相關(guān)頻道:           文摘   技術(shù)_語音識別_文摘