你好!新語音識別時代
唐瀟霖 2006/06/01
語音識別技術(shù)真有那么“風花雪月”嗎?也許過不了多久,面貌煥然一新、同時蘊藏巨大商機的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢 走出實驗室
語音識別技術(shù)真有那么“風花雪月”嗎?實際上,這項技術(shù)一直都是計算機研究領(lǐng)域內(nèi)的一個熱門課題,也一向倍受IBM、微軟等等IT巨頭器重,相關(guān)研究成果層出不窮。隨著語音識別技術(shù)在最近幾年逐漸向移動通訊、互聯(lián)網(wǎng)等領(lǐng)域,以及各種不方便通過手寫輸入與機器進行“交流”的手持設(shè)備,如車載GPS定位系統(tǒng)、娛樂系統(tǒng)等硬件領(lǐng)域滲透,供其施展的舞臺日益寬廣起來。也許過不了多久,面貌煥然一新、同時蘊藏巨大商機的語音識別應(yīng)用熱潮,將會徹底改變?nèi)藗兊乃季S定勢。
只需撥打一個號碼,就可以搞定問路、訂票、美食推薦、家政服務(wù)、娛樂休閑、火車時刻等等信息?對,這是中國電信最近推出的一項名為“號碼百事通”的新業(yè)務(wù),也是一款在挖掘和整合用戶號碼信息的基礎(chǔ)上,針對用戶的模糊查詢等信息服務(wù)需求提供的新產(chǎn)品。因為是模糊查詢,所以現(xiàn)行的“號碼百事通”業(yè)務(wù)還需要靠人工坐席來實現(xiàn),這必然需要投入大量資金來建設(shè)和不斷完善呼叫中心。為解決這一問題,中國電信找到了中科院聲學所。利用聲學所的技術(shù),中國電信不久后將在“號碼百事通”系統(tǒng)中引入語音搜索引擎,可以根據(jù)人們打入電話的聲音來識別、搜索出客戶需要查詢的信息并自動提供。
同樣是電信增值業(yè)務(wù),目前江蘇移動、山東移動等電信運營商,已經(jīng)實現(xiàn)了用戶通過“哼”一段旋律,就能查找到自己聽過卻不知道名稱的歌曲或彩鈴,并且進行點播和下載的新業(yè)務(wù)。這種大規(guī)模的商業(yè)應(yīng)用,已經(jīng)進入了成熟階段。中科院聲學所語音實驗室的潘接林副主任對《互聯(lián)網(wǎng)周刊》表示,在商業(yè)應(yīng)用上,這套系統(tǒng)最關(guān)鍵的部分是解決了計費環(huán)節(jié)的問題,電信運營商和聲學所,由此可以按照每條查詢的下載量來進行按比例分賬。目前,聲學所正在與互聯(lián)網(wǎng)上的幾大音樂內(nèi)容提供商合作,不久后將可以實現(xiàn)在互聯(lián)網(wǎng)上,通過唱出一段旋律的方式來進行音樂搜索!
抓住語音搜索的商機
今年4月11日,Google向美國專利署遞交了一份語音技術(shù)專利申請,其中涵蓋了Google在語音識別方面的大量技術(shù)發(fā)明。許多經(jīng)濟觀察家們認為,Google有可能憑借此項專利,又一次牢牢控制住搜索引擎技術(shù)發(fā)展的前沿陣地。
而一直視Google為最大潛在競爭對手的微軟,從來都對語音識別技術(shù)格外重視。微軟CEO鮑爾默在5月22日訪華期間對記者說,在微軟的技術(shù)創(chuàng)新方向上,有四個重要的落點,除了網(wǎng)絡(luò)服務(wù)、安全和新設(shè)備等領(lǐng)域之外,還包括了自然語言理解。“語音識別技術(shù)在今后幾年內(nèi)會變得越來越重要。”鮑爾默解釋說。
其實,也正因為微軟對該領(lǐng)域重兵布防,所以在去年發(fā)生了“李開復事件”之后,鮑爾默才會顯得分外惱怒。跳槽到Google的微軟原全球副總裁李開復在美國卡耐基梅隆大學讀書的時候,就選擇了語音識別技術(shù)作為研究方向,后來順理成章的成為國際知名的語音識別技術(shù)專家,進入微軟后一直主導著微軟交互式語言及人機界面的研發(fā)工作。如此重要和關(guān)鍵的人物跑去了競爭對手那里,也難怪微軟要為此訴諸法庭。
在文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時候,這些技術(shù)巨頭顯然已經(jīng)瞄準了未來的語音、視頻搜索市場。微軟曾把語音識別的未來應(yīng)用重心放在計算機的聽寫機上,即類似于IBM
ViaVoice的研究方向,希望把人的語音直接轉(zhuǎn)換成文字。微軟曾在其Word軟件中嵌入了這種功能,但并未實現(xiàn)商業(yè)化。而在2006年的“微軟亞洲研究院創(chuàng)新日”上,微軟一口氣介紹了11項與搜索相關(guān)的技術(shù),其中“點播視/音頻搜索”更是讓人眼前一亮。可以想見,在爭奪未來語音識別搜索技術(shù)話語權(quán)的問題上,微軟決不會坐視Google去申請專利而無動于衷。
下一座技術(shù)堡壘
對于微軟的語音識別技術(shù),中科院聲學所下屬的中科信利技術(shù)有限公司高級副總裁劉建認為,目前微軟的語音識別技術(shù)還處于技術(shù)跟蹤階段,而在商用化的道路上,中科院的技術(shù)目前在國際上已經(jīng)走在了前列。目前世界上只有少數(shù)幾家公司能夠形成核心技術(shù),而中科院聲學所是國內(nèi)唯一完全擁有核心自主技術(shù)的單位,目前其最大的競爭對手主要是美國的Nuance公司。
Nuance由原來國際上的四大語音公司以及其它幾家在語音技術(shù)方面有特點的語音公司整合而成。自合并以來,Nuance已發(fā)展成為全球首屈一指的語音解決方案供應(yīng)商,它能夠提供從網(wǎng)絡(luò)到IVR(Interactive
Voice Response,互動式語音應(yīng)答)的應(yīng)用方案。早在1996年9月,嘉信理財(Charles Schwab)公司所開通的首個大規(guī)模商用的語音識別應(yīng)用系統(tǒng):股票報價系統(tǒng),其背后的技術(shù)就是由Nuance提供的。
據(jù)劉建介紹,語音識別技術(shù)大致可以分為兩個發(fā)展方向:一是大詞匯量連續(xù)語音識別系統(tǒng),主要應(yīng)用于計算機的聽寫機,以及與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),這些系統(tǒng)都是在計算機平臺上實現(xiàn)的;另外一個重要的方向是小型化、便攜式語音產(chǎn)品的應(yīng)用,如手機撥號、汽車設(shè)備的語音控制、智能玩具、家電遙控等方面的應(yīng)用,這些應(yīng)用系統(tǒng)大都使用專門的硬件系統(tǒng)實現(xiàn),特別是近幾年來迅速發(fā)展的語音信號處理專用芯片和語音識別片上系統(tǒng)的出現(xiàn),都為語音識別的廣泛應(yīng)用創(chuàng)造了有利的條件。
現(xiàn)在,機器識別人的單詞式的命令和指令,已經(jīng)不再困難,并且已經(jīng)開始了商用,例如中科信利幾個月后將推出的具有語音識別功能的芯片,就可以應(yīng)用在家電遙控、手機、汽車GPS、智能玩具等各種小型設(shè)備中。中信科利稱,其2006年的預(yù)期收入將達到1000萬元,較上年度有100%的增長。而另一種則是連續(xù)語音識別系統(tǒng),比如說如果兩個人在聊天,那么這些連貫的句子,將很難被機器識別,這也是語音識別技術(shù)領(lǐng)域內(nèi)未來的研究重點。
互聯(lián)網(wǎng)周刊
北京中科信利語音識別技術(shù)成功應(yīng)用到中移動彩鈴項目 2007-08-02 |
中科院研發(fā)語音識別搜索新技術(shù) 2006-10-31 |
富迪、中科共開音頻應(yīng)用 2006-05-16 |
音樂快搜:中科信利識別引擎賦予彩鈴平臺全新應(yīng)用模式 2005-09-13 |
清唱點歌:中科信利識別引擎賦予彩鈴平臺全新應(yīng)用模式 2005-07-26 |