首頁(yè)>>廠商>>語音識(shí)別與合成>>科大訊飛

發(fā)表評(píng)論分享按鈕

科大訊飛副總裁江濤:語音技術(shù)的三大種類

2011/10/14

  引言:蘋果iPhone 4S的Siri功能推出,可謂是引起了人們對(duì)于智能語音技術(shù)的極大關(guān)注。其實(shí),語音技術(shù)非常復(fù)雜,表象繁多,本刊通過采訪國(guó)內(nèi)科大訊飛、國(guó)筆等專家對(duì)目前的語音市場(chǎng)進(jìn)行梳理和探討。

一、不僅僅是語音,還是人工智能

  盡管蘋果“教主”喬布斯離開了我們,盡管iPhone 5沒有入人們期望的那樣出現(xiàn),但是iPhone 4S的推出仍然成功吸引了蘋果粉絲和業(yè)界的所有關(guān)注。根據(jù)美國(guó)電話電報(bào)公司(AT&T)透露,iPhone 4S在發(fā)布12小時(shí)之內(nèi)就接到了20萬份訂單,而其中最引入注目的一大新功能,就是被稱為Siri的語音助手功能。

  10月4日上午,蘋果全球產(chǎn)品副總裁Phil Schiller與負(fù)責(zé)iOS軟件的副總裁Scott Forstall在新品發(fā)布會(huì)上,隆重介紹了Siri。

什么是Siri?

  Forstall在現(xiàn)場(chǎng)進(jìn)行了演示,他拿起iPhone 4S,對(duì)手機(jī)問道:“今天天氣如何?”屏幕上立刻顯示出今天的天氣狀況。他又接著問,我用帶傘嗎?Siri馬上回答,今天會(huì)下雨。隨后,他還用這款應(yīng)用演示了搜索和設(shè)置鬧鐘提、預(yù)約等功能。

  Siri跟普通的語音搜索不一樣,它能明白你所說的,了解你的意思,甚至還能回答你的問題。那感覺就像真正擁有私人助理似的,而且是一位善解人意的私人助理。無論你用何種方式提問,它都能以人的思維去思考和反應(yīng),而不是以預(yù)設(shè)的程序答非所問。

  Siri能為你做的不僅僅是提供答案,它還可以親自替你完成一些基本的事情。比如,你可以吩咐Siri發(fā)短信給你父親、提醒你預(yù)約牙醫(yī)、幫你查找到達(dá)目的地的路線,不用擔(dān)心Siri不夠聰明,因?yàn)樗軌蛩伎纪瓿蛇@些事情需要運(yùn)行哪些應(yīng)用程序,還能明白你要打電話的準(zhǔn)確對(duì)象。

  Siri還包括傳聞中的“語音轉(zhuǎn)文字”的功能,你只需按下麥克風(fēng),把你想發(fā)送的內(nèi)容說出來,Siri就可以將你所說的內(nèi)容轉(zhuǎn)換成文字,并發(fā)送出去。除了發(fā)送短信外,Siri還集成到一些第三方應(yīng)用,這樣,你只需動(dòng)動(dòng)嘴皮子,就能更新Facebook、發(fā)送Twitter消息或者即時(shí)聊天。

  如果你認(rèn)為Siri只是一個(gè)簡(jiǎn)單的聲音控制軟件,而你的Android手機(jī)上的語音助手或NOKIA語音提示也可做到這點(diǎn),那你就錯(cuò)了。

  我們不妨探究一下Siri的血統(tǒng),這家最近剛被蘋果收購(gòu)的公司,直接發(fā)端于美國(guó)軍方的CALO(Cognitive Assistant that Learns and Organizes)項(xiàng)目,這也是史上最大的人工智能項(xiàng)目,匯聚了全球人工智能方面的頂尖專家。

  你如果看過好萊塢大導(dǎo)演斯皮爾伯格的電影《A I》,相信會(huì)對(duì)人工智能有一定了解,通過人工智能技術(shù),機(jī)器人可以把“對(duì)話、自然語言理解、視覺、演說、機(jī)器學(xué)習(xí)、制定計(jì)劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能,而不是簡(jiǎn)單的搜索和語音識(shí)別。它能夠自主分析用戶發(fā)出的口語指令,并給出確切的回應(yīng)和指導(dǎo),完全不需要用戶預(yù)選學(xué)習(xí)使用方法。

  在國(guó)外某科技博客錄制的一段視頻中,評(píng)測(cè)人員對(duì)Siri提出了許多含義模糊或有歧義的問題。比如:“附近有沒有什么浪漫的法國(guó)餐廳?”,比如:“天空為何是藍(lán)色的?”比如“鋼琴上有多少個(gè)八度?”對(duì)人類而言,這些句子再平常不過了,但要讓機(jī)器去理解這些變化多端的棘手詞匯,尤其是“浪漫”這種形容詞,那就極端困難了,然而這些問題Siri都可以回答。

  你甚至還可以對(duì)Siri表白,對(duì)它說:“我愛你!”它的回答也很妙:“希望你不會(huì)對(duì)其它手機(jī)也這么說!

  該評(píng)測(cè)人員隨后在博客中寫到:“Android系統(tǒng)的Voice Actions也是一項(xiàng)偉大的技術(shù),但說真的,它和Siri不是同一個(gè)層面的產(chǎn)品。Siri非常酷,與之相比Voice Actions雖說確實(shí)讓我們省去了打字輸入、觸摸操作的工序,但操作太復(fù)雜,只有那些Geek會(huì)使用它。然而,媽媽們會(huì)選擇Siri!

二、語音技術(shù)的三大種類

  除了人工智能,Siri的核心功能仍是基于語音識(shí)別的語音技術(shù),其語音引擎來自Nuance,這家公司在全球手機(jī)輸入法上處于壟斷地位。

  這一技術(shù)并非革 命性的變革,早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識(shí)別及合成的雛形。而1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來。

  近二十年來,語音識(shí)別技術(shù)取得顯著進(jìn)步,開始逐漸從實(shí)驗(yàn)室走向市場(chǎng)。據(jù)了解,許多大公司如IBM、蘋果、微軟、Google、AT&T和NTT等早在多年前都對(duì)語音識(shí)別系統(tǒng)的實(shí)用化研究投以巨資。目前主流的語音技術(shù)方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform語音平臺(tái),Microsoft的Whisper,Sun的VoiceTone,以及科大訊飛的口訊等。

  “語音技術(shù)是一個(gè)典型的交叉科學(xué),涉及到很多方面,不是說有錢就能做的,是有一定門檻的。你可以去APP下載一個(gè)我們的軟件體驗(yàn)一下”。根據(jù)科大訊飛副總江濤對(duì)電子工程專輯記者的介紹,目前語音技術(shù)大體上有三個(gè)分支:

  第一類是語音合成技術(shù)(TTS),就是把文字變成語音,能夠把文字讀出來的技術(shù),這個(gè)技術(shù)相對(duì)來說發(fā)展最早,也比較成熟。

  第二類是語音識(shí)別技術(shù)(ASR),它又有幾個(gè)細(xì)分,比較技術(shù)成熟的有命令識(shí)別(voice command),在有限的指定空間中實(shí)現(xiàn)你說的命令,早期很多手機(jī)上的語音識(shí)別很多就是這個(gè)層面。還有一個(gè)分支是語音評(píng)測(cè),能夠?qū)δ阏f的不同語言的標(biāo)準(zhǔn)程度進(jìn)行打分、評(píng)價(jià)與指導(dǎo)。

  第三類是聲紋識(shí)別技術(shù),因?yàn)檎Z言中人的聲帶帶有獨(dú)特的物理特性,跟指紋、虹膜一樣每個(gè)人的聲音都是獨(dú)特的,目前這種技術(shù)主要用在聲音加密方面,可以識(shí)別不同人的聲音。

  據(jù)江濤對(duì)電子工程專輯記者透露,目前最難實(shí)現(xiàn)的就是語音識(shí)別技術(shù)(ASR),盡管業(yè)內(nèi)普遍以識(shí)別率作為軟件評(píng)測(cè)的標(biāo)準(zhǔn),但語音受影響的環(huán)境因素太多了,說話人的語氣、語速、外圍的噪音程度,麥克風(fēng)的情況,尤其是云端識(shí)別,傳輸?shù)男诺篮脡,很多很多因素都是不可控制的,“所以讓官方去測(cè)一個(gè)系統(tǒng)識(shí)別率是多少其實(shí)意義不大,因?yàn)槊總(gè)人用的具體環(huán)境都不大一樣。最終做決定的還是消費(fèi)者,他們會(huì)用自己的手機(jī)去投票”。

科大訊飛副總裁 江濤  

圖:科大訊飛副總裁 江濤

三、語音技術(shù)面臨的諸多挑戰(zhàn)

  據(jù)江濤介紹,目前語音識(shí)別技術(shù)在實(shí)現(xiàn)上還有幾大難點(diǎn)需要解決:

  1、自適應(yīng)方面

  目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進(jìn)行幾百句話的訓(xùn)練,以讓計(jì)算機(jī)適應(yīng)你的聲音特征。這必然限制了語音識(shí)別技術(shù)的進(jìn)一步應(yīng)用,大量的訓(xùn)練不僅讓用戶感到厭煩,而且加大了系統(tǒng)的負(fù)擔(dān),F(xiàn)實(shí)世界的用戶類型是多種多樣的,就聲音特征來講有男音、女音和童音的區(qū)別,此外,許多人的發(fā)音離標(biāo)準(zhǔn)發(fā)音差距甚遠(yuǎn),這就涉及到對(duì)口音或方言的處理。事實(shí)上,ViaVoice的應(yīng)用前景也因?yàn)檫@一點(diǎn)打了折扣,只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識(shí)別方面取得相對(duì)滿意的成績(jī)。

  2、強(qiáng)健性方面

  語音識(shí)別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對(duì)語音識(shí)別效果影響最大的就是環(huán)境雜音或嗓音,在公共場(chǎng)合,你幾乎不可能指望手機(jī)能聽懂你的話,來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術(shù)的應(yīng)用范圍,目前,要在嘈雜環(huán)境中使用語音識(shí)別技術(shù)必須有特殊的抗噪(Noise Cancellation)麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶來說是不現(xiàn)實(shí)的。在公共場(chǎng)合中,個(gè)人能有意識(shí)地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語音識(shí)別技術(shù)也能達(dá)成這一點(diǎn)呢?這的確是一個(gè)艱巨的任務(wù)。

  某位業(yè)內(nèi)人士在微博上表示:“與iPhone 4一樣,iPhone 4S也配有副麥克風(fēng),用來過濾背景雜音。使用過Nuance Dragon語音到文本產(chǎn)品的用戶無疑會(huì)對(duì)這種情形非常熟悉:在語音輸入時(shí)必須保證良好的音質(zhì)并且減少雜音,即便這樣語音輸入結(jié)果也并非100%準(zhǔn)確;诖,我們認(rèn)為iPad和iPod touch上的低音質(zhì)麥克風(fēng)無法讓語音輸入獲得最佳效果,從而無法在短時(shí)間內(nèi)用上Siri!

  此外,帶寬問題也可能影響語音的有效傳送,語音技術(shù)的流量要求主要看語音的質(zhì)量,越保真的語音傳輸量越大,現(xiàn)在主流的語音技術(shù)采用的都是16bit編碼和8bit編碼兩種。在速率低于1000比特/秒的極低比特率下,語音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語音,以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等,要在這些情況下實(shí)現(xiàn)有效的語音識(shí)別,就必須處理聲音信號(hào)的特殊特征,如因?yàn)閹挾舆t或減損等。

  3、多語言混合識(shí)別以及無限詞匯識(shí)別方面

  由于目前使用的聲學(xué)模型和語音模型太過于局限,以至用戶只能使用特定語音進(jìn)行特定詞匯的識(shí)別。如果突然從中文轉(zhuǎn)為英文,或者法文、俄文,計(jì)算機(jī)就會(huì)不知如何反應(yīng),而給出一堆不知所云的句子;或者用戶偶爾使用了某個(gè)專門領(lǐng)域的專業(yè)術(shù)語,如 “信噪比"等,可能也會(huì)得到奇怪的反應(yīng)。根據(jù)筆者的使用體驗(yàn),中文與英文夾雜,包括數(shù)字的夾雜識(shí)別會(huì)比較困難。

  目前正在做語音方面的開發(fā),還不方便公布。

  云計(jì)算在安全和識(shí)別方面,凡是涉及到云端的,都要在服務(wù)器上實(shí)現(xiàn),就以打電話、發(fā)短信來說,其實(shí)運(yùn)營(yíng)商那里都有備份,本身有沒有安全問題,其實(shí)只要管理規(guī)范,并且控制在幾家大公司范圍內(nèi),我相信不會(huì)太亂。電子郵件做了這么多年,安全性問題也有,但是不能因?yàn)檫@樣就不用。

  4、實(shí)用性方面

  國(guó)外科技博主Michael Okuda對(duì)Siri的實(shí)用性抱懷疑態(tài)度!斑@只是一個(gè)DEMO,目前來看根本談不上革 命。Siri無法進(jìn)行大段文字錄入和現(xiàn)場(chǎng)翻譯的語音識(shí)別,而且限定了必須在App內(nèi)的特定識(shí)別,總覺得又是個(gè)蘋果拋磚引玉教育用戶的動(dòng)作!

  他認(rèn)為,語音輸入可能并非如此高效!霸O(shè)想一下,我在搜索圖片,我會(huì)說‘上、上、左、往下一個(gè),圖片編號(hào)3362,不對(duì),左邊那個(gè)。’這簡(jiǎn)直比直接點(diǎn)擊那張圖片要慢很多。”Michael說!拔艺J(rèn)為,自然語言必然會(huì)遇到諸多限制!

四、云平臺(tái)加速中文語音識(shí)別的來臨

  Siri的推出吸引了業(yè)內(nèi)對(duì)于語音識(shí)別技術(shù)的關(guān)注,據(jù)了解,此次Siri僅推出了英文、法文、德文版本,并且只能在iPhone 4S上面使用,這無疑對(duì)于專注中文語音技術(shù)的國(guó)內(nèi)廠商帶來巨大利好。不過由于Siri并非單純語音識(shí)別,而更是語義識(shí)別,即理解自然語言并作出合理回應(yīng)。中文自然語言的語義識(shí)別是Siri面對(duì)的難點(diǎn)與障礙。蘋果本身十分注重中國(guó)市場(chǎng),從iPhone 第一代的iPhone OS在發(fā)布之時(shí)就已包含中文語言及輸入法即可看出。

  事實(shí)上,早在1997年,IBM公司就開發(fā)出漢語ViaVoice語音識(shí)別系統(tǒng),可以識(shí)別上海話、廣東話和四川話等地方口音的語音識(shí)別系統(tǒng)ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴(kuò)展到65,000詞,還包括辦公常用詞條,具有“糾錯(cuò)機(jī)制”,其平均識(shí)別率可以達(dá)到95%。而中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計(jì)算平臺(tái)和應(yīng)用的“天語”中文語音系列產(chǎn)品——PattekASR,結(jié)束了中文語音識(shí)別產(chǎn)品自1998年以來一直由國(guó)外公司壟斷的歷史。

  你可能還記得幾年前電視上出現(xiàn)過的“金立語音王”廣告,該款手機(jī)可以通過語音收發(fā)短信,同時(shí)還可以通過語音閱讀文檔資料,可以說是國(guó)內(nèi)手機(jī)廠商在語音識(shí)別上的最早嘗試。

  國(guó)筆科技副總裁莊傳坤對(duì)電子工 程專輯記 者表示,類似于金立語音王這種產(chǎn)品就屬于命令識(shí)別技術(shù),事先設(shè)定一些命令,或者命令組合,早期的金立語音王基本上就是在手機(jī)CPU上進(jìn)行處理,運(yùn)算速度和存儲(chǔ)空間有限,只能識(shí)別有限的一千多條指令,體驗(yàn)也不好?拼笥嶏w副總江濤則透露,今年金立基于科大訊飛的語音云做了一個(gè)新的版本,在云服務(wù)器上可以做到幾十萬條的識(shí)別。

  據(jù)了解,目前國(guó)內(nèi)客戶對(duì)于語音技術(shù)的了解還處于起步階段,市面上完整成熟的中文語音解決方案還不多?拼笥嶏w董秘徐景明就對(duì)電子工 程專 輯記者表示,蘋果推廣Siri將從實(shí)際應(yīng)用等方面加速行業(yè)發(fā)展與普及。

  根據(jù)徐景明的介紹,科大訊飛目前通過兩種方式來培育語音識(shí)別業(yè)務(wù),一是開發(fā)自身的產(chǎn)品訊飛口訊和訊飛語音輸入法,發(fā)展語音云、豐富數(shù)據(jù)庫(kù),公司語音輸入法目前對(duì)標(biāo)準(zhǔn)普通話的識(shí)別正確率已提升到95%以上;二是向應(yīng)用軟件開發(fā)商們開放語音云平臺(tái)接入,目前包括挖財(cái)在內(nèi)的理財(cái)記賬軟件、凱立德在內(nèi)的地圖軟件,都已內(nèi)置了科大訊飛的語音識(shí)別功能。此外,公司還與中國(guó)電信合作推出了應(yīng)用相關(guān)技術(shù)的通訊增強(qiáng)軟件。

  自2010年10月28日科大訊飛“語音云”成功發(fā)布之日起,訊飛語音云合作伙伴已經(jīng)超過500家,包括新浪、搜狐、騰訊、聯(lián)想、挖財(cái)、樂么樂么等,語音云的用戶量也已經(jīng)超過2000萬,而除了科大訊飛,Nuance也在同樣搭建開放的語音云平臺(tái),開發(fā)者可以給予其語音引擎開發(fā)各種第三方的語音應(yīng)用。

  至于Siri所應(yīng)用的人工智能方面,國(guó)內(nèi)廠商中目前騰訊聯(lián)合中科院推出的小Q機(jī)器人是一大嘗試,可以實(shí)現(xiàn)部分思考和理解能力,相信隨著iPhone 4s的大力推動(dòng)和智能手機(jī)的進(jìn)一步發(fā)展,中國(guó)廠商自行研發(fā)的具有人工智能的語音軟件將會(huì)很快問世。

共 3 頁(yè):1 2 3 

電子工程專輯



相關(guān)閱讀:
蘋果新品力推語音識(shí)別科大訊飛收獲利好 2011-10-11
訊飛語音閃耀2011年度中國(guó)國(guó)際呼叫中心管理大會(huì) 2011-10-08
科大訊飛:現(xiàn)在的新興應(yīng)用爆發(fā)+未來的想象力 2011-10-08
“語音及語言信息處理國(guó)家工程實(shí)驗(yàn)室”正式揭牌 2011-09-28
訊飛聯(lián)合凱立德共同推出移動(dòng)導(dǎo)航系統(tǒng)V7.0語音版 2011-09-20

熱點(diǎn)專題:  語音合成TTS 語音識(shí)別ASR    移動(dòng)增值   移動(dòng)互聯(lián)網(wǎng)
分類信息:  移動(dòng)增值_與_移動(dòng)互聯(lián)網(wǎng)  移動(dòng)增值_與_CTI文摘  移動(dòng)互聯(lián)網(wǎng)_與_移動(dòng)  CTI文摘_與_移動(dòng)
相關(guān)頻道:  增值電信文摘