首頁>>廠商>>語音識別與合成>>科大訊飛

科大訊飛董事長劉慶峰介紹語音云概念

2010/10/29

  10月28日消息,“科大訊飛‘語音云’發(fā)布會(huì)暨移動(dòng)互聯(lián)網(wǎng)語音創(chuàng)新論壇”在北京香格里拉飯店召開,圖為科大訊飛董事長劉慶峰介紹語音云概念。

圖:科大訊飛董事長劉慶峰介紹語音云概念

  科大訊飛在本次發(fā)布會(huì)上推出全球首個(gè)同時(shí)提供語音合成、語音搜索、語音聽寫等智能語音交互能力的移動(dòng)互聯(lián)網(wǎng)智能交互平臺——“訊飛語音云”。

  以下為劉慶峰現(xiàn)場講演實(shí)錄

  尊敬的各位領(lǐng)導(dǎo)和嘉賓,大家下午好。感謝周光召先生和柳傳志先生的精彩演講,讓我們對我們民族語音產(chǎn)業(yè)的發(fā)展更是充滿了斗志和昂揚(yáng)的信心。就像剛才兩位領(lǐng)導(dǎo)所說的那樣,語音作為溝通和獲取信息最便捷的手段和方式,具有廣闊的應(yīng)用前景。而今天伴隨著語音核心技術(shù)的不斷突破,伴隨著移動(dòng)互聯(lián)網(wǎng)終端的不斷升級,以及后臺大規(guī)模服務(wù)并發(fā)文件的不斷升級,在當(dāng)前這個(gè)時(shí)代,應(yīng)用新的架構(gòu),讓客戶能夠用到最好的語音技術(shù),我們覺得時(shí)機(jī)已經(jīng)成熟。那么今天,科大訊飛在業(yè)界率先發(fā)布的包含語音的移動(dòng)互聯(lián)網(wǎng)的應(yīng)用和平臺,我們相信一定會(huì)對中國語音產(chǎn)業(yè)乃至移動(dòng)互聯(lián)網(wǎng)的發(fā)展起到非常重要的推動(dòng)作用。

  下面我首先給大家匯報(bào)一下語音產(chǎn)業(yè)最新的一些概括,我們這里所講的語音技術(shù),簡單來說就是使得信息時(shí)代的各種機(jī)器,都能夠像人一樣能聽會(huì)說,那么它包括了語音合成,讓機(jī)器開口說話;語音識別,讓它能聽懂人講話,比如說命令控制,語音搜索等等。那么隨著社會(huì)的信息化,網(wǎng)絡(luò)化和智能化的發(fā)展趨勢,語音技術(shù)的應(yīng)用可以深入到社會(huì)生活的幾乎所有行業(yè),那么目前已經(jīng)在電信、銀行等等越來越多的行業(yè)得到了深入的應(yīng)用。

  除此以外,語音技術(shù)還在國家的信息安全以及漢語國際推廣領(lǐng)域都有著非常重要的應(yīng)用,因此語音技術(shù)和產(chǎn)業(yè)歷來是世界各國競爭的熱點(diǎn)和焦點(diǎn)。那么2000年以前,中國語音產(chǎn)業(yè)幾乎全部由國外公司主導(dǎo),98,99年,微軟,英特爾等等,都在中國成立了專門的語音研究機(jī)構(gòu),應(yīng)該是產(chǎn)業(yè)形勢非常地危急。就是在這種背景下,以科大訊飛為代表的民族語音產(chǎn)業(yè),在聯(lián)想投資,在科學(xué)院以及國家各部委的關(guān)心和支持下,我們勇于亮劍,經(jīng)過十年的發(fā)展,目前中國語音主流市場的80%已經(jīng)重新回到中國企業(yè)手中。

  那么科大訊飛不僅在中文領(lǐng)域獲得了國際領(lǐng)先的成果,而且在英文技術(shù)領(lǐng)域方面也取得了國際領(lǐng)先的成就,科大訊飛現(xiàn)在已經(jīng)發(fā)展為中國語音產(chǎn)業(yè)唯一上市的公司,為下一輪更快更好的發(fā)展奠定了很扎實(shí)的基礎(chǔ)。那么今天,我們的語音產(chǎn)業(yè)又面臨著更加廣闊的巨大的發(fā)展機(jī)遇,這個(gè)機(jī)遇就是剛才我們柳總提到的全球已經(jīng)進(jìn)入高速發(fā)展的移動(dòng)互聯(lián)網(wǎng)時(shí)代,那么作為產(chǎn)業(yè)界共同公認(rèn)的,作為移動(dòng)互聯(lián)網(wǎng),作為計(jì)算機(jī)整個(gè)產(chǎn)業(yè)發(fā)展的第五次浪潮,它將帶來產(chǎn)業(yè)的整體規(guī)模將是在桌面互聯(lián)網(wǎng)十倍以上速度的遞增,那么在這個(gè)過程中,會(huì)誕生一大批偉大的公司。那么在互聯(lián)網(wǎng)時(shí)代,由于我們的社會(huì)越來越小,經(jīng)常在開車走路的移動(dòng)狀況下使用,因此語音技術(shù)在這個(gè)時(shí)代就有更加廣闊的前景。我們的移動(dòng)互聯(lián)網(wǎng)正在以飛快的速度撲面而來,目前我們的8億手機(jī)用戶中,已經(jīng)有將近2億的移動(dòng)互聯(lián)網(wǎng)用戶,到2012年,我們的3G用戶也將超過2億以上,如此巨大規(guī)模的用戶群,一定會(huì)為中國移動(dòng)互聯(lián)網(wǎng)的發(fā)展提供源源不斷的動(dòng)力和持續(xù)成長的舞臺。

  在這個(gè)大的發(fā)展趨勢中我們可以看到,對語音技術(shù)的投入力度和市場關(guān)注的步伐應(yīng)該說是前所未有的,我們從IBM,微軟,到現(xiàn)在的蘋果和Google都可以看出明確的趨勢,比如說IBM提出要把他的語音技術(shù)推向市場,微軟在多種場合下提出來,他未來看好的三大產(chǎn)業(yè)第一就是語音技術(shù)。那么微軟即將推出來的Window7,也已經(jīng)把語音作為非常重要的一部分,蘋果也正在研發(fā)語音識別技術(shù)等等。應(yīng)該說國際IT巨頭在中文語音領(lǐng)域,在全球范圍內(nèi)的對語音產(chǎn)業(yè)的高度關(guān)注,既促進(jìn)了這個(gè)產(chǎn)業(yè)的更快的發(fā)展,也為我們中國語音企業(yè)提出了更大的挑戰(zhàn),使我們感到更大的發(fā)展的緊迫性。

  在這種背景下,我們科大訊飛要發(fā)布我們的訊飛語音云各個(gè),應(yīng)該說當(dāng)今的互聯(lián)網(wǎng)發(fā)展,社會(huì)各界都已經(jīng)明顯看到,互聯(lián)網(wǎng)已經(jīng)發(fā)展到了成年階段,就是越來越表達(dá)和反應(yīng)了一個(gè)國家和民族的核心力。所以說各國跟互聯(lián)網(wǎng)時(shí)代的網(wǎng)上的話語權(quán)和控制力的爭奪越來越激烈,而語音作為文化的基礎(chǔ)和民族的象征,我們認(rèn)為中國的民族語音企業(yè),一定要在這場競爭中拿出我們的氣魄,做出我們的成果來。那么今天,科大訊飛我們要發(fā)布的訊飛語音云平臺,就是面臨這樣一種產(chǎn)業(yè)競爭的激烈的格局,以及巨大產(chǎn)業(yè)發(fā)展的空間,我們提出來。

  那么我們訊飛語音云平臺的總體架構(gòu),大家可以看這個(gè)圖,我們封裝了包括語音識別,語音合成等等戰(zhàn)略的各種智能語音技術(shù),通過我們云計(jì)算平臺接口,統(tǒng)一實(shí)現(xiàn)資源管理,存儲(chǔ)管理等等,那么像開發(fā)伙伴提供便捷的開發(fā)環(huán)境和高校的語音服務(wù)。

  下面給大家介紹并做一些相應(yīng)的演示,我們在訊飛云平臺中的一些核心技術(shù)。首先給大家介紹一下我們語音合成技術(shù)的發(fā)展和最新的成果。語音合成技術(shù)就是讓機(jī)器和各種設(shè)備開口說話,最關(guān)鍵的指標(biāo)我們的設(shè)備,在車上收到一條短信,我們能夠馬上讀出來,那么讀的效果好壞是一個(gè)非常的指標(biāo),根據(jù)國際比賽,那么有五分的主觀評價(jià)標(biāo)準(zhǔn),如果機(jī)器念的聲音跟我們播音員一樣,就是五分,像普通人一樣就是四分,我們請大家看一看我們語音合成在各個(gè)歷史階段的項(xiàng)目。

  首先可以請大家聽一下我們在95年的技術(shù)。聽起來很像電影里面機(jī)器人的聲音,這說明技術(shù)難度很大。

  看到98年,我們在業(yè)界率先達(dá)到了可使用門檻的水平。那么這是以這個(gè)系統(tǒng)為基礎(chǔ),科大訊飛的創(chuàng)業(yè)團(tuán)隊(duì)創(chuàng)辦了訊飛公司,這對我們未來產(chǎn)業(yè)發(fā)展起到了巨大的推動(dòng)作用。今天非常高興告訴大家,我們的語音合成已經(jīng)做到4.5分,是業(yè)界唯一超過4.0分的系統(tǒng),也就是說播音員是5分,普通人是4分,計(jì)算機(jī)是4.5分,我們下面聽一下。

  那么剛才大家聽到的,這是863比賽的原文,謝謝。那么目前應(yīng)該說對基本任意文本我們都可以有這種水平,今天上午,我們針對今天的發(fā)布會(huì),專門合成了一段文章,現(xiàn)在語音已經(jīng)可以由男聲,女聲,童聲,還有方言,請大家聽一下,謝謝。

  那么這都是現(xiàn)場合成的,應(yīng)該說我們對幾乎任意文本都能做到這樣一個(gè)水平。那么除了包括中文的多語言多方言的情況之外,我們加大了國際多語種的研發(fā),我們參加了由美國和日本聯(lián)合發(fā)起的國際英文大賽,這是全球最權(quán)威的語音合成比賽,06年科大訊飛成為業(yè)界最大的一匹黑馬,當(dāng)時(shí)包括了參加的有微軟公司等等,那么2006年,又連續(xù)比了四年,我們非常高興地告訴大家,訊飛已經(jīng)不但是黑馬,所有關(guān)注訊飛的情況下,我們連續(xù)四年蟬聯(lián)全球第一名,下面請大家聽一下我們英文合成的效果。

  這一段英文合成應(yīng)該是非常地道,可以給大家看看這張圖,這是2001年國際比賽的結(jié)果,科大訊飛是唯一超過4.0分的英文合成系統(tǒng),4.9分是參考對方的美國的播音員的水平。那么4.2是科大訊飛的,應(yīng)該說我們在英文合成上面的核心技術(shù)已經(jīng)是遠(yuǎn)遠(yuǎn)領(lǐng)先競爭對手,那么在未來幾年我們還會(huì)陸續(xù)推出其他全球最主要的語種。

  下面再給大家介紹一下在移動(dòng)互聯(lián)網(wǎng)時(shí)代非常有意義的應(yīng)用,就是發(fā)音模擬技術(shù),通過這個(gè)技術(shù),就可以準(zhǔn)確分析他的聲帶特征等等,可以把一個(gè)人的聲音變成另外一個(gè)人說話,這個(gè)我們也做了一個(gè)案例,因?yàn)樯婕暗椒巧虡I(yè)的,我們這個(gè)不是一個(gè)商業(yè)的宣傳,因此我們用了我們中央臺著名播音員李瑞英的聲音,請大家聽聽。我們來看看我們模擬的聲音像不像,謝謝。

  應(yīng)該說這樣一種發(fā)音模擬技術(shù)和我們語音合成技術(shù)相結(jié)合,未來在無線互聯(lián)網(wǎng)時(shí)代的網(wǎng)絡(luò)游戲、網(wǎng)絡(luò)教學(xué)、乃至于虛擬主持人等等都有非常廣闊的應(yīng)用。

  前面給大家介紹的是語音合成技術(shù),下面再給大家介紹一個(gè),我覺得對語音識別非常有意義和價(jià)值的口語評測技術(shù)。這個(gè)技術(shù)簡單來講,就是使得計(jì)算機(jī)能夠?qū)ξ覀兊钠胀ㄔ捇蛘哂⒄Z發(fā)音等等進(jìn)行打分,評價(jià)和反饋指導(dǎo)。這項(xiàng)技術(shù)最早的需求來源是國家語委和教育部,所有的年輕人要想當(dāng)老師,必須要考普通話等級證書,以前都是人工考,三個(gè)老師考一個(gè)學(xué)生,十分鐘結(jié)果才能出來,效率很低,成本很高,讓計(jì)算機(jī)代替人工來進(jìn)行測試,這國家語委多年的目標(biāo)。我今天告訴大家,科大訊飛是唯一的一個(gè)能做到的,我們的技術(shù)在2009年測試人數(shù)已經(jīng)超過了100萬人,那么今年國家語委正式下文,大家有興趣可以登錄到我們的網(wǎng)站自己去體驗(yàn),不僅可以對你的發(fā)音進(jìn)行打分,還可以告訴你錯(cuò)的地方在哪些地方。這些同樣在我們的英語教學(xué),在我們少數(shù)民族教育都有非常重要的應(yīng)用。同時(shí)對我們將要發(fā)布的我們的語音聽寫和搜索起到了很重要的優(yōu)勢,應(yīng)該是我們非常強(qiáng)的一個(gè)核心優(yōu)勢。

  那么在相應(yīng)的技術(shù)基礎(chǔ)上,我們科大訊飛在2008年,又開始參加國際上最權(quán)威的說話識別和語種識別的大賽,是NIST主辦的,那么這個(gè)組織從1996年開始,每兩年一次舉行說話人和語種的比賽,2000年以后是隔年進(jìn)行,09年是語種識別,語種識別就是一說話我們知道你是哪個(gè)國家哪個(gè)地區(qū)的人。我們可以看到,我們的所有指標(biāo)都在全球前三名。我們在通用語種上獲得了全球的亞軍,那么更難的,高混淆方言,我們是全球第一名。這些國際歷史上大賽的頻繁的獲獎(jiǎng),充分的確立了科大訊飛在國際語音技術(shù)領(lǐng)域,從合成到識別的全面的領(lǐng)先技術(shù)。

  那么圍繞上述這些核心技術(shù),我們訊飛面向產(chǎn)業(yè)推出來的命令式識別和語音搜索技術(shù),正在日益廣泛的進(jìn)入我們?nèi)粘I钪。比如說在通訊領(lǐng)域,訊飛以音樂搜索為代表,我們的語音搜索業(yè)務(wù)已經(jīng)覆蓋了46個(gè)升級運(yùn)營點(diǎn),用戶數(shù)超過1億人,擁有上千萬的穩(wěn)定活躍的用戶。此外,電信,移動(dòng)和聯(lián)通推出了一些典型業(yè)務(wù)。另外我們這個(gè)技術(shù)還從電信延伸到了金融、教育等越來越多的行業(yè),而且在世博會(huì)上也發(fā)揮了重要的作用,包括語音識別,大家還看到可愛的海寶,能聽會(huì)說的海寶就是我們做的,你說白日依山盡,它就回到黃河入海流,非常聰明。那么在這個(gè)基礎(chǔ)上,我們隨著現(xiàn)代的實(shí)際應(yīng)用的發(fā)展和應(yīng)用中對核心技術(shù)提出了越來越高的要求,技術(shù)不斷的發(fā)展和進(jìn)步。

  下面請大家看幾個(gè)非常典型的演示,第一個(gè)演示是在移動(dòng)的客服電話呼叫導(dǎo)航中的演示,這是一個(gè)實(shí)際上線的系統(tǒng),請大家看一下。

  好,那么大家看到,最早我們在查詢各種各樣呼叫中心的時(shí)候,必須要簡單按鍵,那么我們這個(gè)語音云技術(shù)就非常方便了。相信隨著這個(gè)技術(shù)從電信往社會(huì)生活各個(gè)領(lǐng)域的延伸,會(huì)對我們整個(gè)社會(huì)信息的服務(wù)起到一個(gè)極大的提升。剛才是我們呼叫導(dǎo)航,下面再給大家看兩個(gè)非常有趣的演示:一個(gè)是在互聯(lián)網(wǎng)電視領(lǐng)域,大家知道現(xiàn)在三網(wǎng)合一成為一個(gè)信息產(chǎn)業(yè)發(fā)展非常重要的戰(zhàn)略,這就是我們?nèi)W(wǎng)合一的實(shí)際的電視機(jī),這個(gè)電視機(jī)可以通過機(jī)頂盒,或者說現(xiàn)在互聯(lián)網(wǎng)電視直接安裝我們的軟件,這是我們配套的一個(gè)搖控器,非常低成本的在搖控器上增加一個(gè)摁鍵,就可以用語音來控制了。

  那么應(yīng)該說,它對互聯(lián)網(wǎng)電視,對三網(wǎng)合一最大的價(jià)值在什么?有了語音識別,我們可以隨意說了,準(zhǔn)確率都非常地高。剛才看到的是在電視用的應(yīng)用,下面在具體的手機(jī)中的應(yīng)用,這是一個(gè)智能手機(jī),這個(gè)手機(jī)中間,我接了一個(gè)線,這個(gè)線主要的目的是為了投影到上面,唯一的作用就是傳輸我們的屏幕,所有的運(yùn)算都在我的手機(jī)中進(jìn)行。下面給大家看一個(gè)就是在手機(jī)中我們實(shí)現(xiàn)的搜索,只要在手機(jī)中,用戶獲得了我們訊飛語音云平臺的注冊通行證,他在手機(jī)中任何的瀏覽器,各種搜索都可以用語音來完成,下面來給大家安裝這個(gè)語音瀏覽器,起動(dòng)了一個(gè),這個(gè)是屏幕,我們點(diǎn)擊進(jìn)入到搜索以后,這是我們訊飛的輸入法,我們在網(wǎng)上已經(jīng)發(fā)布了,點(diǎn)擊輸入法中的麥克風(fēng),我們就可以直接說話了,它的所有運(yùn)算都是在后臺。

  應(yīng)該說通過這種語音搜索,可以極大的提升我們用戶的使用,剛才給大家看到的就是我們的語音所有剛才的計(jì)算全在后臺的云計(jì)算平臺來支撐的。我們看到的了我們的搜索的演示以后,有很多的合作伙伴,包括領(lǐng)導(dǎo)要問,如果我們要在移動(dòng)互聯(lián)網(wǎng)終端要使用語音技術(shù)聽寫,就有更大的難處,因?yàn)橛泻芏嗑窒,但是我們非常高興。

騰訊科技



相關(guān)閱讀:
訊飛語音助力柳州市中考英語聽力測試升級 2010-12-01
訊飛語音云 引領(lǐng)車載導(dǎo)航POI搜索變革 2010-11-30
訊飛暢言互動(dòng)英語學(xué)習(xí)平臺成大學(xué)英語教改新利器 2010-11-26
什么是語音云? 2010-11-26
移動(dòng)互聯(lián)網(wǎng)進(jìn)入語音時(shí)代:和機(jī)器說話 2010-11-22

熱點(diǎn)專題:  呼叫中心  語音合成TTS 語音識別ASR    移動(dòng)增值   移動(dòng)互聯(lián)網(wǎng)   云計(jì)算
分類信息:  移動(dòng)增值_與_移動(dòng)互聯(lián)網(wǎng)  移動(dòng)增值_與_CTI文摘  移動(dòng)增值_與_呼叫中心  移動(dòng)增值_與_企業(yè)
相關(guān)頻道:  增值電信文摘