中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁(yè) > 新聞 > 專家觀點(diǎn) >
 首頁(yè) > 新聞 > 專家觀點(diǎn) >

“語(yǔ)音進(jìn)化論”干貨分享:智能語(yǔ)音的前世今生

2016-10-10 16:14:50   作者:   來(lái)源:極客網(wǎng)   評(píng)論:0  點(diǎn)擊:


  9月28日,京東智能在北京京東JD+智能奶茶館舉辦“遇見(jiàn)未來(lái)-智能語(yǔ)音進(jìn)化論”主題分享活動(dòng),旨在通過(guò)對(duì)智能語(yǔ)音技術(shù)、應(yīng)用場(chǎng)景及未來(lái)趨勢(shì)的分析和討論助推行業(yè)發(fā)展。
  會(huì)上,靈隆科技首席科學(xué)家湯博士就智能語(yǔ)音技術(shù)的歷史及行業(yè)的發(fā)展進(jìn)程進(jìn)行了生動(dòng)的解析,同時(shí),科大訊飛云平臺(tái)事業(yè)部商務(wù)總監(jiān)湯熙、北京小魚兒科技合伙人兼銷售市場(chǎng)副總裁李傳剛、北京方正信息技術(shù)有限公司數(shù)碼外設(shè)事業(yè)部總經(jīng)理余斌、京東智能市場(chǎng)總監(jiān)李俊周等行業(yè)大咖也對(duì)智能語(yǔ)音的現(xiàn)狀及未來(lái)趨勢(shì)進(jìn)行了圓桌分享。
\
靈隆科技首席科學(xué)家湯博士
  以下是靈隆科技首席科學(xué)家湯博士“智能語(yǔ)音的前世今生”演講實(shí)錄
  從一個(gè)參與者角度,對(duì)人工智能尤其是語(yǔ)音的發(fā)展過(guò)程還是比較清楚的,今天我就來(lái)跟大家分享一下,我的一些感悟。
  這個(gè)題目是《智能語(yǔ)音的前世今生》。我們都知道,語(yǔ)音交互是一個(gè)很自然的一種需求,人們以前從鍵盤輸入到鼠標(biāo),之后是語(yǔ)音,還有圖象。2000年左右,比爾蓋茨說(shuō)語(yǔ)音交互會(huì)是下一代的主要交互手段,我個(gè)人覺(jué)得可能不是主要,而是主要之一,用戶對(duì)于語(yǔ)音自然交互的需求是確實(shí)存在的。
  大家都在講,到底什么是語(yǔ)音技術(shù)?其實(shí)語(yǔ)音技術(shù)包含了很多小門類,比如說(shuō)最主要的是語(yǔ)音識(shí)別-ASR,第二個(gè)是語(yǔ)音合成-TTS,這是目前知道的最多的兩種語(yǔ)音技術(shù)。除此之外還有別的語(yǔ)音技術(shù):語(yǔ)音轉(zhuǎn)換,聲紋識(shí)別,聽(tīng)音識(shí)歌,語(yǔ)音標(biāo)準(zhǔn)化判斷等等。
  1、語(yǔ)音識(shí)別是什么
  我這次重點(diǎn)講的是語(yǔ)音識(shí)別和合成。首先講語(yǔ)音識(shí)別,最早的語(yǔ)音識(shí)別應(yīng)該是50年代的貝爾實(shí)驗(yàn)室Audry系統(tǒng),能識(shí)別十個(gè)英文數(shù)字,在科技史上大家都知道,有兩個(gè)著名的實(shí)驗(yàn)室,一個(gè)是貝爾實(shí)驗(yàn)室,一個(gè)是施樂(lè)公司的實(shí)驗(yàn)室。貝爾的人當(dāng)初就是覺(jué)得有趣就做了這個(gè)研究,但光是好玩、有趣還不能推動(dòng)這個(gè)行業(yè)的發(fā)展,美國(guó)空軍在60年代初提出了需求,那個(gè)時(shí)候進(jìn)入了噴氣式飛機(jī)的超音速時(shí)代,在飛行中會(huì)出現(xiàn)超過(guò)了7個(gè)G的過(guò)載,那個(gè)時(shí)候因?yàn)榭箟悍男阅苓不適很好,飛行員身體被壓著,無(wú)法對(duì)飛機(jī)進(jìn)行有效操控,這個(gè)時(shí)候美國(guó)空軍就提出一個(gè)需求:能不能用語(yǔ)音來(lái)控制飛機(jī)?也正因?yàn)檫@個(gè)原因,從那個(gè)時(shí)候一直到現(xiàn)在,美國(guó)國(guó)防部的DARPA都一直在支持語(yǔ)音技術(shù)的研究,到現(xiàn)在應(yīng)該是50多年了。
  所以從60年代開(kāi)始大家開(kāi)始做各種各樣的語(yǔ)音識(shí)別的研究,提出了各種各樣的方案,這時(shí)候做的比較成熟一點(diǎn)的是小詞匯表的孤立詞識(shí)別,支持一些命令詞的識(shí)別,這就是當(dāng)時(shí)的水平。
  到了70、80年代就出現(xiàn)了很大的兩個(gè)進(jìn)步,語(yǔ)音識(shí)別中有很多技術(shù)問(wèn)題,其中的兩個(gè)主要問(wèn)題是語(yǔ)音模型和語(yǔ)言模型的建立,在70年代有很大的突破,IBM,提出了用HMM來(lái)解決語(yǔ)音模型的問(wèn)題,取得了很好的效果。而在80年代提N元統(tǒng)計(jì)模型也被提出,用來(lái)解決語(yǔ)言模型的問(wèn)題,這兩個(gè)方法成為了此后30年語(yǔ)音識(shí)別技術(shù)的主流方法。
  在90年代初,卡耐基梅隆大學(xué)的李開(kāi)復(fù)博士領(lǐng)頭開(kāi)發(fā)了Sphinx系統(tǒng),這是一個(gè)歷史性的進(jìn)步,這是HMM和N元模型結(jié)合在一起語(yǔ)音識(shí)別系統(tǒng),它是第一個(gè)非特定人大詞匯量的語(yǔ)音識(shí)別系統(tǒng)。
  這個(gè)系統(tǒng)是由大學(xué)開(kāi)發(fā)出來(lái)的實(shí)驗(yàn)性系統(tǒng),運(yùn)行在服務(wù)器上,其實(shí)用價(jià)值有限。1997年IBM,推出了第一款商品化的語(yǔ)音識(shí)別系統(tǒng)ViaVoice,預(yù)裝在當(dāng)時(shí)的主流PC機(jī)上,有十幾種語(yǔ)言的版本,那時(shí)候非常轟動(dòng),可以說(shuō)90年代是語(yǔ)音識(shí)別技術(shù)發(fā)展的第一次高潮,有大量公司投入這個(gè)領(lǐng)域,如微軟、Nuance、Intel、Motorola、Nokia、Sun、Dragon。
  2、第一次高潮后的低谷:標(biāo)志是大量公司紛紛退出這個(gè)領(lǐng)域
  接下來(lái)是高潮后的低潮。2002-2011年。當(dāng)時(shí)遇到的主要問(wèn)題是語(yǔ)音技術(shù)本身遇到瓶頸,對(duì)于以朗讀方式輸入正規(guī)文本的語(yǔ)音識(shí)別率相當(dāng)高,但是對(duì)于日常口語(yǔ)化的輸入則識(shí)別率不高;另外當(dāng)時(shí)對(duì)用戶體驗(yàn)不夠重視,沒(méi)有從用戶的需求出發(fā)研發(fā)合適的產(chǎn)品。
  很多在當(dāng)初投入語(yǔ)音研發(fā)的公司都退出了這個(gè)領(lǐng)域,比如說(shuō)我們知道的摩托羅拉、英特爾、諾基亞,甚至開(kāi)山鼻祖IBM,都紛紛退出這個(gè)行業(yè)的研究。
  這個(gè)行業(yè)也有堅(jiān)守者,誰(shuí)呢?微軟,還有一些后來(lái)新起的互聯(lián)網(wǎng)公司對(duì)這個(gè)領(lǐng)域很感興趣,開(kāi)始投入谷歌、Siri、百度加入了這個(gè)領(lǐng)域,另外一些科技企業(yè)也投入這個(gè)領(lǐng)域的研究,如訊飛。
  但是在這個(gè)所謂的低潮期階段,研究人員也沒(méi)有閑著,做了一個(gè)非常重要的兩件事,一件是開(kāi)源工具,比如劍橋大學(xué)開(kāi)發(fā)的HTK,后來(lái)又有了Kaldi,Julius等工具,有了這些工具,讓語(yǔ)音技術(shù)能夠迅速的擴(kuò)散。一個(gè)受過(guò)良好訓(xùn)練的研究生,大概三個(gè)月的時(shí)間就可以掌握這套工具,并且可以使用它來(lái)建立比較簡(jiǎn)單的系統(tǒng)。
  另一件重要的事情就是數(shù)據(jù)準(zhǔn)備,語(yǔ)音技術(shù)的開(kāi)發(fā)需要大量的訓(xùn)練數(shù)據(jù)最開(kāi)始的時(shí)候,都是個(gè)公司自己去收集,費(fèi)時(shí)費(fèi)力。后來(lái)成立了LC—STAR、TC-STAR等技術(shù)數(shù)據(jù)聯(lián)盟,通過(guò)這個(gè)聯(lián)盟,數(shù)據(jù)得到了分享,這也為技術(shù)的擴(kuò)散打下了良好的基礎(chǔ)。
  另外,這個(gè)時(shí)期出現(xiàn)了一個(gè)影響深遠(yuǎn)的發(fā)現(xiàn):深度神經(jīng)網(wǎng)絡(luò)(DNN)。2006年Hinton提出了深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。它解決了多層神經(jīng)網(wǎng)絡(luò)的有效學(xué)習(xí)方法,而且學(xué)習(xí)算法的收斂性和層數(shù)無(wú)關(guān)。
  2011年微軟把它成功的進(jìn)行了英文語(yǔ)音識(shí)別,2012年訊飛、百度先后把DNN用于中文語(yǔ)音識(shí)別,這就導(dǎo)致了今天第二次語(yǔ)音識(shí)別的高潮的來(lái)臨。
  我今天主要談?wù)Z音識(shí)別技術(shù),DNN帶動(dòng)的人工智能領(lǐng)域的其它發(fā)展,那是另外的話題不在此展開(kāi)。第二次高潮啟動(dòng)后,大量公司加入了該領(lǐng)域進(jìn)行研究和開(kāi)發(fā)。比如Amazon,云知聲。
  3、語(yǔ)音合成是什么?
  我們?cè)僦v語(yǔ)音合成。語(yǔ)音合成的三個(gè)標(biāo)準(zhǔn),第一是可懂、第二是自然、第三是有情感,我們中文叫抑揚(yáng)頓挫,是三個(gè)不同的層次。目前來(lái)說(shuō),可懂已經(jīng)不是問(wèn)題了,目前的語(yǔ)音合成水平基本上做到自然這個(gè)層次,機(jī)械味不是那么濃,現(xiàn)在突破的主要方向是在情感方面進(jìn)行進(jìn)一步研究和探索。
  語(yǔ)音合成的領(lǐng)域,其實(shí)起步也比較早,有的人認(rèn)為是200年前歐洲開(kāi)發(fā)出用機(jī)械方式模擬人聲是最早的語(yǔ)音合成,但是如果從現(xiàn)代技術(shù)的角度來(lái)說(shuō),一般來(lái)說(shuō)認(rèn)為是從50年代開(kāi)始,大家開(kāi)始研究用計(jì)算機(jī)技術(shù)來(lái)做語(yǔ)音合成。
  最早的方法是采用參數(shù)合成的方法。大家知道人的發(fā)聲原理,為什么能發(fā)出聲音來(lái)?三個(gè)環(huán)節(jié),一個(gè)是振動(dòng)源。第二是聲帶,第三是聲道,人們?cè)O(shè)想分別用不同的數(shù)學(xué)公式來(lái)模擬這三個(gè)環(huán)節(jié)。然后把這三個(gè)環(huán)節(jié)串接起來(lái)就能模擬人的發(fā)聲。根據(jù)這個(gè)原理,7、80年代人們發(fā)明了各種共振峰合成器,這個(gè)方法的優(yōu)勢(shì)是占用資源小,但缺點(diǎn)是可懂度低。
  到了90年代,波形拼接方法被提出。大家發(fā)現(xiàn),參數(shù)合成方法怎么改進(jìn)都無(wú)法提高性能,大家就改用粗暴的方式,以中文為例,帶聲調(diào)的拼音音節(jié)有1400多個(gè),每種都錄幾十個(gè)樣本,使用的時(shí)候就把最合適的樣本調(diào)出來(lái)并拼起來(lái),形成語(yǔ)音,這種方式,很粗暴,但是有效。這里要提到科大訊飛,1999年科大訊飛成立,最開(kāi)始就是使用波形拼接的方法。這種方式要提高性能,音庫(kù)越大越好,當(dāng)時(shí)最大的可能要幾十個(gè)G,在當(dāng)時(shí)一般計(jì)算機(jī)都達(dá)不到這個(gè)要求,只能在電信級(jí)別的服務(wù)器上運(yùn)行。
  大家開(kāi)始設(shè)想,把語(yǔ)音識(shí)別的使用的一些方法運(yùn)用到合成中,人們把HMM模型引入,用來(lái)訓(xùn)練語(yǔ)音庫(kù),這樣大大減少了語(yǔ)音庫(kù)的大小,這樣就形成了可訓(xùn)練的語(yǔ)音合成方法。目前這個(gè)方法是語(yǔ)音合成產(chǎn)品的主流方法,占用空間大概在幾十M,其性能不遜于波形拼接方法。
  從2014年開(kāi)始,大家開(kāi)始把深度神經(jīng)網(wǎng)絡(luò)也用在參數(shù)語(yǔ)音合成里,最新的報(bào)道DeepMind用深度神經(jīng)網(wǎng)絡(luò),提出了語(yǔ)音合成質(zhì)量的自然度,號(hào)稱是提高了50%。
  當(dāng)然,和語(yǔ)音識(shí)別一樣,也開(kāi)發(fā)了很多的開(kāi)源工具,比如Festival,這也帶來(lái)了語(yǔ)音合成技術(shù)的快速擴(kuò)散。
  4、智能語(yǔ)音是什么?
  前面講的是語(yǔ)音技術(shù),現(xiàn)在大家說(shuō)的更多的是智能語(yǔ)音。什么是智能語(yǔ)音?我個(gè)人理解,從兩個(gè)方向來(lái)理解,一個(gè)是說(shuō)在語(yǔ)音技術(shù)當(dāng)中加入了智能的因素,比如說(shuō)前面提到的DNNN,所以說(shuō)語(yǔ)音技術(shù)智能了。
  第二個(gè)是語(yǔ)音識(shí)別技術(shù)加上了自然語(yǔ)言理解,語(yǔ)音識(shí)別只是把語(yǔ)音變成了文字,要理解文字后面的意思是什么,就需要自然語(yǔ)言理解,所以說(shuō)目前來(lái)說(shuō),如果要做語(yǔ)音產(chǎn)品,光有語(yǔ)音識(shí)別技術(shù)是不夠的,還需要自然語(yǔ)言理解,能理解你說(shuō)的話,那才叫智能語(yǔ)音。
  自然語(yǔ)言處理是自然語(yǔ)言處理的一個(gè)分類。
  自然語(yǔ)言理解目前來(lái)說(shuō)有三種方法,第一是基于規(guī)則,就是找很多的語(yǔ)言學(xué)家來(lái)歸納總結(jié)語(yǔ)言規(guī)則,所以在剛開(kāi)始的時(shí)候,在國(guó)內(nèi)做自然語(yǔ)言理解的,不是中科院系統(tǒng)在做,而是社科院系統(tǒng)在做,他們有很多語(yǔ)言學(xué)家,他們總結(jié)了很多的語(yǔ)言規(guī)則出來(lái)。
  但近些年,隨著計(jì)算機(jī)的大幅發(fā)展,用統(tǒng)計(jì)方法來(lái)分析語(yǔ)言成為了主流,并產(chǎn)生了一門交叉學(xué)科,叫計(jì)算語(yǔ)言學(xué)。這樣,很多不具有專業(yè)的語(yǔ)言學(xué)知識(shí)的計(jì)算機(jī)研究人員,都可以從事語(yǔ)言理解的研究。
  還有一種方法,就是知識(shí)圖譜的方法,它把規(guī)則和統(tǒng)計(jì)方法綜合起來(lái)。

專題