首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識(shí)別(ASR)  語音識(shí)別產(chǎn)品

聽話要聽音—情感語音處理技術(shù)

中科院自動(dòng)化所 陶建華 2005/02/04

  同樣一句話,往往會(huì)由于說話人的情感不同,其意思和給聽者的印象就會(huì)不同,所謂“聽話聽音”就是這個(gè)道理。傳統(tǒng)的語音處理系統(tǒng)多著眼于語音詞匯傳達(dá)的準(zhǔn)確性,而忽略了包含在語音信號(hào)中的情感因素。

  傳統(tǒng)的語音處理系統(tǒng)只是反映了信息的一個(gè)方面,而忽略了與知識(shí)世界相對(duì)應(yīng)且具有同等重要地位的感性科學(xué)世界,這其實(shí)也是信息處理的一個(gè)重要組成部分。近幾年來,語音識(shí)別與合成技術(shù)在語音分析、自然語言處理、信號(hào)處理、隨即過程處理等方法的推動(dòng)下獲得了很大的發(fā)展。但從語音信號(hào)中提取情感特征,分析人的情感與語音信號(hào)的關(guān)聯(lián),只是國內(nèi)外剛剛興起的研究課題。

  目前這一領(lǐng)域的研究主要還是集中在情感的聲學(xué)特征分析上,有關(guān)情感建模以及結(jié)合情景、語言特征建立完整的情感控制模型還少有涉及。

聲學(xué)特征判斷情感因素

  當(dāng)說話人處于不同情感狀態(tài)時(shí),會(huì)在語速上表現(xiàn)出一定的變化,在激動(dòng)狀態(tài)時(shí),語速較平常狀態(tài)快。因此可以利用判斷語音信號(hào)中的語速和發(fā)話持續(xù)時(shí)間等參數(shù)來判別情感中激動(dòng)成分的程度。同語音信號(hào)中的時(shí)間特征相類似,信號(hào)的振幅特征和各種情感信息也具有較強(qiáng)的相關(guān)性。

  由于人對(duì)語音的感知非常多樣化,全面考慮情感的聲學(xué)特征是一個(gè)非常困難的工作,考慮到計(jì)算機(jī)的處理能力,只能通過部分參數(shù)從一定程度上對(duì)情感語音的聲學(xué)特性進(jìn)行概括。一般情況下,語音情感相關(guān)性的表示形式可以通過說話人模型或者聲學(xué)模型來實(shí)現(xiàn)。由于漢語的韻律多以音節(jié)為處理單位,在這種有調(diào)音節(jié)的韻律分析中,音節(jié)的韻律特征起著非常重要的作用,為了便于在漢語中處理,通常將情感語音的聲學(xué)特征直接分為三類:韻律類、音質(zhì)類和清晰度類。

韻律類

  韻律類主要用來表征不同情感狀態(tài)下語氣的變化,它包括如下韻律參數(shù)描述。

  平均基頻:整個(gè)語句的基頻(F0)平均值,根據(jù)語音信號(hào)分析聲帶的共振頻率。

  基頻范圍:整個(gè)語句的基頻范圍,基頻范圍在很大程度上能夠反映人的情緒狀態(tài)。

  重音的突變特性:在情感語句中,重音多體現(xiàn)情感焦點(diǎn)特性,經(jīng)常由情感關(guān)鍵詞承載。

  停頓的連貫性:用以表示語句的停頓是否連貫。人在情緒受到壓抑或快速膨脹時(shí),有時(shí)會(huì)出現(xiàn)由于概念表述不清而導(dǎo)致的語氣斷續(xù)特征。

  語速:用以表征語氣的緩急程度,人在焦急、恐懼時(shí)多出現(xiàn)語速加快的現(xiàn)象,有時(shí)歡快的語氣也能帶來類似效果。

  重音頻度:重音的頻度在一定程度上能夠體現(xiàn)情感狀態(tài)的持續(xù)性。

  音強(qiáng):實(shí)驗(yàn)證明在情感語音中,音強(qiáng)的變化往往表現(xiàn)出與基頻范圍變化的一致性。但是相對(duì)基頻變化來說,大部分音強(qiáng)變化并不明顯。

  音節(jié)基頻高線傾斜程度:語句中音節(jié)基頻高點(diǎn)連線的變化情況(上升、水平和下降)。

  音節(jié)基頻低線傾斜程度:語句中音節(jié)基頻低點(diǎn)連線的變化情況(上升、水平和下降)。

  基頻抖動(dòng):焦慮語音會(huì)出現(xiàn)“F0抖動(dòng)”現(xiàn)象,這一現(xiàn)象描述了基頻從一個(gè)區(qū)域到另一個(gè)區(qū)域之間快速和反復(fù)的變化。在此情況下,有時(shí)音節(jié)會(huì)失去其固有調(diào)型。

音質(zhì)類

  音質(zhì)類用來表征不同情感狀態(tài)下語音音質(zhì)發(fā)生的變化,它通過如下參數(shù)描述。

  呼吸聲:在語音流中,出現(xiàn)呼吸氣等聲音。當(dāng)一個(gè)人處于緊張或歡快狀態(tài)時(shí)會(huì)出現(xiàn)的快速呼吸停頓,或一個(gè)人由于恐懼而牙齒緊壓會(huì)產(chǎn)生的回旋氣流噪聲。

  明亮度:低頻能量和高頻能量的比值,用以反映語音的清亮特性。

  喉化度:發(fā)音時(shí)聲門出現(xiàn)不連續(xù)的脈沖震動(dòng)特性,經(jīng)常出現(xiàn)在極度恐懼的情感狀態(tài)中。

清晰度類

  情感信息與人的聲道同樣具有一定的關(guān)聯(lián)。清晰度可分為正常、焦急、模糊和準(zhǔn)確。清晰度描述了元音質(zhì)量的變化和清輔音是否變化為相應(yīng)的濁輔音。比如:人在厭惡時(shí),有時(shí)說話“嘟嘟囔囔”,表達(dá)不清。

  情感表現(xiàn)的多樣性和復(fù)雜性導(dǎo)致情感聲學(xué)參數(shù)的數(shù)值分布多呈現(xiàn)較大的離散特性,表1針對(duì)五種基本情感狀態(tài)列出了幾種基本聲學(xué)參數(shù)較為平均的體現(xiàn)。


從語音中抽取個(gè)性特征

  通常情況下,語音理解是從一段語音中分析出文本,讓系統(tǒng)“聽懂”語音的內(nèi)容。它的研究重點(diǎn)是分析語音中的共性特征。情感語音的研究則是從語音中抽取個(gè)性特征,并加以參數(shù)化描述。充分的利用情感韻律特征,從中獲取說話人意向及部分語義信息,可以從一定程度上提高理解的準(zhǔn)確率。

  由于一般情況下人們很少進(jìn)行典型情緒的發(fā)音,說話的情感狀態(tài)通常分布在一個(gè)連續(xù)的狀態(tài)空間里,在Marc Schrder(2001)等人的工作中,采用了三個(gè)參數(shù)來對(duì)其進(jìn)行描述,分別是激活度(Activation)、評(píng)價(jià)(Evaluation)和強(qiáng)度(Power),不同的情感可以對(duì)應(yīng)到這三個(gè)參數(shù)的值上,下表2為Marc Schrder給出的一個(gè)經(jīng)驗(yàn)對(duì)照表。


  對(duì)于一個(gè)給定的情感三維坐標(biāo),其相應(yīng)的聲學(xué)特征具有一定的關(guān)聯(lián)特性。這種三維坐標(biāo)的形式,提供了一種情感語音的特征相似性比較的途徑。例如,生氣和恐懼相比較可發(fā)現(xiàn)具有相似的聲學(xué)特征和情感特征。聲學(xué)上說它們?cè)谄骄鶅A斜度、傾斜范圍、語速和清晰度方面是相似的,不同點(diǎn)是害怕的傾斜度改變比中性要緩、語速要快、強(qiáng)度正常、聲音不規(guī)則。在三維情感空間中這兩個(gè)情緒在Activation和Evaluation很近,在Power則有所不同。因而使得情感的聲學(xué)特征具有一定的可預(yù)測(cè)性。

  當(dāng)然該三維坐標(biāo)并不能解決所有的情感特征,例如擔(dān)心、熱愛等情感則不能只通過三維空間的描述來說明,同時(shí)由于情感受不同的人感知,反映在語音的聲學(xué)特征上亦會(huì)具有不同的表現(xiàn)形式,因此還需要在情感與認(rèn)知模型上進(jìn)行更深入的研究。

  盡管如此,仍然有一些情感信息處理方面的研究成果。這些研究的主要目的是把情感信息的研究從心理學(xué)角度向心理學(xué)、信息學(xué)這一交叉學(xué)科領(lǐng)域過渡。從這幾年的成果看,有關(guān)情感信息的建模以及工學(xué)處理方法等方面的研究成果非常少,較多的是對(duì)情感信息韻律特征表現(xiàn)的觀察和分析。這些特征的分析將從另一個(gè)側(cè)面有助于語音的理解和產(chǎn)生更為生動(dòng)的語音表達(dá)。

小資料

  情感計(jì)算的主要應(yīng)用形式

  在人機(jī)交互方面的應(yīng)用

  情感計(jì)算更多地應(yīng)用于人機(jī)交互方面,它將能有效地改變過去計(jì)算機(jī)呆板的交互服務(wù),提高人機(jī)交互的親切性和準(zhǔn)確性。一個(gè)擁有情感能力的計(jì)算機(jī)能夠?qū)θ祟惽楦羞M(jìn)行獲取、分類、識(shí)別和響應(yīng),進(jìn)而幫助使用者獲得高效而又親切的感覺,并能有效減輕人們使用電腦的挫敗感,甚至能幫助人們理解自己和他人的情感世界,這正是計(jì)算技術(shù)向人類社會(huì)全面滲透的重要手段。例如采用此類技術(shù)探測(cè)司機(jī)精力是否集中,并做出相對(duì)反應(yīng);還可以在汽車中用電腦測(cè)量駕車者感受到的壓力水平,以幫助解決駕駛者的所謂“道路狂暴癥”問題。

  同時(shí),情感計(jì)算及其相關(guān)研究還能給電子商務(wù)帶來實(shí)惠。有研究顯示,不同圖像可以喚起人類不同的情感,例如蛇、蜘蛛、槍的圖片能引起恐懼,而大量美元現(xiàn)金和金塊的圖片則可以使人產(chǎn)生強(qiáng)烈的積極反應(yīng),如果購物網(wǎng)站和股票交易網(wǎng)站在設(shè)計(jì)時(shí)考慮到這些因素,則能對(duì)客流量的上升產(chǎn)生積極影響。

  在信息家電和智能儀器中增加自動(dòng)感知人們情緒狀態(tài)的功能,可以提供更好的服務(wù);在信息檢索應(yīng)用中,通過情感分析的概念解析功能,則可提高智能信息檢索的精度和效率;在遠(yuǎn)程教育平臺(tái)中,情感計(jì)算技術(shù)的應(yīng)用能提升教學(xué)效果;利用多模式的情感交互技術(shù),還可以構(gòu)筑更貼近人們生活的智能空間或虛擬場(chǎng)景。此外,情感計(jì)算還能應(yīng)用在機(jī)器人、智能玩具、游戲等相關(guān)產(chǎn)業(yè)中,以構(gòu)筑更加擬人化的風(fēng)格和更加逼真的場(chǎng)景。

  在心理學(xué)方面的應(yīng)用

  從認(rèn)知科學(xué)的角度看,情感反映了人的心理狀態(tài),是人類思維活動(dòng)最生動(dòng)的體現(xiàn),所以對(duì)人類情感機(jī)理的研究與探索一直是科學(xué)研究的重要方向。情感計(jì)算理論通過計(jì)算機(jī)的分析和處理手段,將對(duì)情感的研究從感性認(rèn)知上升為可計(jì)算模型,對(duì)在認(rèn)知科學(xué)上探索大腦對(duì)信息的分析和處理機(jī)理、進(jìn)一步加深對(duì)大腦中情感概念的解析和理解將具有重要的科學(xué)意義。

  在醫(yī)學(xué)上的應(yīng)用

  現(xiàn)代醫(yī)學(xué)研究表明,健康應(yīng)該包含更多情緒方面的內(nèi)容,可是現(xiàn)代人中患有抑郁癥的比例卻在逐年上升,所以醫(yī)學(xué)界希望能夠更早地向好的方面誘導(dǎo),從而有效地幫助人們對(duì)不良情緒進(jìn)行排解。

  情感雖然是一種內(nèi)部的主觀體驗(yàn),但總是伴隨著某種外部表現(xiàn)。面部表情不僅是人們常用的較自然的情感表現(xiàn)方式,也是人們鑒別情感的主要標(biāo)志。另外在醫(yī)學(xué)研究中也已使用過很多生理指標(biāo),如皮質(zhì)醇水平、心率、血壓、呼吸、皮膚電活動(dòng)、掌汗、瞳孔直徑、事件相關(guān)電位、腦電EEG等,都是對(duì)人類情緒狀態(tài)的客觀度量。

計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)


相關(guān)鏈接:
"得意"口語對(duì)話系統(tǒng)開發(fā)包與"得意"智能互動(dòng)信息服務(wù) 2004-11-25
"得意"聲紋識(shí)別技術(shù)常見問題解答 2004-11-25
語音技術(shù)應(yīng)用的現(xiàn)狀和未來 2004-09-30
“得意”聲紋加密鑰匙常見問題解答 2004-08-31
基于Web的語音平臺(tái) 2004-08-27

分類信息:     文摘   技術(shù)_語音識(shí)別_文摘