中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

MRCP協(xié)議學(xué)習(xí)筆記-語音處理的基本原理

2018-05-02 09:17:14 作者：james.zhu 來源：Asterisk開源派評論：0 　點(diǎn)擊：

　　在MRCP協(xié)議的處理流程中，聲音的處理包括了很多最基礎(chǔ)的語音聲學(xué)基本的原理。雖然我們不是聲學(xué)方面的專家，但是為了實(shí)現(xiàn)MRCP協(xié)議，我們還是需要一點(diǎn)基本的基礎(chǔ)知識。我們將從基本的人體聲音系統(tǒng)的產(chǎn)生和聲學(xué)工程學(xué)處理方式，語音語法，發(fā)音，語音識別前后端處理等方面做一個簡單介紹。

　　1、首先，讓我們看看人體的聲音系統(tǒng)是如何進(jìn)行工作的。人體的空氣通過肺，然后通過導(dǎo)管傳遞到喉嚨。喉嚨本身是一個非常復(fù)雜的系統(tǒng)，包括發(fā)音的主要核心部分-聲帶。人體嘴唇，鼻腔，咽喉等通過振蕩等處理流程共同控制了發(fā)音，頻率，男女發(fā)音等不同的語音參數(shù)。

　　人的語言系統(tǒng)可以轉(zhuǎn)化成一個工程化的處理流程來模擬真正的人體發(fā)音。通過工程轉(zhuǎn)化以后的示例結(jié)果如下。因為性別的不同，男性和女性的音高有所不同，女性的范圍大概在120-500Hz之間，男性則為50-250hz 之間。

　　2、語音識別需要考慮很多的環(huán)境因素和人自己本身的因素。人們發(fā)音環(huán)境受很多因素的影響：

每個人都發(fā)音都是獨(dú)特的，而且每個人都口音也不同。
每個人都說話方式也完全不同，在有壓力的狀態(tài)下和無放松環(huán)境中，語音可能完全不同。
講話環(huán)境不同可能導(dǎo)致不同的語音信號，增加了語音識別的復(fù)雜程度。

　　總體來說，語音識別的基本流程概括如下：

根據(jù)以上圖例說明，基本的語音識別流程大概幾個主要的處理流程。首先原始的語音通過Feature Extraction 功能提取過程，此過程通過各種環(huán)境變量，把原始語音中有價值的語音數(shù)據(jù)提取出來，過濾掉一些不相關(guān)的數(shù)據(jù)，形成一組緊湊，穩(wěn)定的，可識別的數(shù)據(jù)，以方便通過數(shù)據(jù)模型來進(jìn)行處理。
在模式識別中，此處理流程需要通過語法，語音模型和詞匯處理來對提取出來的語音進(jìn)行加工。在模式識別處理中，識別模型使用了Hidden Markov Models （HMM）模型來進(jìn)行處理。HMM是一種數(shù)學(xué)結(jié)構(gòu)模型，它分為兩個部分。第一個部分是把語音按序轉(zhuǎn)化成一種有方向性的圖形。第二部分在給定的狀態(tài)下，把所需功能進(jìn)行模式化處理。如果大家需要了解更多具體的HMM細(xì)節(jié)，請參考相關(guān)技術(shù)文檔。

　　3、Endpoint detection（終端檢測）是針對背景噪音進(jìn)行處理。它主要解決的問題是來自背景噪音的連續(xù)信號中部分獨(dú)立的語音進(jìn)行分析處理。比較早的語音識別技術(shù)只能識別各自獨(dú)立的，缺乏對終端檢測的準(zhǔn)確判斷。比較新的語音識別技術(shù)中可以對識別連續(xù)的語音。新語音識別技術(shù)可以通過訓(xùn)練樣本來進(jìn)行獲得準(zhǔn)確的結(jié)果。

　　在話語識別中，兩個主要的任務(wù)就是speaker verification 和 speaker identification。其中speaker verification 主要的目的就是實(shí)現(xiàn)講話人的驗證，講話人通過密碼輸入，其他相關(guān)編碼來識別器身份。講話者的驗證最終輸出的結(jié)果是接受此驗證或者拒絕此驗證；

　　而speaker identification 的主要作用是從講話人中間確定某一個的身份。最終的輸出結(jié)果是以模型為基礎(chǔ)，從各種講話人中找到最相似的結(jié)果。

　　Text-to-Speech（TTS）文本語音合成也是MRCP重要的一個技術(shù)概念。其主要目的是通過前后端引擎的處理，把自然文本語言轉(zhuǎn)化成語音流的過程。通過合成處理以后，其結(jié)果必須是正確的，智能的，當(dāng)然也要具有語言的自然性。語音IVR就是一個非常典型的例子。以下圖例是一個語音合成的實(shí)現(xiàn)流程圖：

　　前端處理主要負(fù)責(zé)用戶輸入的文本文字經(jīng)過解析分析對比，然后形成語句單元，聲音音量等相關(guān)標(biāo)簽。后端處理則根據(jù)前端的輸出結(jié)果存儲，重新排序，存儲，和數(shù)據(jù)庫的語句查詢重新構(gòu)建語音流。后端處理中的Unit Selection是一個比較重要的技術(shù)話題，它涉及了數(shù)據(jù)庫存儲方面的問題和語義單元存儲方式的問題，包括存儲全句還是偏語或者其他的關(guān)鍵詞等。我們這里不再做過多討論。在未來的MRCP合成中會涉及。

　　4、在本期的分享學(xué)習(xí)中，我們介紹了幾個基本的關(guān)于語音識別的概念和基本的處理流程。因為篇幅的關(guān)系和討論的側(cè)重點(diǎn)不同，這其中沒有涉及很多重要的概念，例如統(tǒng)計模型，語言模型，訓(xùn)練，Mel-cepstrum等話題。我們主要把未來需要的幾個重點(diǎn)概念和處理流程做了簡要介紹，結(jié)合了幾個拓?fù)鋱D來幫助大家進(jìn)一步了解語音識別的技術(shù)核心要素。當(dāng)然，這些內(nèi)容遠(yuǎn)遠(yuǎn)不能涵蓋語音識別的技術(shù)深度，并且難免存在很多問題，用戶需要自己通過語音識別的權(quán)威技術(shù)資料做進(jìn)一步的研究。