中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

壹鴿科技:全雙工語音交互技術(shù),幫你告別套娃語音導(dǎo)航服務(wù)

2019-06-19 15:53:45   作者:   來源:中國信息產(chǎn)業(yè)網(wǎng)   評論:0  點擊:


  1.應(yīng)用場景
  智能語音客服行業(yè)作為人工智能技術(shù)較早實現(xiàn)商業(yè)化落地的領(lǐng)域,吸引了眾多企業(yè)爭相布局。目前,隨著智能語音客服機器人大規(guī)模應(yīng)用到實際生產(chǎn)環(huán)境中,語音通話數(shù)據(jù)生成快速,體量浩大,模態(tài)繁多,且由于ASR識別魯棒性不夠,導(dǎo)致智能語音客服機器人表現(xiàn)還不盡如人意,分析主要原因,有以下幾方面:
 。1)音頻采集環(huán)境復(fù)雜
  音頻采集環(huán)境復(fù)雜,主要包括了,背景包含多種噪聲,性噪比SNR過低;音頻采集通道性能不合格,不能過濾掉不相干的信號,使得有效信息丟失或者不足。
 。2)測試數(shù)據(jù)和訓(xùn)練模型的數(shù)據(jù)不匹配
  測試數(shù)據(jù)和訓(xùn)練模型的數(shù)據(jù)不匹配,主要有性別,年齡,說話人情緒,口音影響等因素為音頻的識別帶來了很大的困惑性,導(dǎo)致不能正確解碼。
  (3)說話人非標(biāo)準(zhǔn)表達
  說話人非標(biāo)準(zhǔn)表達,即自發(fā)性口語識別問題,由于在實際生活中,說話人在表達時,會存在遲疑,重復(fù),停頓等多種自發(fā)性口語現(xiàn)在,同時,還可能在說話時夾雜著外語詞匯或者不常見的獨有詞匯。
  ASR系統(tǒng)要應(yīng)用于實際生產(chǎn)環(huán)境中,不僅要適應(yīng)各類緩變噪聲,而且必須在噪聲強度和種類多變的情況下保持穩(wěn)定性能;除聲學(xué)環(huán)境噪聲因素外,還需面對說話人存在的口音和方言以及說話人說話方式的隨意性等因素。
  2.模型
  智能語音客服應(yīng)用于通信系統(tǒng),典型的會話信道大約只有40%的時間真正用于傳輸語音,其余的時間傳輸?shù)亩际庆o默和背景噪聲。因此,需要在ASR前端采用一個語音端點檢測器VAD來區(qū)分語音和靜默以及背景噪聲,通過提高ASR系統(tǒng)資源的利用率擴大ASR系統(tǒng)的并發(fā)識別容量。
  同時,由于處理的數(shù)據(jù)量越來越大,需要處理的規(guī)模越來越大,從工程實現(xiàn)以及部署成本而言,還需綜合考慮多路并行處理、實時性、易實現(xiàn)、資源占用情況以及大規(guī)模實現(xiàn)等諸多關(guān)鍵因素,設(shè)計實現(xiàn)大規(guī)模電話語音識別前端實時處理系統(tǒng),完成對多路實際電話信道語音的實時處理,滿足在大規(guī)模電信網(wǎng)中的應(yīng)用需求。
  除實現(xiàn)大規(guī)模電話語音識別前端實時處理系統(tǒng)外,還需使系統(tǒng)具備一定的容錯性,確保在語音信號段判決錯誤的情況下通過聲學(xué)拒識決定是否接受ASR識別后文本,并且要通過句間停頓時間自適應(yīng)調(diào)整清晰定義句子邊界,從而大大降低ASR的計算量和處理時間,提高系統(tǒng)的識別精度。
  通過對大量電話系統(tǒng)語音進行統(tǒng)計分析得出90%以上話路的語音信噪比大于10dB,個別話路信噪比相對較低,存在各式各樣的噪聲,甚至有些環(huán)境下信噪比為0dB左右。基于此,本方案分兩級對電話信道語音進行檢測。首先在時域進行一級處理,判決出疑似語音幀和非語音幀,將疑似語音的幀交由二級進行頻域處理。因為二級判決是在一級判決的基礎(chǔ)上完成,只用對一級處理后疑似語音的幀進行判決,對同一目標(biāo)話路的檢測,相對只通過一級檢測所需的計算數(shù)據(jù)量明顯減少,為整個系統(tǒng)的其他處理模塊提供更多的可支配時間,提高系統(tǒng)實時性。
  二級VAD檢測實現(xiàn)對電話語音流標(biāo)識通話狀態(tài),分為會話靜默、會話開始、會話進行中以及會話結(jié)束4類。并且,在二級VAD檢測實現(xiàn)時增加幀特征參數(shù)提取模塊、且在進行特征計算時調(diào)用特征參數(shù)提取部分中間運算模塊(如FFT運算模塊),以此減少整個語音處理系統(tǒng)的資源消耗。
  3.數(shù)據(jù)處理及分析
  目前,正在收集標(biāo)注這樣一個數(shù)據(jù)集。數(shù)據(jù)集分為干凈語料、聲學(xué)環(huán)境噪聲語料、口音方言語料以及雙聲道通話語料,其中干凈語料、聲學(xué)環(huán)境噪聲語料和口音方言語料需要通過人工標(biāo)注收集。
 。1)聲學(xué)拒識
  首先,基于特征規(guī)則來輔助人工收集聲學(xué)拒識語料庫(干凈語料、聲學(xué)環(huán)境噪聲語料、口音方言語料),減少人工標(biāo)注的工作量,并構(gòu)造一個語音大數(shù)據(jù)信息處理工具,應(yīng)對機器學(xué)習(xí)的不確定性,通過多試快速迭代出語音大數(shù)據(jù)信息處理工具,便于通過該工具方便地添加新數(shù)據(jù)、新特征,并快速訓(xùn)練出一個新模型通過海量的拒識語料來進行性能指標(biāo)測試;然后,基于高斯混合模型GMM算法和支持向量機SVM算法等機器學(xué)習(xí)算法,并結(jié)合語音大數(shù)據(jù)信息處理工具提取出來的多種語音特征值,在語音識別前端,開發(fā)實現(xiàn)一種復(fù)雜環(huán)境下準(zhǔn)確性和穩(wěn)定性較高的聲學(xué)拒識算法。
  采取的方案以及方案要適用多類條件識別情況,不僅適用于口音方言的語音識別問題,還需適用于復(fù)雜背景噪聲環(huán)境識別問題等。
 。2)句間停頓時間自適應(yīng)
  基于電話庫中的自然口語對話中存在各種各種各樣的話輪轉(zhuǎn)換形式,并且有大量的疊接現(xiàn)象(搶話)。通過基于雙聲道通話語料進行智能客服交互場景下的疊接現(xiàn)象分析,研發(fā)一種可根據(jù)預(yù)估思考時間、話輪意圖、環(huán)境音感知的句間停頓自適應(yīng)調(diào)整機制,實現(xiàn)智能語音客服通過和人類一樣的非對稱對話模式協(xié)調(diào)與人類進行全雙工語音交互,減少用戶感知的等待時間,及時響應(yīng)話者意圖。
 
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)