中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當前的位置是:  首頁 > 新聞 > 專家觀點 >
 首頁 > 新聞 > 專家觀點 >

東進技術產(chǎn)品總監(jiān)劉駿:聲紋識別技術及其應用

2017-03-27 15:59:00   作者:   來源:CTI論壇   評論:0  點擊:


  由中國領先的信息與通信技術行業(yè)網(wǎng)站CTI論壇主辦的2017中國呼叫中心及企業(yè)通信大會[http://www.estzdh.com/expo/2017/ccec2017spring/index.html]于3月23日-24日在中國北京隆重召開,本次會議以"塑造未來技術改善溝通體驗"為主題。深圳市東進技術股份有限公司產(chǎn)品總監(jiān)劉駿應邀出席此次會議并發(fā)表主題演講《聲紋識別技術及其應用》。

圖:深圳市東進技術股份有限公司產(chǎn)品總監(jiān)劉駿
演講PPT下載,pdf格式
【演講視頻】東進技術劉駿:聲紋識別技術及其應用
  劉駿:大家好,我是東進公司產(chǎn)品經(jīng)理劉駿,今天很高興能和大家一起共同探討新技術在行業(yè)中的應用,今天我講的是"聲紋識別技術及其應用"。
  為什么會講這個主題呢,一是東進技術與清華大學合作,將聲紋識別技術應用在了中國建設銀行的手機銀行業(yè)務中,這是將東進技術硬件設備上的研發(fā)優(yōu)勢和清華大學在底層算法上的科研優(yōu)勢相結合的一個有益嘗試。二是以聲紋識別、人臉識別為代表的生物特征識別在近幾年特別火,不談其他的,就我們這個行業(yè)而言,可以看到,無論是呼叫中心行業(yè)還是通信企業(yè),人工智能應用越來越多了,如我們可以看到智能機器人、語音識別(ASR)等,因此,東進想在生物特征識別技術的應用領域做一些探索。
  為什么生物特征識別技術近幾年特別火呢,我認為有三個原因,第一是技術的進步所帶來的發(fā)展,第二是應用有強勁的需求,第三是大佬們的推波助瀾以及資本的熱捧。業(yè)內(nèi)對生物特征識別也普遍持樂觀態(tài)度,這是權威的國際生物識別集團(International Biometric Group,IBG)在2014年做的《2007-2020全球生物識別技術行業(yè)市場規(guī)模與預測》,IBG預測,在2020年,全球生物識別技術行業(yè)的市場規(guī)模將達到250億美元。
  生物特征識別技術涵蓋指紋、人臉、聲紋、瞳孔、掌紋以及靜脈紋,每種生物特征識別都有著不一樣的技術特性和應用場景,在此我們可以簡單比較一下聲紋和人臉之間的區(qū)別,人臉識別是基于人的生理特征,而聲紋識別不僅基于人的生理特征,也是基于人的行為特征。人臉在人的一生中是相對有規(guī)律的自然變化,而聲音不僅有相對規(guī)律的自然變化,也與人后天的生活環(huán)境、文化環(huán)境相關,具有極強的自然屬性和文化屬性,不易被仿冒,或者說仿冒的難度比較高。因此,相對人臉識別,聲紋識識別更能夠應用到遠程身份認證領域,聲紋識別如果能和現(xiàn)有的基于互聯(lián)網(wǎng)的客戶服務結合,會有更好的應用前景和市場前景。
  因此,國際生物識別集團在《2007-2020全球生物識別技術行業(yè)細分市場規(guī)模與預測》中預測,在2020年的250億美元市場中,指紋排第一,130億美元,聲紋排第二,為56億美元,人臉排第三,為24億美元,顯然,相比人臉,IBG對聲紋識別更樂觀一些。
  需要講清楚的一點是,聲紋識別和語音識別是不一樣的,聲紋識別是基于發(fā)音特征,關注的是你是誰,語音識別基于語義特征,關注的是你說了什么,還有一點是聲紋識別有兩類,一類是確認,即要證明你是你,一類是是辨認,就是在一堆人中找出你。
  面向確認的聲紋識別應用已經(jīng)達到了實際商用水平,如司法行業(yè)的司法矯正中就用到聲紋識別,大家可能不知道,聲紋識別早在2010年前后就開始在司法行業(yè)中得到應用了;玖鞒淌沁@樣的,假釋人員首先在司法部門進行司法宣告,留下語音,然后給他一個具有LBS功能的手機,在監(jiān)外服刑期間,司法矯正系統(tǒng)會定期對矯正對象所持手機進行定位,以判斷對象是否在規(guī)定的地理位置,同時,利用東進Keygoe多媒體交換機對手機進行外呼,通過IVR引導矯正對象進行聲紋比對,以判斷矯正對象和手機是否分離。目前,這種面向確認的聲紋識別技術在司法行業(yè)已經(jīng)達到較高的商用成熟度。還有一個應用就是手機的聲紋鎖,用聲紋來打開你的手機,這種的應用的商用化程度也非常高。
  而面向辨認的聲紋識別技術,我個人認為其商業(yè)化還有一段路要走,一個例子是汽車行業(yè)的用戶滿意度調查。汽車4S店將大量的客戶訪問電話的錄音文件交到汽車廠商,為防止4S店作弊,汽車廠商需要將被仿冒的電話給找出來,這就需要通過聲紋識別技術來進行,但從目前反饋的情況來看,效果并不理想,這倒不是技術問題,而是和應用場景相關,因為不可能對汽車廠商的客戶進行語音預留。
  我們?nèi)祟悓φZ音的說話人鑒別是我們?nèi)祟愒趲装偃f年的進化過程中習得而來,與生俱來,而通過機器進行說話人識別跟人類大腦的識別是不一樣的。在這個圖中,上面兩個是聲音的波形圖,即聲音振幅隨時間變化的曲線,下面兩個是語譜圖,即聲音在不同頻段的能量值大小隨時間的變化曲線,上世紀三四十年代,美國的Bell實驗室的勞倫斯·科斯塔通過觀察語譜圖第一次提出了"聲紋"的概念;到四十年代至七十年代,同樣是Bell實驗室的S.Pruzansky提出了基于統(tǒng)計學原理的聲紋識別理論,系統(tǒng)地發(fā)展了聲紋識別理論,理論體系得以初步建立,這一階段的研究主要集中在特征參數(shù)的選擇、提取上,相繼提出了線性預測倒譜系數(shù)、共振峰參數(shù)等特征參數(shù);在上世紀七十年代至九十年代,聲紋識別技術發(fā)展迅速,參數(shù)提取上提出了應用較為成熟的梅爾頻率倒譜系數(shù)(MFCC)模式匹配,并相繼出現(xiàn)了矢量量化技術(VQ)、動態(tài)時間規(guī)整(DTW)、隱馬爾科夫模型(HMM)等模式匹配模型;九十年代至今,開始步入實際應用階段,工作重點是提高聲紋識別系統(tǒng)的可靠性和實用性。
  衡量一個聲紋識別效果的重要參數(shù)是錯誤接受率和錯誤拒絕率,在這個曲線中,錯誤接受率和錯誤拒絕率是一個矛盾曲線,即兩者不可兼得,因此,業(yè)內(nèi)提出來等錯率,目前的聲紋識別技術在理想的情況下等錯率可以做到低于0.5%,即在1000個的聲紋比對中,僅有不到5個的錯誤接受率和錯誤拒絕率。
  聲紋識別就目前的應用來說,主要有三個技術難點。
  一個技術難點就是跨信道。這是在聲紋識別中,學習訓練通道和識別通道在相同和不同情況下,對等錯率的影響,藍色曲線的同一信道曲線,紅色曲線是跨信道曲線,可以看到,跨信道的等錯率幾乎到了20%,那么在實際應用中,我們該怎么去解決這問題呢,特別是技術水平相對穩(wěn)定的情況下該怎么解決這個問題?
  我們的做法是結合應用場景,盡量使訓練學習通道和識別通道都用同一個信道,盡量避免跨信道。這是一個駕校管理系統(tǒng)方案,為防止駕校侵占學員的學時,需要對學員進行身份認證,現(xiàn)在的認證方法是學員IC卡讀取和指紋識別,學員通過教練車載終端進行登錄,現(xiàn)在將聲紋識別技術引入進來,如果學員報名時在報名處通過寬帶接入網(wǎng)進行聲紋預留,在教練車上通過車載終端和3G網(wǎng)絡通道進行識別時,就會影響實際的識別效果,我們提出的解決方案是,在報名時,學員下載APP后就通過移動寬帶網(wǎng)絡進行語音預留,在教練車上,車載終端僅下發(fā)動態(tài)碼,學員仍然通過自己的手機利用移動寬帶網(wǎng)絡通道進行識別,這樣就能顯著提高識別率。
  第二個技術難點是錯誤識別。做到百分之百的正確識別是不現(xiàn)實的,但我們可以利用等錯率曲線,根據(jù)業(yè)務應用場景,通過參數(shù)配置,有針對性地提高或降低錯誤拒絕率或錯誤接受率,使之符合實際的應用場景。舉個例子,如果安全性較高的應用場景,如大額轉賬,我就將參數(shù)配置在這個區(qū)域,即較低的錯誤接受率和較高的錯誤拒絕率,犧牲便利性突出安全性,相信客戶在進行大額轉賬時,應該是能夠忍受一定的不方便而獲得較高的安全性。當聲紋識別用于手機解鎖時,我們可以調整參數(shù),使之工作低錯誤拒絕率和高錯誤接受率這個區(qū)域,提供較好的方便性,因為手機在大多數(shù)情況下都在我們身邊,誰也不會沒事就拿著手機找人家闖入。
  第三技術難點就是假體攻擊。就指紋的假體攻擊,據(jù)說淘寶上賣一個指紋只需要十幾塊錢,今年315晚會上,針對人臉識別的假體攻擊也讓人臉識別火了一把。就聲紋識別而言,常見的假體攻擊就是錄音以及錄音的拼接,從理論上講,通過錄音文件進行闖入是存在可能性的。對錄音及錄音拼接,我們的解決方案是動態(tài)碼,即下發(fā)一個隨機的8位數(shù)的數(shù)字,通過對這個動態(tài)碼的識別來進行身份驗證,提高了系統(tǒng)識別率和安全率,這也是我們?yōu)橹袊ㄔO銀行的手機銀行的遠程身份認證提供的解決方案。
  中國建設銀行的手機銀行業(yè)務,其遠程身份認證的大致流程是這樣的,大家請看這個圖,首先是手機客戶端發(fā)起驗證請求, 銀行業(yè)務系統(tǒng)調用東進的聲紋驗證機接口獲取ID和文本,以獲得隨機產(chǎn)生的ID和文本,然后將文本解碼并發(fā)送給手機銀行客戶端,手機銀行客戶端讀出文本,并將錄音發(fā)給銀行業(yè)務系統(tǒng),銀行業(yè)務系統(tǒng)收到錄音后調用聲紋驗證機接口上傳用戶語音,聲紋驗證機返回聲紋驗證結果給銀行業(yè)務系統(tǒng),銀行業(yè)務系統(tǒng)將驗證成功或失敗接口發(fā)給手機銀行客戶端。這就是我們現(xiàn)在向中國建設銀行提供的面向移動互聯(lián)網(wǎng)的聲紋識別+動態(tài)口令的遠程身份認證解決方案。
  面向金融和支付領域的聲紋識別技術應用,目前一個行業(yè)問題就是,能否將聲紋識別正式作為遠程身份認證的一個正式手段納入到相應的業(yè)務環(huán)節(jié),不過有兩個動向使我們對此很樂觀。一個是,去年中國人民銀行發(fā)布《關于推動移動金融技術創(chuàng)新健康發(fā)展的指導意見》中,要求銀行和清算機構提供手機等移動金融服務時,應使用可靠的多因素身份認證方式,多因素身份認證中就有聲紋、人臉等選項;另外一個動向是,中國人民銀行金融標準委員會正在組織起草《手機銀行中基于聲紋識別的增強安全應用技術規(guī)范》,目前正在征求意見階段,預計不久的將來,該規(guī)范將正式作為中國金融行業(yè)的一個正式標準,指導金融行業(yè)在聲紋識別技術的規(guī)范應用,相信能促進聲紋識別市場的良性發(fā)展。
  最后做一個廣告,這是東進FV-1000聲紋驗證機,是東進硬件設備上的研發(fā)優(yōu)勢和清華大學在底層算法科研優(yōu)勢結合的一個有益嘗試。就設備本身而言,行業(yè)內(nèi)的朋友都知道,東進在硬件設備的研發(fā)設計和生產(chǎn)制造上擁有超過20的創(chuàng)新歷史,設備以高可靠、高穩(wěn)定、高性能和高靈活度的特點獲得了產(chǎn)業(yè)鏈上各個環(huán)節(jié)的高度認可。目前這臺FV-1000所搭載的聲紋識別算法不僅能通過靈活的參數(shù)配置來適應不同的應用場景,還具有防錄音和防錄音拼接功能,而且能夠進行自我學習,適應人類聲音的自然變化。另外,從聲紋識別技術應用的系統(tǒng)架構上看,東進FV-1000聲紋驗證機處在系統(tǒng)架構較低層的接入層和支持層,并對上層應用提供應用開發(fā)接口,應用開發(fā)接口完全基于Web Service,這也體現(xiàn)了東進一貫堅持的產(chǎn)業(yè)鏈合作的經(jīng)營理念,東進愿意與合作伙伴一起,共同打造基于(移動)互聯(lián)網(wǎng)的遠程身份認證解決方案,探索生物特征識別技術在更廣泛行業(yè)中的應用。
  總而言之,技術的進步和應用需求使我們進入了生物特征識別產(chǎn)業(yè)高速發(fā)展的增長期,而要獲得持續(xù)的市場增長,就需要我們在技術及其應用上進一步去探索與突破,除此之外,生物識別技術的應用還存在一些安全和隱私問題,除了技術需要進一步提升外,行業(yè)還要制定相關的標準和規(guī)范,甚至國家在法律層面還需要制定相應的法律和法規(guī),以明晰可能存在的風險,讓我們在基礎研究、技術開發(fā)、行業(yè)應用等方面共同努力,以更好的產(chǎn)品和服務迎接生物特征識別市場收獲季節(jié)的到來。
  謝謝大家!

專題