信息是如何從我們的大腦傳遞給計(jì)算機(jī)的?從早期的鍵盤(pán)到我們口袋里的觸摸屏,我們逐步擴(kuò)展了人機(jī)數(shù)字交互的方式。隨著自動(dòng)語(yǔ)音識(shí)別(ASR)技術(shù)的發(fā)展,人工智能系統(tǒng)與真正“人類”交流的方式的差距逐漸縮短。
本質(zhì)上講,語(yǔ)音識(shí)別可將人的語(yǔ)音轉(zhuǎn)換為文字,允許人機(jī)進(jìn)行語(yǔ)音對(duì)話。
揭開(kāi)語(yǔ)音識(shí)別能力的神秘面紗
現(xiàn)今的語(yǔ)音識(shí)別主要通過(guò)將數(shù)據(jù)集直接輸入算法來(lái)進(jìn)行語(yǔ)音模型的訓(xùn)練。通常,工業(yè)界為了適應(yīng)不同年齡、不同地域、不同人群、不同信道、不同終端和不同噪聲環(huán)境的應(yīng)用環(huán)境,往往需要大量語(yǔ)音語(yǔ)料和文本語(yǔ)料來(lái)進(jìn)行訓(xùn)練,使之有效提高識(shí)別率。隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,大量文本和語(yǔ)音語(yǔ)料可從多個(gè)渠道進(jìn)行獲取,為語(yǔ)音識(shí)別的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成功構(gòu)建。
靈云語(yǔ)音識(shí)別能力基于捷通華聲公司最新一代的識(shí)別算法、解碼器核心、現(xiàn)今的聲學(xué)模型和語(yǔ)言模型訓(xùn)練方法,在核心的聲學(xué)模型、語(yǔ)言模型、解碼器上都有創(chuàng)新和突破。目前,靈云語(yǔ)音識(shí)別系統(tǒng)的主力模型為CTF模型,該模型有效的提升了語(yǔ)音識(shí)別引擎的執(zhí)行效率、增強(qiáng)了對(duì)不同口音、語(yǔ)速的適配能力,大幅提升了多人會(huì)談、遠(yuǎn)揚(yáng)講話的識(shí)別率。
靈云語(yǔ)音識(shí)別能力基于聲學(xué)模型,用于搭建音頻信號(hào)和音素,就像應(yīng)用數(shù)字溫度計(jì)將溫度度數(shù)轉(zhuǎn)換為數(shù)字一樣,聲學(xué)模型可將聲波轉(zhuǎn)換為計(jì)算機(jī)語(yǔ)言。靈云語(yǔ)音識(shí)別系統(tǒng)應(yīng)用端到端(E2E)模型,可快速拓展多語(yǔ)種,減少解碼時(shí)間,提高語(yǔ)音識(shí)別準(zhǔn)確率。
靈云語(yǔ)音識(shí)別能力可以準(zhǔn)確實(shí)現(xiàn)話者分離,不但在多人會(huì)議談話場(chǎng)景下應(yīng)用智能會(huì)議記錄中至關(guān)重要,而且還可避免因兩位發(fā)言者同時(shí)發(fā)言的語(yǔ)音組合一個(gè)無(wú)意義的記錄而造成的混淆。靈云語(yǔ)音識(shí)別的話者分離模塊采用了聲紋識(shí)別技術(shù)及語(yǔ)義理解技術(shù),新版本引擎在原有話者分離算法基礎(chǔ)上,增加了對(duì)采用字詞分割輔助的方法進(jìn)行話者分離的支持。該算法下,在正常 VAD 切分獲得初始分段的基礎(chǔ)上,還會(huì)使用免 VAD 的 方法先進(jìn)行識(shí)別,得到識(shí)別出的詞邊界,再利用此邊界對(duì)初始分段進(jìn)行修正,并輔助話者的聚類。
靈云語(yǔ)音識(shí)別技術(shù)的應(yīng)用
捷通華聲作為國(guó)內(nèi)最早期從事人工智能技術(shù)研發(fā)和產(chǎn)業(yè)化應(yīng)用的企業(yè),在成立之初便確定“融合技術(shù)、融合應(yīng)用、融合服務(wù)”發(fā)展理念,以場(chǎng)景需求為導(dǎo)向,本著對(duì)核心技術(shù)孜孜不倦的探索精神和務(wù)實(shí)推進(jìn)的原則,在保持技術(shù)先進(jìn)性的同時(shí),不斷創(chuàng)新場(chǎng)景應(yīng)用。
靈云語(yǔ)音識(shí)別能力在各行各業(yè)都有出色承擔(dān)應(yīng)用程序和創(chuàng)新用例,在會(huì)議、談話、演講等現(xiàn)實(shí)場(chǎng)景中,它都可為客戶提供語(yǔ)音支撐技術(shù),為客戶提供便捷工作、生活方式。
以呼叫中心為例,靈云語(yǔ)音識(shí)別能力可部署到全自動(dòng)聊天機(jī)器人中,可監(jiān)控客戶人機(jī)交互,以更快地解決問(wèn)題以及改進(jìn)員工培訓(xùn)。“某公司應(yīng)用靈云語(yǔ)音識(shí)別能力將客戶事件平均處理時(shí)間減少40%,自助服務(wù)率從 5% 提高到20%,員工成本降低多達(dá) 500 萬(wàn),提高服務(wù)轉(zhuǎn)化率近 50%,極大提升了客戶滿意度和員工敬業(yè)度”。