中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

科大訊飛三連冠!

2020-05-07 15:52:51   作者:   來源:CTI論壇   評論:0  點擊:


  連續(xù)三次奪冠!
  五四青年節(jié)當(dāng)日,國際多通道語音分離和識別大賽(CHiME)組委會在線揭曉最新一屆CHiME-6成績:
  科大訊飛聯(lián)合中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)在給定說話人邊界的多通道語音識別兩個參賽任務(wù)上奪冠。
  破自己的紀(jì)錄!
  自2016年以來,科大訊飛第三次參加這項國際競賽并連續(xù)奪冠,這次的語音識別錯誤率從CHiME-5的46.1%降至30.5%。
  • 喜報丨科大訊飛包攬CHiME-5全部冠軍
  • 喜報|科大訊飛包攬CHiME-4三項冠軍
  CHiME-6被稱為“史上最難的語音識別任務(wù)”。
  和CHiME-5相同,CHiME-6比賽使用的語音素材包括多個生活場景——多人在廚房邊做飯邊聊天、在起居室邊用餐邊聊天、在客廳聊天,帶來以下四大難點:
  • 大量的語音交疊(Speech Overlap)
  • 遠(yuǎn)場混響和噪聲干擾對錄音的影響
  • 對話風(fēng)格非常自由、近乎隨意
  • 訓(xùn)練數(shù)據(jù)有限
CHiME-6音頻樣本采集于廚房、起居室、客廳等場景的多人對話
  本次比賽的Track1任務(wù)與CHiME-5相同,即在給定說話人邊界的情況下重點考察參賽團(tuán)隊的多通道信號處理能力及復(fù)雜場景語音識別能力。新設(shè)立的Track2任務(wù)要求參賽機(jī)構(gòu)在自動說話人分離的基礎(chǔ)上再進(jìn)行語音識別。
  2018年的CHiME-5比賽,最優(yōu)的參賽系統(tǒng)語音識別錯誤率仍高達(dá)46.1%,距離實用仍有較大差距。今年科大訊飛聯(lián)合團(tuán)隊重點聚焦于Track1,希望進(jìn)一步探索復(fù)雜場景語音識別實用化的可能性。
  通過團(tuán)隊的技術(shù)攻關(guān),將該任務(wù)上的語音識別錯誤率從原來的46.1%降至30.5%,大幅刷新該項賽事歷史最好成績,最終在Track1的兩個子任務(wù)(Track1-RankingA,需使用官方語言模型;Track1-RankingB,不限制語言模型)上均斬獲冠軍。
科大訊飛奪得CHiME-6冠軍(Track1:Ranking A)
科大訊飛奪得CHiME-6冠軍(Track1:Ranking B)
  同樣的考題,躍升的成績,靠什么?
  在遠(yuǎn)場、混響、噪音、聲音疊加、語言風(fēng)格隨意等諸多不確定性的復(fù)雜場景下,得益于多年來在真實場景中的技術(shù)積累,科大訊飛聯(lián)合團(tuán)隊針對比賽任務(wù)進(jìn)行了一系列技術(shù)創(chuàng)新:
  在前端信號處理方面,聯(lián)合團(tuán)隊提出了基于空間-說話人同步感知的迭代掩碼估計算法(Spatial-and-Speaker-Aware Iterative Mask Estimation,SSA-IME),該算法結(jié)合傳統(tǒng)信號處理和深度學(xué)習(xí)的優(yōu)點,利用空時多維信息進(jìn)行建模,迭代地從多個說話人場景中精確捕捉目標(biāo)說話人的信息。該算法不僅有效降低環(huán)境干擾噪聲,而且可以有效消除干擾說話人的語音,從而大幅降低語音識別的處理難度。
  在后端聲學(xué)模型上,聯(lián)合團(tuán)隊提出了基于空間-說話人同步感知的聲學(xué)模型(Spatial-and-Speaker-Aware Acoustic Model,SSA-AM),通過在聲學(xué)模型輸入端拼接多維度空間信息和不同說話人信息,使其能自適應(yīng)區(qū)分目標(biāo)說話人和干擾說話人。因此,聲學(xué)模型不僅依賴前端算法的處理結(jié)果,也能夠自適應(yīng)完成對目標(biāo)說話人語音特征的提取,大幅提升多人對話場景下語音識別聲學(xué)模型的容錯率和魯棒性。
  語音識別應(yīng)用場景更有A.I.
  科大訊飛致力于智能語音技術(shù)的源頭創(chuàng)新及行業(yè)應(yīng)用,并不斷挑戰(zhàn)語音識別實際應(yīng)用中的技術(shù)難題。
  2010年發(fā)布語音云,持續(xù)改善語音輸入、語音交互場景的準(zhǔn)確率。
  2015年發(fā)布訊飛聽見,逐步提升人人對話場景的準(zhǔn)確率。
  本次CHiME-6的研究成果無疑將進(jìn)一步拓展語音識別的應(yīng)用空間:
  促進(jìn)會議場景語音識別的實用化。相比于CHiME-6的比賽環(huán)境,在實際生活中的遠(yuǎn)距離生活場景中,說話風(fēng)格隨意性減少、語音疊加現(xiàn)象減少、訓(xùn)練數(shù)據(jù)大幅增加,錯誤率也會大幅下降。本次比賽的技術(shù)成果可應(yīng)用于訊飛聽見智能會議系統(tǒng)升級,進(jìn)一步促進(jìn)會議場景語音識別的實用化。
  廣泛應(yīng)用于不同的消費(fèi)產(chǎn)品和服務(wù)中。搭載八麥克風(fēng)陣列的訊飛智能錄音筆、能完整記錄會議內(nèi)容的訊飛智能辦公本、能免切換識別中英文及23種方言的訊飛輸入法,為廣大用戶解決不同場景下的語音識別需求。
  為全球提供多語種智能語音解決方案。得益于英文識別領(lǐng)域的深厚功力,科大訊飛正在大力拓展多語種語音識別方面的技術(shù)研究,有望為全球更多企業(yè)及消費(fèi)者提供優(yōu)質(zhì)的多語種智能語音解決方案。
  讓機(jī)器能聽會說,能理解會思考,用人工智能建設(shè)美好世界——這是我們的使命。
  此次CHiME-6再奪冠,在“讓機(jī)器能聽”上,我們又邁進(jìn)了一大步。
【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

專題

CTI論壇會員企業(yè)