中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當前的位置是:  首頁 > 資訊 > 國內 >
 首頁 > 資訊 > 國內 >

全球最大多領域中文語音識別數(shù)據(jù)集 WenetSpeech 正式發(fā)布并開放下載

2021-10-29 14:44:57   作者:   來源:CTI論壇   評論:0  點擊:


 
  日前,西北工業(yè)大學音頻語音和語言處理研究組(ASLPLab)、出門問問、希爾貝殼聯(lián)合發(fā)布1萬小時多領域中文語音識別數(shù)據(jù)集WenetSpeech,在騰訊會議天籟實驗室、華為升思MindSpore、西安未來人工智能計算中心等機構大力支持下,該數(shù)據(jù)集目前已經(jīng)開放下載。
  數(shù)據(jù)申請入口:
  https://wenet-e2e.github.io/WenetSpeech/
  目前該工作已經(jīng)投稿語音研究頂級會議ICASSP2022,詳見:
  https://arxiv.org/pdf/2110.03370.pdf
  WenetSpeech介紹
  近十年以來,在深度學習的推動下,語音識別技術和應用均取得了突飛猛進的發(fā)展,搭載語音識別技術的相關產(chǎn)品和服務,諸如語音搜索、語音輸入法、智能音箱、智能電視、智能穿戴、智能客服、機器人等已經(jīng)廣泛應用到我們生活的方方面面。但在現(xiàn)有的中文語音識別研究中,由于開源中文語音數(shù)據(jù)集數(shù)據(jù)量少,場景單一,缺乏挑戰(zhàn)性,不能反映研究模型在大數(shù)據(jù)量和復雜場景下的泛化能力,例如,當前最大的中文普通話開源數(shù)據(jù)集AIShell-2,包含1000小時的朗讀風格錄制數(shù)據(jù),主流識別系統(tǒng)在該數(shù)據(jù)的測試集上獲得的錯誤率低至5.3%左右。工業(yè)界往往使用更大規(guī)模的內部數(shù)據(jù)進行研究,而學術界無法獲取這些數(shù)據(jù)進行研究,這導致了中文語音識別研究在學術界和工業(yè)界的嚴重割裂。另一方面,當下研究的熱點無監(jiān)督學習和自學習,在中文語音識別領域,也缺乏公開標準的大數(shù)據(jù)集的支持。
  今年以來,F(xiàn)acebook發(fā)布面向監(jiān)督學習的5萬小時的英文audiobook數(shù)據(jù)集Multilingual LibriSpeech;SpeechColab發(fā)布1萬小時的多領域英文數(shù)據(jù)集GigaSpeech。受這些工作的啟發(fā),同時中文語音識別研究也迫切需要一個標準的大規(guī)模多領域的數(shù)據(jù)集,為此我們設計開發(fā)了WenetSpeech數(shù)據(jù)集。
  WenetSpeech除了含有10000+小時的高質量標注數(shù)據(jù)之外,還包括2400+小時弱標注數(shù)據(jù)和22400+小時的總音頻,覆蓋各種互聯(lián)網(wǎng)音視頻、噪聲背景條件、講話方式,來源領域包括有聲書、解說、紀錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景,領域詳細統(tǒng)計數(shù)據(jù)如下圖所示。
  數(shù)據(jù)收集
  WenetSpeech所有的數(shù)據(jù)均來源于網(wǎng)絡,其中三分之二的數(shù)據(jù)來自Youtube,三分之一來自Podcast。
  對于Youtube數(shù)據(jù),我們人工選擇含有嵌入式硬字幕(字幕嵌入在視頻流中,非外掛字幕)的視頻資源,并構建了如下圖的基于OCR的系統(tǒng)進行數(shù)據(jù)挖掘,流程如下:
  文本檢測,在當前視頻幀上進行文本檢測。
  字幕位置校驗,判斷檢測到的文本區(qū)域是否為合法的字幕區(qū)域。
  字幕切換檢測,已得到字幕位置和區(qū)域,在連續(xù)的視頻幀上對該區(qū)域進行檢測,直至該區(qū)域的字幕變化為止,得到字幕的起始和結束時間。
  文本識別,將字幕區(qū)域進行OCR識別,得到文本。
  將3中對應時間的音頻提取出來,結合4中的文本,即得到字幕文本和該文本對應的音頻,也就是語音識別訓練中所需的文本和語音的候選平行數(shù)據(jù)。
  下圖中給出該OCR系統(tǒng)在不同場景下的幾個典型示例。圖中綠色的框為檢測到的所有文字區(qū)域,紅色的框為判定為字幕的文字區(qū)域,紅色框上方的文本為OCR的識別結果?梢钥吹,該系統(tǒng)正確的判定了字幕區(qū)域,并準確的識別了字幕文本,同時經(jīng)過我們測試,發(fā)現(xiàn)該系統(tǒng)也可以準確判定字幕的起始和結束時間。
  對于Podcast數(shù)據(jù),我們使用國內最好的商業(yè)語音識別系統(tǒng)之一,對Podcast數(shù)據(jù)進行切分,并生成切分后音頻和其所對應的文本作為候選平行數(shù)據(jù)。
  數(shù)據(jù)校驗
  OCR字幕識別和ASR語音轉寫生成的候選平行數(shù)據(jù)中不可避免的存在一些錯誤,如人工字幕本身有錯誤,字幕時間不準,OCR識別錯誤,轉寫錯誤等。為了檢測該錯誤,WenetSpeech中提出一種基于端到端的自動標注錯誤檢測算法,如下圖所示。該算法首先根據(jù)候選平行數(shù)據(jù)的文本(ref)構建一個一個強制對齊圖,該圖中允許在任意位置進行刪除、插入和替換操作。然后將候選平行數(shù)據(jù)的語音輸入到該圖進行解碼得到識別結果(hyp),最終計算ref和hyp的編輯距離并做歸一化從而得到該候選平行數(shù)據(jù)的置信度。當候選語音和文本一致性高時,ref和hyp一致性高,置信度高,反之,當候選語音和文本一致性低時,置信度低。
  WenetSpeech中選取置信度>=95%的數(shù)據(jù)作為高質量標注數(shù)據(jù),選取置信度在0.6和0.95之間的數(shù)據(jù)作為弱監(jiān)督數(shù)據(jù)。關于該算法的詳細內容,請參考我們的論文。
  排行榜
  除了訓練中校驗用途的Dev集外,我們還設計了兩個人工精標測試集,互聯(lián)網(wǎng)測試集Test_Net和會議測試集Test_Meeting,作為“匹配”和“不匹配”測試,同時提供三個語音識別主流工具包(Kaldi,ESPNet,WeNet)上搭建的基線系統(tǒng),方便大家復現(xiàn)。在10000+小時的高質量標注數(shù)據(jù)上,目前三個系統(tǒng)的語音識別率如下表所示(結果為MER%,中文算字錯誤,英文算詞錯誤)。
  WenetSpeech 2.0
  雖然WenetSpeech將開源中文語音識別訓練數(shù)據(jù)規(guī)模提升到一個新的高度,然而我們希望進一步進行擴展和完善:
  從領域角度,現(xiàn)有數(shù)據(jù)集在口音、中英文混合、會議、遠場、教育、電話、語音助手等場景仍覆蓋不足。
  從數(shù)據(jù)量角度,現(xiàn)有的2萬+小時的總數(shù)據(jù),對于無監(jiān)督學習仍然遠遠不夠。
  因此,WenetSpeech在設計之初,就考慮到了未來做進一步擴展。目前我們已經(jīng)開始WenetSpeech 2.0的工作,并且在2.0中,我們希望更多的行業(yè)機構和開發(fā)者能參與進來,能夠集行業(yè)之力更好、更快的去做一個更大更泛化的數(shù)據(jù)集,從而進一步反哺和造福整個行業(yè)。如果您或者您的機構有興趣和意愿參與WenetSpeech 2.0的數(shù)據(jù)合作,請微信或者郵箱聯(lián)系以下作者(非誠勿擾)。
  致謝
  感謝西北工業(yè)大學、出門問問、希爾貝殼、騰訊會議天籟實驗室、華為升思MindSpore、西安未來人工智能計算中心對該工作的支持;感謝WenetSpeech團隊的各位小伙伴夜以繼日的努力;感謝都家宇和陳果果對該工作提出的寶貴意見。
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

CTI論壇會員企業(yè)