亚洲国产精品美女,亚洲AV无码精品色午夜果冻不卡 ,亚洲国产黄在线观看

Facebook開源世界上最大多語言語音數據共涵蓋23種語言

2021-08-26 15:32:48 來源：量子位

最近，Facebook 開源了目前世界上最大的多語言語音數據集，VoxPopuli：這一數據集共涵蓋了 23 種語言，時長超過 40 萬小時。其中，每種語言都有 9000 到 18000 小時的無標簽語音數據。此外，還包括了共 1800 小時，16 種語言的轉錄語音數據，以及 17300 小時，15 種目標語言的口譯語音數據。

國外網友很快為這一行為點贊：

顯然，如果數據集已經存在，那么它應該被利用，并以一種道德的方式來改善人類社會。這一數據集龐大的無標簽數據量和廣泛的語言覆蓋率，對改進自監督模型有著很大的幫助。而 Facebook 也希望能夠幫助提高語音數據集的質量和魯棒性，使訓練語音轉換神經網絡更加可靠。最終加速新的 NLP 系統的開發，使 AI 翻譯的效果越來越好。

而數據集的名字，VoxPopuli 的直譯“人民的心聲”也表示了其原始數據的來源 ——即源語音全都收集自 2009-2020 年歐洲議會的活動錄音。

來自 10 年歐會的語料庫

在歐洲議會的各自活動，如全體會議、委員會會議和其他活動上，發言者都會以不同的歐盟語言輪流發表演講。Facebook 就是從歐會官網上抓取了每個演講的文字記錄、演講者信息、開始/結束時間戳。

然后，將所有的原始演講數據進行處理，大致分為以下 3 類：共 40 萬小時，23 種語言的無標簽語音數據每種語言都有 8 千到 2 萬多的原始語音數據。因此，Facebook 基于能量的語音激活檢測(VAD)算法，將完整音頻分割成 15-30 秒的短片段。

最終得到沒有太多的數據不平衡，也不需要調整數據采樣策略的數據集。因此非常適合多語言模型的訓練。而上表中除了無標簽數據，也有轉錄的語音數據，這也就是第二種：共 1800 小時，16 種語言的轉錄語音數據。歐會官方的時間戳雖然可以用來在會議中定義演講者，但常常會被截斷，或混合前后演講的片段，因此并不完全準確。所以 Facebook 對全會話音頻采用了聲紋分割聚類(SD)。這時的語音段落平均時長為 197 秒，再利用語音識別(ASR)系統，將其細分為 20 秒左右的短片段。觀察上表，可以看到最終得到的數據中，有包括各語言的持續時間、發言人數量、女性發言人百分比、標記數量等多種屬性。17300 小時的 15 種目標語言的口譯語音數據：

每個原始語音都有相對應的同聲傳譯，并互相關聯。但要使這個數據集可用，必須經過大量的預處理和過濾。因此，Facebook 使用了語音識別(ASR)系統在句子層面上對齊源語音和目標語音。

在域外環境的半監督學習下具有通用性

那么這一數據集用起來到底怎么樣?首先，是使用包含了域外語言(out-of-domain out-of-language)的無監督預訓練，進行少樣本的語音識別：

可以從表中看到，VP-Mono5K 在 5 種 VoxPopuli 語言上，都優于 XLSR-Mono 和 XLSR-10。而 VP-100K 則在 10 種語言中的 8 種上的都比 XLSR-10 的表現更好。并且，雖然 XLSR-53 涵蓋了 Zh 語言，但與 VP-100K(Large)在 Zh 上的表現相距甚遠。這表明 VP-100K 所學的語音表征具有高度的通用性。然后是使用 VoxPopuli 數據集進行自我訓練或弱監督的語言翻譯(ST)和語音識別(ASR)：

從表中可以看到，不管是對于域內語言還是域外語言，對 VoxPopuli 的自我訓練在大多數時候都能夠提高性能。而在翻譯上，也不用再增加昂貴的標簽數據。通過自我訓練，就能夠縮小端到端模型和級聯模型之間的差距。

相關熱詞搜索： Facebook 語音數據開源

熱點圖集：

關愛銀發老人黑河聯通落實“適老化”各項舉措
青海鹽湖資源開發面臨哪些問題？鹽湖資源開發對生態環境有何影響？
冬奧主媒體中心試運行正式進入賽時閉環管理
囤積癥是精神疾病的哪種囤積癥是怎樣形成的
月球上有水嗎？1噸月壤中含有多少水？
用科技智慧服務國家重大工程中國科協召開黨史學習教育總結會
什么是二代疫苗打了一代還需要二代疫苗嗎？
埃及科學家使用三維CT成像對法老木乃伊進行“數字化解封
推動實現全省全流程一網通辦《貴州省優化營商環境條例》施行
冬奧會獎牌背面取自哪張古代天文圖冬奧會獎牌蘊含哪些天文學知識
出血熱能治好嗎出血熱是什么癥狀
嬰兒宇宙是什么意思嬰兒宇宙能住人嗎

Facebook開源世界上最大多語言語音數據共涵蓋23種語言

熱點話題

熱點推薦

頭條

Facebook開源世界上最大多語言語音數據 共涵蓋23種語言

熱點話題

熱點推薦

頭條

Facebook開源世界上最大多語言語音數據共涵蓋23種語言