2022年8月12日起,由Magic Data、好未來、清華大學、中國科學院聲學研究所聯合主辦“ISCSLP2022中英混語音識別挑戰賽*(ISCSLP 2022 Chinese-English Code-Switching ASR Challenge, CSASR)。”
自開展以來,共收到四十多支國內外研究機構、知名企業及高校的參賽隊伍注冊報名,包括 滴滴、搜狗、小鵬、虎牙、網易游戲、有道、荔枝FM、特斯聯、網易游戲、中移在線、蘇州馳聲、堪薩斯州立大學、中科院、華中科技大學、中國科學技術大學、西北工業大學、廈門大學、天津大學等。
2022年9月23日,主辦方正式公布本次挑戰賽成績排名。
* 注:本次挑戰賽已納入國際會議 ISCSLP,"MagicHub中英混語音識別挑戰賽"更名為"ISCSLP 2022 中英混語音識別挑戰賽(ISCSLP 2022 Chinese-English Code-Switching ASR Challenge, CSASR)"。
競賽結果與排名
經過激烈的角逐,本次ISCSLP2022中英混語音識別挑戰賽獲獎隊伍如下,恭喜獲獎團隊!
挑戰賽背景
近年來,全球化進程發展迅速,人們在日常交流中經常會出現中文語境下夾雜其他語種的現象,這種語言現象稱為語種混雜(Code-Switching)。這樣的表達方式,尤其是中英文混雜的語音表達在應用場景中非常常見,主要包含兩種表現形式:一是語言穿插表達“Oh, My God 我的電腦死機了”,二是在一種主要語言中混合入另外一種語言“我要上Coursera學習Machine Learning課程”,這樣的表達方式都被認為是正確并且符合語法的。
隨著語音識別設備的普及,如何讓機器更好的學習和理解人類復雜多變的語言,成為不少ML研究者和從業者面臨的巨大挑戰。而數據的匹配度和豐富性,則是推動語音識別系統性能提升的最重要因素之一,通過高質量的結構化數據進行訓練提升識別率,才能讓機器領會說話人意圖和指令,以作出更加精準的響應。本次挑戰賽希望與企業、機構及高校攜手,共同探索中英混對話AI領域的創新發展。
打分工具介紹
使用開源的打分工具Sclite進行打分。評分指標采用混合錯誤率(Mixed Error Rate, MER),即對中文計算字錯誤率、對英文計算詞錯誤率。選手需提交GBK編碼格式的識別結果。
打分樣例請見:https://github.com/MagicHub-io/CSASR_Challenge/blob/main/dev_scoring_sclite.sh
致謝
感謝來自Magic Data、好未來、清華大學、中國科學院聲學研究所在語音領域深耕多年,有著豐富研究和實戰經驗的專家,作為競賽組委會成員,全程給予答疑支持和指導。
感謝SegmentFault思否開發者社區、稀土掘金技術社區、示說網等多家社區的大力支持。
后續我們將會對業界開放基礎算法框架,同時也尋求學術和工業界在該問題的先進算法和技術,攜手共建更優的解決方案。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: