首頁 > 互聯網 > > 正文

              梅開二度!網易易盾兩篇論文再度入選語音學術頂會INTERSPEECH 2023

              2023-08-29 16:47:46    來源:財經市場周刊

              8月20-24日,全球最大的綜合性語音領域的科技盛會——INTERSPEECH 2023在愛爾蘭都柏林舉辦。網易易盾兩篇學術論文被INTERSPEECH官方錄用,與世界頂級學術圈層共享學術研究成果。

              這是網易易盾AI團隊繼ICASSP后,論文再次被國際性頂級學術會議錄用。至此,網易易盾已解鎖全球兩大語音學術頂會論文全部錄用的成就。

              INTERSPEECH在國際上享有極高盛譽并具有廣泛的學術影響力,是由國際語音通訊協會(ISCA)創辦的旗艦級國際會議,也是全球最大的綜合性語音信號處理領域的科技盛會。它涵蓋了語音識別、語音合成、語音增強、自然語言處理等多個領域,每年都吸引了來自世界各地的數千名學者、工程師和企業家參與交流和展示。


              (相關資料圖)

              據INTERSPEECH 2023的統計數據,有上千人參與了會議,這些參會者來自全球數十個國家/地區,其中包括中國、美國、日本、英國、法國、德國、印度等。會議共收到來自全球頂級實驗室、頂級大學、頂級研究團隊共3000篇以上論文投稿,網易易盾在INTERSPEECH 2023上有2篇論文入選,主題分別為《Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning》、《Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech Recognition》。

              同時,易盾AI算法研究團隊也前往現場,與各研究人員會面,圍繞我們最新的語音技術進行問答和演示。這有助于全球語音學術界的研究水平,為研究人員圈層的學術交流提供參考。

              01.

              “Hello,賈維斯”?語音AI可以實現!

              "你好,賈維斯。”

              “隨時為您效勞,先生。”

              電影《復仇者聯盟》中鋼鐵俠與其AI智能管家賈維斯,為我們展示出一個充滿科技設想的未來智能家庭場景,彼時,我們或許驚嘆于電影的超現實概念描繪,但放眼到今天,隨著人工智能(AI,Artificial Intelligence)技術的不斷進步,科幻電影的設想照進現實并非遙不可及。

              在電影中, 鋼鐵俠與其AI智能助手賈維斯的溝通協作全部都是通過語音對話實現。因此,如果想要盡早將這樣的未來場景搬入現實,語音識別與人工智能技術的結合與研究,是關鍵中的關鍵。語音識別是指將人類的語音信號轉換為文本或命令的技術,它涉及到語音信號處理、自然語言處理等領域。語音識別技術可以讓我們通過語音來與電腦或手機等設備進行交互,提高了輸入和操作的效率和便捷性。例如,我們可以通過語音來搜索信息、發送短信、打電話、控制智能家居等。像“賈維斯”這樣的AI語音助手就是一種基于語音識別技術的智能服務,它可以理解用戶的語音指令,并根據用戶的需求提供相應的服務或信息。

              當然,一種技術的突破與創新,應用在個人生活場景中只是該技術價值中的一部分,將技術結合到企業服務方向的應用可以讓價值最大化。

              02.

              對比學習、語種轉碼與數字內容風控

              以網易易盾的兩篇論文為例,我們將解釋,語音AI技術是如何應用到數字內容風控服務場景并且為客戶服務提升價值。

              在易盾智能語音檢測業務場景中,存在實時(流式)檢測需求和離線(非流式)檢測需求。流式\非流式一體化模型是指一個模型可以同時滿足流式場景和非流式場景的識別需求,它降低了模型開發,訓練和部署的成本。在實際的使用過程中模型性能仍然是易盾AI團隊關注的重點,大多數場景下一體化模型往往存在兩個性能差距,如下圖所示。

              (1)一體化模型的非流式識別性能優于流式識別。

              (2)完全非流式模式訓練出來的純離線模型性能優于一體化模型中的離線解碼模式。

              易盾AI團隊希望這兩個性能差距越小越好,一方面希望流式識別的效果能向非流式識別靠近,另一方面希望一體化模型的非流式識別和純離線模型相比沒有性能損失。如何進一步提升一體化模型性能是一個具有挑戰的問題。從模型表征的角度出發,如果流式表征能夠向非流式靠攏,那么流式識別內容也會與非流式識別更相似,也就意味著流式識別的效果能向非流式識別靠近。

              基于這個動機,易盾AI算法團隊提出利用對比學習方法來縮小流式和非流式模式之間的內在表征差距,從而提升一體化模型的性能,如下圖所示。

              易盾AI算法團隊把每一幀的流式表示和非流式表示作為正樣本對,同時從非流式模式的其他幀隨機采樣多個負樣本,利用對比學習拉近正樣本之間的距離,同時加大負樣本之間的差異化。通過讓流式和非流式相互對比學習,同時完成兩種模式的訓練。

              研究在開源數據集和易盾業務場景驗證了算法的有效性,結果表明基于對比學習的一體化模型取得了顯著的性能提升。在業務數據上,該方法短期內幫助網易易盾取得了原本需要花一個季度數據積累才能獲得的效果提升。

              此外,在多語言語音場景中,廣泛存在多種語言中的單語語音和包含兩種或以上語言的語碼轉換語音。因此,多語種語音識別系統需要同時支持以上兩種場景語音的識別。為此易盾AI團隊設計了一種引入語種“路由”機制和混合專家系統(MOE)的混合語種識別方法,我們簡稱為LR-MoE。LR-MoE在混合專家模塊將不同語種交給相對應的“專家”模塊進行處理,在降低計算開銷的同時又提升了多語種和混合語種的識別效果。

              實際業務中,用戶在使用多語種語音識別系統時往往存在以下需求:

              1. 人工配置語種實現對特定語種的語音識別能力,如特定國家或地區的內容平臺;

              2. 未知語種信息時支持對任意語種語音的自動識別,如多語種內容平臺。

              結合實際業務需求和上述提出的方法,易盾AI團隊設計了基于LR-MoE的多語種語音識別架構,通過模型內置、靈活可配的幀級語種分類器,支持多語言多需求的智能語音內容檢測。

              上述架構能同時支持多語言單語和語碼轉換語音的識別,減少語種間的混淆,在實際多語種業務中識別效果相對提升10%以上;并支持用戶主動配置語言和自適應識別兩種使用模式,賦能出海企業的智能語音內容風控。

              03.

              學術頂會常客:易盾AI實驗室

              網易易盾作為網易集團旗下一站式數字內容風控品牌,為面向數字化業務的客戶提供專業可靠的安全服務,涵蓋內容安全、業務安全、移動安全三大領域,全方位保障客戶業務合規、穩健和安全運營。

              網易易盾很早就認識到技術的創新可以為產品和服務帶來呈幾何增長的價值提升,設立了網易易盾AI實驗室,此次入選的兩篇論文均出自于該團隊。作為網易易盾下設的始終走在人工智能研究前沿的技術團隊,易盾AI實驗室致力于圍繞精細化、輕量化、敏捷化打造全面嚴謹、安全可信的AI技術能力,不斷提升數字內容風控服務水平。在這之前,團隊曾獲得多項 AI 算法競賽冠軍及重要獎勵榮譽:

              · 2019年第一屆中國人工智能大賽 旗幟識別賽道最高級A級證書;

              · 2020年第二屆中國人工智能大賽 視頻深度偽造檢測賽道最高級A級證書;

              · 2021年第三屆中國人工智能大賽 視頻深度偽造檢測和音頻深度偽造檢測賽道兩項最高級A級證書;

              · 2021年中國人工智能產業發展聯盟“創新之星”、“創新人物”;

              · 2021年第十六屆全國人機語音通訊學術會議(NCMMSC2021)“長短視頻多語種多模態識別競賽”—漢語長短視頻直播語音關鍵詞(VKW)雙賽道冠軍;

              · 2021年獲得浙江省政府頒發的科學技術進步獎一等獎;

              · 2022年ICPR多模態字幕識別比賽(Multimodal Subtitle Recognition, 簡稱 MSR 競賽,國內首個多模態字幕識別大賽)賽道三“融合視覺和音頻的多模態字幕識別系統”冠軍;

              · 2023年,《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改進,實現更強的模型結構)》論文入選ICASSP。

              已成為頂級學術會議常客的網易易盾AI實驗室,還將在包括語音AI在內的等各AI方向上深入研究,持續用技術為服務創造更大的空間。

              “賈維斯”在彼時2008年《鋼鐵俠》上映之時,看似觸不可及。此時回頭再看,也許“賈維斯”都顯得稍欠想象力。可以確定的是,我們正處在科技大爆炸的前夕,5G、人工智能、物聯網、大數據、云計算等等這一切底層技術的研究都將在未來的數年內不斷誕生各種可以應用在生活中的產品和服務。

              在數字內容風控領域的語音AI研究和應用,網易易盾并不只追求快,我們更加希望我們的步伐是穩健和堅定的,以及切實為客戶創造價值。

              (免責聲明:此文內容為廣告,相關素材由廣告主提供,廣告主對本廣告內容的真實性負責。本網發布目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,請自行核實相關內容。廣告內容僅供讀者參考。)

              (責任編輯:周文凱 )

              關鍵詞:

              上一篇:圖片理解中文全網最強,面壁智能發布千億多模態大模型
              下一篇:最后一頁

              熱點話題

              熱點推薦

              頭條

              ? 亚洲最大成人网色香蕉| 亚洲高清偷拍一区二区三区| 色欲aⅴ亚洲情无码AV| 亚洲综合伊人制服丝袜美腿| 67pao强力打造67194在线午夜亚洲| 亚洲精品V欧洲精品V日韩精品 | 亚洲乱码国产一区网址| 国产成人 亚洲欧洲| 在线观看亚洲专区| 337p日本欧洲亚洲大胆人人| 亚洲精品女同中文字幕| 亚洲欧美日韩中文字幕一区二区三区| 中文字幕 亚洲 有码 在线| 中国亚洲呦女专区| 亚洲熟妇AV日韩熟妇在线| 亚洲日韩看片无码电影| 亚洲人成色99999在线观看| 亚洲乱色熟女一区二区三区蜜臀| 99久久国产亚洲综合精品| 亚洲七久久之综合七久久| 亚洲欧美日韩一区二区三区在线| 亚洲综合色7777情网站777| 亚洲三级在线播放| 亚洲乱码日产精品一二三| 亚洲av日韩专区在线观看| 亚洲精品无码久久久久牙蜜区| 亚洲AV无码专区国产乱码不卡| 亚洲?V乱码久久精品蜜桃 | 国产国拍亚洲精品福利| 亚洲午夜福利AV一区二区无码| 亚洲春色在线视频| 久久久久亚洲AV无码麻豆| 亚洲欧洲中文日产| 亚洲综合激情五月色一区| 国产成人精品日本亚洲语音| 亚洲福利精品一区二区三区| 不卡一卡二卡三亚洲| 亚洲AV成人精品网站在线播放| 亚洲自偷精品视频自拍| 亚洲人成77777在线观看网| 亚洲AV无码国产剧情|