網絡語言管理
(資料圖片僅供參考)
近年來,網絡平臺“變體字”“諧音字”“新造詞”現象持續(xù)引發(fā)社會關注。長期以來,博主、短視頻 UP 主、平臺用戶為了躲避平臺監(jiān)管,在內容上采取“諧音”與“變種”等方式發(fā)布不良有害信息,例如將“人民幣”說成“軟妹幣”,把“傻逼”諧音為“傘兵”。
值得注意的是,“變體字”“諧音字”喬裝打扮,也為色情暴力內容傳播提供了便利,為低俗曖昧內容的傳播提供可乘之機。可見,頻繁使用“變體字”“諧音字”不但擾亂了平臺生態(tài),也與漢字的正常使用南轅北轍,誤導公眾,顯然有規(guī)范引導的必要。
不知道從什么時候開始,網絡遍地黑話,但網絡空間同樣需要使用規(guī)范漢字。互聯(lián)網平臺作為新媒體,應與報刊、廣播、電視等傳統(tǒng)媒體一樣使用規(guī)范漢字,且有必要及時發(fā)現不良違規(guī)內容,守護互聯(lián)網內容信息生態(tài)。
·具體要求·
加強漢字使用的規(guī)范化、標準化、信息化勢在必行。今年 1 月,中宣部出版局在京召開規(guī)范使用漢字工作座談會,就出版、影視、媒體等領域加強用字管理。
近期,不少平臺已經采取了行動。B 站呼吁廣大用戶,自覺遵守漢字使用規(guī)范,抵制拙劣字體、錯誤字形等不規(guī)范漢字表達行為,共同維護清朗網絡空間。微博發(fā)布公告稱,將對站內利用諧音字、變體字等“錯別字”發(fā)布、傳播不良信息的違規(guī)行為開展集中整治。
對于互聯(lián)網平臺企業(yè)而言,平臺自身不僅要規(guī)范漢字使用,弘揚中華文化,且有責任要求創(chuàng)作者糾正錯別字內容,嚴控錯別字新增,尤其是對 UGC 內容的審核有了新的要求。在視頻、文章、動態(tài)之外,評論、彈幕等二次創(chuàng)造內容,如出現大量錯別字須酌情處理,避免干預干擾青少年學習漢字。
·解決之道·
隨著人工智能技術的深入發(fā)展,自然語言處理(NLP)的難題不斷迎刃而解,智能化助力文本糾錯。匯聚多種 NLP 算法模型,結合集成策略,易盾實現了對錯誤文本的準確識別及糾錯,并且基于海量文本內容的積累持續(xù)優(yōu)化的識別效果。
易盾建議,自覺遵守漢字使用規(guī)范,抵制拙劣字體、錯誤字形等不規(guī)范漢字表達行為,不僅有利于漢字的規(guī)范化和傳統(tǒng)文化的傳承,同時也有利于打造清朗的網絡空間。
提供針對字詞、語法、標點、專有名詞、時間日期、數值等基礎錯誤內容的檢查與糾錯能力外,也具備重要人物姓名、職位搭配與職位排序等政務相關錯誤內容的檢查與糾錯能力,并將反垃圾和文本糾錯能力融合,能夠更全面地識別違規(guī)有害內容。
圖 | 更多功能請咨詢后臺
1
識別文本中的不規(guī)范應用
易錯詞檢查:易錯詞檢查采用了統(tǒng)計學習與深度學習等較為前沿的自然語言處理技術,利用多模型集成策略實現了對錯誤文本的識別及糾錯。
語法檢查:通過該能力,不僅可以實現對內容中多字、少字、字序顛倒、詞序顛倒類的錯誤進行檢查,還能夠對已有拼寫類錯字錯詞檢查的效果進行優(yōu)化,提升了易錯詞檢查的準確率和查全率。
時間日期檢查:通過該能力,可實現對時間日期的有效性、使用的數字表述方式是否正確、格式是否標準進行檢查。
數字書寫規(guī)范性檢查:通過該能力,可實現對羅馬數字、阿拉伯數字“1”和“0”、書寫是否規(guī)范、是否使用了英文代替進行檢查;對使用大寫字母替代羅馬數字表示序號的錯誤進行檢查。
繁簡誤用:該能力適用于現代文檢查,可較為快速準確地識別出內容中的繁體字,并可提示繁體字對應的簡體字供用戶進行修改。
譯文檢查:通過該能力,可以較為快速、準確地識別出內容中的中文及其譯文,并對譯文的翻譯是否錯誤、拼寫是否錯誤進行檢查。可檢查的范圍包括:專業(yè)名詞術語譯文、常見國家及地區(qū)、城市譯文。
2
加強不良敏感內容審核
涉領土完整類敏感詞檢查:可實現對內容中出現的與臺獨、港獨、藏獨、疆獨等以及與之相關的人物、事件進行檢查。還可對內容中是否存在將我國地區(qū)與國外國家及地區(qū)并列出現的問題進行檢查。
敏感事件檢查:可實現對文中出現的政治敏感事件、社會敏感事件的關鍵詞進行準確識別。
民族宗教類敏感詞檢查:能夠實現對內容中涉及民族、宗教的敏感詞進行快速識別。
不文明用語檢查:能夠實現對內容中出現的低俗色情、暴力恐怖、虛假廣告類用語、不文明用語,以及新華社發(fā)布的禁用詞進行檢查。
·適用場景·
網易易盾深耕語義理解、方言識別、多語種識別等方向的研發(fā),面向互聯(lián)網、廣電、金融等企業(yè)以及政府企事業(yè)單位等提供文本糾錯解決方案,尤其在不良有害內容防范能力上具備優(yōu)勢效果。
互聯(lián)網內容生態(tài)維護
應用場景:違規(guī)內容識別
需求點:清查使用錯別字規(guī)避監(jiān)管、傳播不良有害信息的行為。
易盾將反垃圾和文本糾錯能力進行融合,能夠覆蓋色情、謾罵、廣告、涉政等多個大類的違規(guī)問題,守護平臺內容環(huán)境。
易盾檢查采用統(tǒng)計學習與深度學習等較為前沿的自然語言處理技術,利用多模型集成策略實現了對字詞錯誤文本的識別及糾錯,能夠有效降低錯別字對用戶實際需求的影響。
官方文件發(fā)布
應用場景:政務公文
需求點:政務、宣傳文稿的編輯和校對。
易盾針對政務公文寫作場景,提供領導姓名、職位搭配以及領導排序等政務相關錯誤內容的檢查與糾錯能力,同時也能夠針對字詞、語法、標點、專有名詞、時間日期、數值等基礎錯誤內容進行檢查與糾錯,保障政府公信力。
新聞媒體報道
應用場景:新聞稿件
需求點:媒體、出版社稿件的編輯和校對。
易盾針對新聞稿件寫作場景,提供針對字詞、語法、標點、專有名詞、時間日期、數值等錯誤內容的檢查與糾錯能力,避免出現技術性錯誤,提升稿件寫作質量。
效果總結
易盾的文本糾錯功能識別準確率高,通過幾十個方向的文字檢測,達到專業(yè)編輯糾錯能力的水平,為寫作者提供良好的糾錯服務,在提升寫作效率的同時,自覺杜絕不良信息的傳播。
AI 技術將更高效、更經濟、更準確地助力互聯(lián)網平臺有的放矢,定向整治色情、暴力等內容的諧音變體,兼顧平臺內容的質量與漢字語言的規(guī)范發(fā)展。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
【廣告】
(免責聲明:此文內容為廣告,相關素材由廣告主提供,廣告主對本廣告內容的真實性負責。本網發(fā)布目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,請自行核實相關內容。廣告內容僅供讀者參考。)
關鍵詞: