只要稍微動點(diǎn)手腳,就會給 AI 模型的魯棒性帶來挑戰(zhàn)。在 AI 眼里,下面這兩張圖片可能毫無關(guān)聯(lián)。
不過,F(xiàn)acebook AI 在近日開源了用于數(shù)據(jù)增強(qiáng)的新 Python 庫 ——AugLy。
使用 AugLy 數(shù)據(jù)增強(qiáng)訓(xùn)練 AI 模型,訓(xùn)練后 AI 可以對用戶上傳的內(nèi)容,進(jìn)行更精確的識別,有助于識別盜版圖文音視頻。
它支持音頻、圖像、視頻和文本 4 種模態(tài),提供了超過 100 種數(shù)據(jù)增強(qiáng)功能,可以對輸入內(nèi)容進(jìn)行多種處理。
比如,改變文字的大小寫、字體、編碼方式,給文本添加標(biāo)點(diǎn)、調(diào)整字母位置、模擬錯別字,以及裁剪、旋轉(zhuǎn)圖片,給圖片加文字、增加飽和度、增加亮度、改變清晰度等。
這一項(xiàng)目已經(jīng)獲得 1.8k 顆星,并且登上了 GitHub 熱榜。
讓 AI 識別「截屏轉(zhuǎn)發(fā)」
AugLy 的目的是涵蓋現(xiàn)實(shí)網(wǎng)絡(luò)中具體的數(shù)據(jù)增強(qiáng),用來創(chuàng)建樣本,從而訓(xùn)練和測試模型。
根據(jù) Facebook 和 Instagram 等平臺上的生活圖像和視頻,AugLy 在統(tǒng)一的庫和 API 下轉(zhuǎn)換項(xiàng)目的所有數(shù)據(jù),提供了超過 100 種數(shù)據(jù)增強(qiáng)方式。
其中包括 4 個子庫,分別對應(yīng)音頻、圖像、視頻和文本 4 種模態(tài)。
這些子庫包括基于函數(shù)和類的變換、組合,并且可以選擇所應(yīng)用的元數(shù)據(jù)及其強(qiáng)度。
以圖片處理為例,AugLy 可以對圖片進(jìn)行裁剪、旋轉(zhuǎn)、添加噪聲、模糊處理、灰度處理等。
除了包含許多通用的增強(qiáng)功能,AugLy 更大的特點(diǎn)在于 ——提供“互聯(lián)網(wǎng)用戶”類型的數(shù)據(jù)增強(qiáng)方式。
比如,把圖片轉(zhuǎn)換成屏幕截圖的樣式,更加符合生活中常見的樣子。
使用 AugLy 數(shù)據(jù)增強(qiáng)訓(xùn)練 AI 模型,這些內(nèi)容相同而形式不同的信息,能幫助模型提高魯棒性。
在復(fù)制檢測、言論檢測或版權(quán)侵權(quán)等工作中,訓(xùn)練后 AI 可以對用戶上傳的內(nèi)容,進(jìn)行更精確的識別。
此外,AugLy 已經(jīng)被用于 Deepfake 檢測挑戰(zhàn)賽,用來評估模型的魯棒性。
網(wǎng)友熱議
這個新的 Python 庫也受到了網(wǎng)友們的關(guān)注,在 Reddit 上獲得了 350 + 贊。
有網(wǎng)友提出疑問:文本模塊只支持英語嗎?
一位熱心網(wǎng)友表示:
看起來文本模塊在很大程度上是對 nlpaug 的一種包裝,因此 AugLy 支持其他語言,只需修改幾個參數(shù)。
也有網(wǎng)友提出,為什么不直接把它加到 pytorch 里?
對此,有人回復(fù)道:
這樣在安裝的時候會很慢,有需要的的人單獨(dú)安裝就可以了,沒必要讓 pytorch 那么臃腫。
AugLy 要求 Python 3.6 以上版本,通過 pip 安裝,但是在虛擬環(huán)境和系統(tǒng)環(huán)境中,還需要用 conda 和 sudo apt-get 命令單獨(dú)安裝 python-magic。
比較遺憾的是,AugLy 目前不支持輸入批量圖像,不過開發(fā)人員表示,以后將會完善這一功能。