Meta 公司的研究人員發(fā)表了一系列關于 MAE(masked auto-encoder,掩碼自編碼器)的新論文。MAE 系統(tǒng)可以通過 SSL 技術(self-supervised learning,自主監(jiān)督學習)預測數據中缺失的部分,進而還原殘缺的文本、圖像、視頻和音頻。
MAE 系統(tǒng)還原不同類型文件的通用原理,就是根據已有信息預測缺失內容,再用其它數據彌補。
通過這項技術,AI 或許能夠自動進行數據標注(ground truth),而不用再通過人工標注。這就意味著,AI 模型的學習效率得到很大提升,這或許為 AI 模型的未來發(fā)展帶來了新思路。
一、智力的本質是預測能力,SSL 技術可以提升 AI 智能水平
MAE 系統(tǒng)使用了 SSL 技術(Self-supervised Learning,自監(jiān)督學習)。SSL 是指用于機器學習的標注源于數據本身,而非來自人工標注的一種技術。
MAE 系統(tǒng)可以從非常零散的殘缺數據中預測出丟失的那些部分,從而還原圖像、視頻和音頻。而這就是 MAE 系統(tǒng)構建“世界模型”(world models)的過程。
Meta 的首席 AI 科學家揚?勒昆(Yann LeCun)說:“SSL 技術是 AI 系統(tǒng)構建‘世界模型’(world models)的前提條件。只有具備 SSL 功能后,AI 才能夠像人類一樣具備理性和常識,獲得知識遷移的能力,適應不同環(huán)境。”揚?勒昆表示,如果 MAE 系統(tǒng)可以預測數據中丟失的那部分,這就意味著 AI 能夠理解世界是三維的,擁有一定程度的分辨能力,才有可能預測人的復雜行為。
揚?勒昆(Yann LeCun)告訴外媒 IEEE Spectrum:“我們想創(chuàng)造能像動物和人類一樣進行自主學習的 AI 模型。”揚?勒昆認為,智力的本質就是一種預測能力。這個觀點得到 2018 年圖靈獎得主本吉奧(Yoshua Bengio)的認可,本吉奧也認為對世界進行推理預測的能力是智力的關鍵。
二、填字游戲新玩法?AI 幫你補全畫面
Meta 的 AI 部門的研究人員羅斯?吉爾希克(Ross Girshick)與人合著了一篇關于 MAE 系統(tǒng)原理的論文。論文中提到,Meta 的 MAE 系統(tǒng)建立在一種叫 Transformer 的神經網絡算法上。Transformer 是一類基于注意力機制的神經網絡算法。這種算法可以讓 AI 模型減少對外部信息的依賴,捕捉數據或特征的內部關系,優(yōu)化模型訓練結果。
在處理文本數據時,MAE 系統(tǒng)將會檢測一個缺乏某些數據的文本數據庫。MAE 系統(tǒng)檢測到這些缺失的文本后,會用新的文本塊補充丟失的內容。
這一技術同樣可以遷移到 MAE 系統(tǒng)對靜態(tài)圖像的處理上。研究人員將圖像分解成多個補丁(patch)塊,再讓 MAE 系統(tǒng)彌補缺失的圖像。羅斯?吉爾希克(Ross Girshick)說,這一點是受到了谷歌關于 ViT 模型(Vision Transformer)的啟發(fā)。
ViT 模型(Vision Transformer) 的基本原理就是將 Transformer 架構應用于計算機視覺領域。具體而言,ViT 模型可以將圖片切分為相同大小的補丁塊,給每個補丁塊編碼后再組成圖像序列,機器可以識別這種圖像序列。基于這種啟發(fā),MAE 系統(tǒng)在預測缺失的圖像時,會把圖像分解成很多小補丁塊,再用新的補丁塊填充丟失的內容。
三、文本和圖像信息密度不同,遮蓋 75% 圖像實驗結果最好
該團隊發(fā)現(xiàn),因為文本和圖像的信息密度不同,文本和圖像得到最佳還原效果所需遮蓋的數據比例也不同。MAE 系統(tǒng)還原靜態(tài)圖像時,掩蓋 75% 的數據會得到相對最好的結果。但對于文本而言,這個數字是 15%。
語言是人類生成的具有高度語義和信息密集度的符號。每個字符都包含了很多含義,如果句子中丟失的單詞過多,那么 MAE 模型會預測出很多種結果,準確率不高。與此對應,圖像是具有大量空間冗余的自然符號。例如,在同一張圖片上,區(qū)域相近的圖片像素特征相差不大,所以通過模型可以從相鄰的圖像塊中恢復丟失的圖片信息。
羅斯?吉爾希克解釋說,MAE 系統(tǒng)包含兩個工作步驟。首先,MAE 系統(tǒng)會使用編碼器通過數據集學習像素之間的關系。然后,MAE 系統(tǒng)會使用解碼器從蒙版開始重建原始圖像。這兩部分完成后,MAE 系統(tǒng)會丟棄編碼器,轉而使用解碼器用于分類和目標檢測等視覺任務。
羅斯?吉爾希克說:“MAE 系統(tǒng)的解碼器可以完成物體識別等任務,這對我們而言是巨大的收獲。”這意味著,通過 MAE 系統(tǒng),機器可以自動為數據標注(ground truth),而不用人工標注數據。
四、MAE 系統(tǒng)可節(jié)省 95% 的視頻計算成本
當 MAE 系統(tǒng)用于處理視頻時,研究人員會遮蓋每幀畫面中 95% 的數據信息。視頻的幀與幀之間有很高的相似性,這意味著視頻比靜態(tài)圖像有更多的信息冗余。Meta 研究人員 Christoph Feichtenhofer 說,通過這種方法,MAE 系統(tǒng)可以減少 95% 的計算成本,這就是 MAE 系統(tǒng)在視頻計算上的一大優(yōu)勢。他還說,這個技術或許可以用于 Facebook 和 Instagram 上的內容審核和任務分類。
而對于音頻的 AI 學習,Meta AI 團隊發(fā)現(xiàn)了一個巧妙的方法。他們把音頻文件轉化為了聲譜圖,換言之,他們把聲音轉化成了圖像。然后他們會再用與圖像相同的處理方法,把聲譜圖的補丁掩蓋起來再進行訓練。盡管該模型目前只能處理幾秒鐘的音頻片段,但已經取得了很好的效果。
音頻系統(tǒng)的工作人員 Bernie Huang 說,這項技術在音頻上的潛在應用包括音頻分類、改善語音通話、更好地找到壓縮音頻文件的方法等。
結語:MAE 系統(tǒng)或有更大應用空間,但要謹慎考慮準確性
MAE 系統(tǒng)可以預測殘缺數據中缺失的部分,進而還原文本、圖片、視頻和音頻。
這個技術有很大的想象空間和應用潛力,例如復原考古遺跡照片、彌補數據丟失的歷史文件等。MAE 系統(tǒng)不僅可能在 AI 領域獲得突破,而且也可能為其它領域帶來驚喜。
但是 MAE 模型也有缺點,基于目前實驗的準確性不可能達到 100%,該模型可能會生成并不存在的內容。人們在使用 MAE 模型還原數據時,需要謹慎考慮和研究這些問題。