色婷婷亚洲十月十月色天,国产亚洲AV手机在线观看,亚洲成人高清在线观看

Meta 公司的研究人員發(fā)表了一系列關于 MAE(masked auto-encoder，掩碼自編碼器)的新論文。MAE 系統(tǒng)可以通過 SSL 技術(self-supervised learning，自主監(jiān)督學習)預測數據中缺失的部分，進而還原殘缺的文本、圖像、視頻和音頻。

MAE 系統(tǒng)還原不同類型文件的通用原理，就是根據已有信息預測缺失內容，再用其它數據彌補。

通過這項技術，AI 或許能夠自動進行數據標注(ground truth)，而不用再通過人工標注。這就意味著，AI 模型的學習效率得到很大提升，這或許為 AI 模型的未來發(fā)展帶來了新思路。

一、智力的本質是預測能力，SSL 技術可以提升 AI 智能水平

MAE 系統(tǒng)使用了 SSL 技術(Self-supervised Learning，自監(jiān)督學習)。SSL 是指用于機器學習的標注源于數據本身，而非來自人工標注的一種技術。

MAE 系統(tǒng)可以從非常零散的殘缺數據中預測出丟失的那些部分，從而還原圖像、視頻和音頻。而這就是 MAE 系統(tǒng)構建“世界模型”(world models)的過程。

Meta 的首席 AI 科學家揚?勒昆(Yann LeCun)說：“SSL 技術是 AI 系統(tǒng)構建‘世界模型’(world models)的前提條件。只有具備 SSL 功能后，AI 才能夠像人類一樣具備理性和常識，獲得知識遷移的能力，適應不同環(huán)境。”揚?勒昆表示，如果 MAE 系統(tǒng)可以預測數據中丟失的那部分，這就意味著 AI 能夠理解世界是三維的，擁有一定程度的分辨能力，才有可能預測人的復雜行為。

揚?勒昆(Yann LeCun)告訴外媒 IEEE Spectrum：“我們想創(chuàng)造能像動物和人類一樣進行自主學習的 AI 模型。”揚?勒昆認為，智力的本質就是一種預測能力。這個觀點得到 2018 年圖靈獎得主本吉奧(Yoshua Bengio)的認可，本吉奧也認為對世界進行推理預測的能力是智力的關鍵。

二、填字游戲新玩法?AI 幫你補全畫面

Meta 的 AI 部門的研究人員羅斯?吉爾希克(Ross Girshick)與人合著了一篇關于 MAE 系統(tǒng)原理的論文。論文中提到，Meta 的 MAE 系統(tǒng)建立在一種叫 Transformer 的神經網絡算法上。Transformer 是一類基于注意力機制的神經網絡算法。這種算法可以讓 AI 模型減少對外部信息的依賴，捕捉數據或特征的內部關系，優(yōu)化模型訓練結果。

在處理文本數據時，MAE 系統(tǒng)將會檢測一個缺乏某些數據的文本數據庫。MAE 系統(tǒng)檢測到這些缺失的文本后，會用新的文本塊補充丟失的內容。

這一技術同樣可以遷移到 MAE 系統(tǒng)對靜態(tài)圖像的處理上。研究人員將圖像分解成多個補丁(patch)塊，再讓 MAE 系統(tǒng)彌補缺失的圖像。羅斯?吉爾希克(Ross Girshick)說，這一點是受到了谷歌關于 ViT 模型(Vision Transformer)的啟發(fā)。

ViT 模型(Vision Transformer) 的基本原理就是將 Transformer 架構應用于計算機視覺領域。具體而言，ViT 模型可以將圖片切分為相同大小的補丁塊，給每個補丁塊編碼后再組成圖像序列，機器可以識別這種圖像序列。基于這種啟發(fā)，MAE 系統(tǒng)在預測缺失的圖像時，會把圖像分解成很多小補丁塊，再用新的補丁塊填充丟失的內容。

三、文本和圖像信息密度不同，遮蓋 75% 圖像實驗結果最好

該團隊發(fā)現(xiàn)，因為文本和圖像的信息密度不同，文本和圖像得到最佳還原效果所需遮蓋的數據比例也不同。MAE 系統(tǒng)還原靜態(tài)圖像時，掩蓋 75% 的數據會得到相對最好的結果。但對于文本而言，這個數字是 15%。

語言是人類生成的具有高度語義和信息密集度的符號。每個字符都包含了很多含義，如果句子中丟失的單詞過多，那么 MAE 模型會預測出很多種結果，準確率不高。與此對應，圖像是具有大量空間冗余的自然符號。例如，在同一張圖片上，區(qū)域相近的圖片像素特征相差不大，所以通過模型可以從相鄰的圖像塊中恢復丟失的圖片信息。

羅斯?吉爾希克解釋說，MAE 系統(tǒng)包含兩個工作步驟。首先，MAE 系統(tǒng)會使用編碼器通過數據集學習像素之間的關系。然后，MAE 系統(tǒng)會使用解碼器從蒙版開始重建原始圖像。這兩部分完成后，MAE 系統(tǒng)會丟棄編碼器，轉而使用解碼器用于分類和目標檢測等視覺任務。

羅斯?吉爾希克說：“MAE 系統(tǒng)的解碼器可以完成物體識別等任務，這對我們而言是巨大的收獲。”這意味著，通過 MAE 系統(tǒng)，機器可以自動為數據標注(ground truth)，而不用人工標注數據。

四、MAE 系統(tǒng)可節(jié)省 95% 的視頻計算成本

當 MAE 系統(tǒng)用于處理視頻時，研究人員會遮蓋每幀畫面中 95% 的數據信息。視頻的幀與幀之間有很高的相似性，這意味著視頻比靜態(tài)圖像有更多的信息冗余。Meta 研究人員 Christoph Feichtenhofer 說，通過這種方法，MAE 系統(tǒng)可以減少 95% 的計算成本，這就是 MAE 系統(tǒng)在視頻計算上的一大優(yōu)勢。他還說，這個技術或許可以用于 Facebook 和 Instagram 上的內容審核和任務分類。

而對于音頻的 AI 學習，Meta AI 團隊發(fā)現(xiàn)了一個巧妙的方法。他們把音頻文件轉化為了聲譜圖，換言之，他們把聲音轉化成了圖像。然后他們會再用與圖像相同的處理方法，把聲譜圖的補丁掩蓋起來再進行訓練。盡管該模型目前只能處理幾秒鐘的音頻片段，但已經取得了很好的效果。

音頻系統(tǒng)的工作人員 Bernie Huang 說，這項技術在音頻上的潛在應用包括音頻分類、改善語音通話、更好地找到壓縮音頻文件的方法等。

結語：MAE 系統(tǒng)或有更大應用空間，但要謹慎考慮準確性

MAE 系統(tǒng)可以預測殘缺數據中缺失的部分，進而還原文本、圖片、視頻和音頻。

這個技術有很大的想象空間和應用潛力，例如復原考古遺跡照片、彌補數據丟失的歷史文件等。MAE 系統(tǒng)不僅可能在 AI 領域獲得突破，而且也可能為其它領域帶來驚喜。

但是 MAE 模型也有缺點，基于目前實驗的準確性不可能達到 100%，該模型可能會生成并不存在的內容。人們在使用 MAE 模型還原數據時，需要謹慎考慮和研究這些問題。

關鍵詞： AI視頻計算世界模型掩碼自編碼器學習效率預測能力

讓AI視頻計算成本暴降95% Meta公司MAE系統(tǒng)構建“世界模型”有了新思路

熱點話題

熱點推薦

頭條