首頁 > 品牌 > > 正文

              讓AI視頻計算成本暴降95% Meta公司MAE系統(tǒng)構建“世界模型”有了新思路

              2022-07-06 08:34:46    來源:智東西

              Meta 公司的研究人員發(fā)表了一系列關于 MAE(masked auto-encoder,掩碼自編碼器)的新論文。MAE 系統(tǒng)可以通過 SSL 技術(self-supervised learning,自主監(jiān)督學習)預測數據中缺失的部分,進而還原殘缺的文本、圖像、視頻和音頻。

              MAE 系統(tǒng)還原不同類型文件的通用原理,就是根據已有信息預測缺失內容,再用其它數據彌補。

              通過這項技術,AI 或許能夠自動進行數據標注(ground truth),而不用再通過人工標注。這就意味著,AI 模型的學習效率得到很大提升,這或許為 AI 模型的未來發(fā)展帶來了新思路。

              一、智力的本質是預測能力,SSL 技術可以提升 AI 智能水平

              MAE 系統(tǒng)使用了 SSL 技術(Self-supervised Learning,自監(jiān)督學習)。SSL 是指用于機器學習的標注源于數據本身,而非來自人工標注的一種技術。

              MAE 系統(tǒng)可以從非常零散的殘缺數據中預測出丟失的那些部分,從而還原圖像、視頻和音頻。而這就是 MAE 系統(tǒng)構建“世界模型”(world models)的過程。

              Meta 的首席 AI 科學家揚?勒昆(Yann LeCun)說:“SSL 技術是 AI 系統(tǒng)構建‘世界模型’(world models)的前提條件。只有具備 SSL 功能后,AI 才能夠像人類一樣具備理性和常識,獲得知識遷移的能力,適應不同環(huán)境。”揚?勒昆表示,如果 MAE 系統(tǒng)可以預測數據中丟失的那部分,這就意味著 AI 能夠理解世界是三維的,擁有一定程度的分辨能力,才有可能預測人的復雜行為。

              揚?勒昆(Yann LeCun)告訴外媒 IEEE Spectrum:“我們想創(chuàng)造能像動物和人類一樣進行自主學習的 AI 模型。”揚?勒昆認為,智力的本質就是一種預測能力。這個觀點得到 2018 年圖靈獎得主本吉奧(Yoshua Bengio)的認可,本吉奧也認為對世界進行推理預測的能力是智力的關鍵。

              二、填字游戲新玩法?AI 幫你補全畫面

              Meta 的 AI 部門的研究人員羅斯?吉爾希克(Ross Girshick)與人合著了一篇關于 MAE 系統(tǒng)原理的論文。論文中提到,Meta 的 MAE 系統(tǒng)建立在一種叫 Transformer 的神經網絡算法上。Transformer 是一類基于注意力機制的神經網絡算法。這種算法可以讓 AI 模型減少對外部信息的依賴,捕捉數據或特征的內部關系,優(yōu)化模型訓練結果。

              在處理文本數據時,MAE 系統(tǒng)將會檢測一個缺乏某些數據的文本數據庫。MAE 系統(tǒng)檢測到這些缺失的文本后,會用新的文本塊補充丟失的內容。

              這一技術同樣可以遷移到 MAE 系統(tǒng)對靜態(tài)圖像的處理上。研究人員將圖像分解成多個補丁(patch)塊,再讓 MAE 系統(tǒng)彌補缺失的圖像。羅斯?吉爾希克(Ross Girshick)說,這一點是受到了谷歌關于 ViT 模型(Vision Transformer)的啟發(fā)。

              ViT 模型(Vision Transformer) 的基本原理就是將 Transformer 架構應用于計算機視覺領域。具體而言,ViT 模型可以將圖片切分為相同大小的補丁塊,給每個補丁塊編碼后再組成圖像序列,機器可以識別這種圖像序列。基于這種啟發(fā),MAE 系統(tǒng)在預測缺失的圖像時,會把圖像分解成很多小補丁塊,再用新的補丁塊填充丟失的內容。

              三、文本和圖像信息密度不同,遮蓋 75% 圖像實驗結果最好

              該團隊發(fā)現(xiàn),因為文本和圖像的信息密度不同,文本和圖像得到最佳還原效果所需遮蓋的數據比例也不同。MAE 系統(tǒng)還原靜態(tài)圖像時,掩蓋 75% 的數據會得到相對最好的結果。但對于文本而言,這個數字是 15%。

              語言是人類生成的具有高度語義和信息密集度的符號。每個字符都包含了很多含義,如果句子中丟失的單詞過多,那么 MAE 模型會預測出很多種結果,準確率不高。與此對應,圖像是具有大量空間冗余的自然符號。例如,在同一張圖片上,區(qū)域相近的圖片像素特征相差不大,所以通過模型可以從相鄰的圖像塊中恢復丟失的圖片信息。

              羅斯?吉爾希克解釋說,MAE 系統(tǒng)包含兩個工作步驟。首先,MAE 系統(tǒng)會使用編碼器通過數據集學習像素之間的關系。然后,MAE 系統(tǒng)會使用解碼器從蒙版開始重建原始圖像。這兩部分完成后,MAE 系統(tǒng)會丟棄編碼器,轉而使用解碼器用于分類和目標檢測等視覺任務。

              羅斯?吉爾希克說:“MAE 系統(tǒng)的解碼器可以完成物體識別等任務,這對我們而言是巨大的收獲。”這意味著,通過 MAE 系統(tǒng),機器可以自動為數據標注(ground truth),而不用人工標注數據。

              四、MAE 系統(tǒng)可節(jié)省 95% 的視頻計算成本

              當 MAE 系統(tǒng)用于處理視頻時,研究人員會遮蓋每幀畫面中 95% 的數據信息。視頻的幀與幀之間有很高的相似性,這意味著視頻比靜態(tài)圖像有更多的信息冗余。Meta 研究人員 Christoph Feichtenhofer 說,通過這種方法,MAE 系統(tǒng)可以減少 95% 的計算成本,這就是 MAE 系統(tǒng)在視頻計算上的一大優(yōu)勢。他還說,這個技術或許可以用于 Facebook 和 Instagram 上的內容審核和任務分類。

              而對于音頻的 AI 學習,Meta AI 團隊發(fā)現(xiàn)了一個巧妙的方法。他們把音頻文件轉化為了聲譜圖,換言之,他們把聲音轉化成了圖像。然后他們會再用與圖像相同的處理方法,把聲譜圖的補丁掩蓋起來再進行訓練。盡管該模型目前只能處理幾秒鐘的音頻片段,但已經取得了很好的效果。

              音頻系統(tǒng)的工作人員 Bernie Huang 說,這項技術在音頻上的潛在應用包括音頻分類、改善語音通話、更好地找到壓縮音頻文件的方法等。

              結語:MAE 系統(tǒng)或有更大應用空間,但要謹慎考慮準確性

              MAE 系統(tǒng)可以預測殘缺數據中缺失的部分,進而還原文本、圖片、視頻和音頻。

              這個技術有很大的想象空間和應用潛力,例如復原考古遺跡照片、彌補數據丟失的歷史文件等。MAE 系統(tǒng)不僅可能在 AI 領域獲得突破,而且也可能為其它領域帶來驚喜。

              但是 MAE 模型也有缺點,基于目前實驗的準確性不可能達到 100%,該模型可能會生成并不存在的內容。人們在使用 MAE 模型還原數據時,需要謹慎考慮和研究這些問題。

              關鍵詞: AI視頻計算 世界模型 掩碼自編碼器 學習效率 預測能力

              上一篇:為未來研究指明方向 地球上目前已知礦物來源編目完成
              下一篇:最后一頁

              熱點話題

              熱點推薦

              頭條

              ? 亚洲啪啪综合AV一区| 亚洲综合免费视频| 精品亚洲AV无码一区二区| 亚洲伊人tv综合网色| 亚洲色中文字幕无码AV| 国产成人亚洲精品狼色在线 | 亚洲精品免费在线| 亚洲高清中文字幕综合网| 久久久久亚洲AV成人片| 亚洲精品亚洲人成在线麻豆| 亚洲综合在线成人一区| 亚洲国产日韩在线| 精品亚洲成在人线AV无码| 亚洲成a人片在线看| 亚洲看片无码在线视频| 亚洲熟妇无码AV| 亚洲av无码专区青青草原| 日本亚洲中午字幕乱码| 亚洲国产91精品无码专区| 亚洲一级特黄大片在线观看| 国产亚洲精品福利在线无卡一| 亚洲精品一品区二品区三品区| 亚洲VA中文字幕无码毛片| 亚洲免费视频网站| 亚洲日韩乱码中文无码蜜桃臀| 亚洲a级片在线观看| 亚洲经典千人经典日产| 国产亚洲漂亮白嫩美女在线| 亚洲偷自拍拍综合网| 亚洲精品国产品国语在线| 亚洲视频在线观看一区| 亚洲性色高清完整版在线观看| 成人亚洲国产va天堂| 在线观看亚洲电影| 国产亚洲精品美女久久久| 亚洲酒色1314狠狠做| 亚洲精品成人图区| 亚洲美女激情视频| 亚洲综合无码无在线观看| 内射无码专区久久亚洲| 亚洲永久精品ww47|