今年年初,OpenAI 推出了最新一款 AI 視覺模型 CLIP。
相信不少人對它還有些印象,經(jīng)過龐大的數(shù)據(jù)集訓練,CLIP 在圖文識別和融合上展現(xiàn)了驚人的表現(xiàn)力。
例如,輸入文本 “震驚”,AI 能夠準確地通過 “瞪眼”這一關(guān)鍵特征來呈現(xiàn),并且再根據(jù) Text、Face、Logo 等其他文本信息,將其融合成一張新圖像。
通過關(guān)鍵詞理解描繪出一張新圖像對于人類來講可能不是什么難事,但對于 AI 來講,則需要它具有極高的視覺識別和理解能力,包括文本識別和圖像識別。因此,CLIP 模型可以說代表了現(xiàn)有計算機視覺研究的最高水平。
然而,正是這個兼具圖文雙重識別能力的 AI,卻在一張 “紙片”面前翻了車。
怎么回事呢?
AI 上當,“蘋果”變 “iPod”
最近 OpenAI 研究團隊做了一項測試,他們發(fā)現(xiàn) CLIP 能夠輕易被 “攻擊性圖像”誤導。
測試是這樣的,研究人員給 CLIP 輸入了如下一張圖(左圖):
AI 不僅識別出了這是蘋果,甚至還顯示出了它的品種:Granny Smith。
然而,當研究人員給蘋果上貼上一張寫著 iPod 的紙片,結(jié)果 AI 真的被誤導了,如右圖所示,其 iPod 的識別率達到了 99.7%。
研究團隊將此類攻擊稱為 “印刷攻擊”,他們在官方博客中寫道:“通過利用模型強大的文本讀取能力,即使是手寫文字的照片也會欺騙模型。像‘對抗補丁’一樣,這種攻擊在野外場景也有效。”
可以看出,這種印刷攻擊實現(xiàn)起來很簡單,只需要筆和紙即可,而且影響顯著。我們再來看一組案例:
左圖中,AI 成功識別出了貴賓犬(識別率 39.3%)。
但右圖中在貴賓犬身上加上多個 “$$$”字符后,AI 就將其識別成了存錢罐(識別率 52.5%)。
至于為什么會隱含這種攻擊方式,研究人員解釋說,關(guān)鍵在于 CLIP 的多模態(tài)神經(jīng)元—能夠?qū)σ晕谋尽⒎柣蚋拍钚问匠尸F(xiàn)的相同概念作出響應(yīng)。
然而,這種多模態(tài)神經(jīng)元是一把雙刃劍,一方面它可以實現(xiàn)對圖文的高度控制,另一方面遍及文字、圖像的神經(jīng)元也讓 AI 變得更易于攻擊。
“多模態(tài)神經(jīng)元”是根源
那么,CLIP 中的多模態(tài)神經(jīng)元到底是什么樣子呢?
此前,OpenAI 的研究人員發(fā)表了一篇新論文《Multimodal Neurons in Artificial Neural Networks》,描述了他們是如何打開 CLIP 來觀察其性能的。
OpenAI 使用兩種工具來理解模型的激活,分別是特征可視化(通過對輸入進行基于梯度的優(yōu)化來最大化神經(jīng)元激活)、數(shù)據(jù)集示例(觀察數(shù)據(jù)集中神經(jīng)元最大激活圖像的分布)。
通過這些簡單的方法,OpenAI 發(fā)現(xiàn) CLIP RN50x4(使用 EfficientNet 縮放規(guī)則將 ResNet-50 放大 4 倍)中的大多數(shù)神經(jīng)元都可以得到解釋。這些神經(jīng)元似乎是 “多面神經(jīng)元”的極端示例——它們只在更高層次的抽象上對不同用例做出響應(yīng)。
此外,它們不僅對物體的圖像有反應(yīng),而且對草圖、卡通和相關(guān)文本也有反應(yīng)。例如:
對于 CLIP 而言,它能識別蜘蛛俠的圖像,從而其網(wǎng)絡(luò)中存在特定的 “蜘蛛俠”神經(jīng)元可以對蜘蛛俠的真實圖像、漫畫圖像作出響應(yīng),也可以對單詞 “Spider”(蜘蛛)作出響應(yīng)。
OpenAI 團隊表明,人工智能系統(tǒng)可能會像人類一樣將這些知識內(nèi)部化。CLIP 模型意味著未來 AI 會形成更復雜的視覺系統(tǒng),識別出更復雜目標。但這一切處于初級階段。現(xiàn)在任何人在蘋果上貼上帶有 “iPod”字樣的字條,CLIP 之類的模型都無法準確的識別。
如在案例中,CLIP 不僅回應(yīng)了存錢罐的圖片,也響應(yīng)了一串串的美元符號。與上面的例子一樣,如果在電鋸上覆蓋 “ $$”字符串,就可以欺騙 CLIP 將其識別為儲蓄罐。
值得注意的是,CLIP 的多模態(tài)神經(jīng)元的關(guān)聯(lián)偏差,主要是從互聯(lián)網(wǎng)上獲取的數(shù)據(jù)中學到到。研究人員表示,盡管模型是在精選的互聯(lián)網(wǎng)數(shù)據(jù)子集上進行訓練的,但仍學習了其許多不受控制的關(guān)聯(lián)。其中許多關(guān)聯(lián)是良性的,但也有惡性的。
例如,恐怖主義和 “中東”神經(jīng)元相關(guān)聯(lián),拉丁美洲和 “移民”神經(jīng)元相關(guān)聯(lián)。更糟糕的是,有一個神經(jīng)元會和皮膚黝黑的人、大猩猩相關(guān)聯(lián)(這在美國又得引起種族歧視)。
無論是微調(diào)還是零樣本設(shè)置下,這些偏見和惡性關(guān)聯(lián)都可能會保留在系統(tǒng)中,并且在部署期間會以可見和幾乎不可見的方式表現(xiàn)出來。許多偏見行為可能很難先驗地預(yù)測,從而使其測量和校正變得困難。
未部署到商業(yè)產(chǎn)品中
機器視覺模型,旨在用計算機實現(xiàn)人的視覺功能,使計算機具備對客觀世界的三維場景進行感知、識別和理解的能力。不難想象,它在現(xiàn)實世界有著廣泛的應(yīng)用場景,如自動駕駛、工業(yè)制造、安防、人臉識別等。
對于部分場景來說,它對機器視覺模型準確度有著極高的要求,尤其是自動駕駛領(lǐng)域。
例如,此前來自以色列本 · 古里安大學和美國佐治亞理工學院的研究人員曾對特斯拉自動駕駛系統(tǒng)開展過一項測試。他們在路邊的廣告牌的視頻中添加了一張 “漢堡攻擊圖像”,并將停留時間設(shè)置為了 0.42 秒。
在特斯拉汽車行駛至此時,雖然圖像只是一閃而過,但還是特斯拉還是捕捉到了 “信號”,并采取了緊急剎車。這項測試意味著,自動駕駛的視覺識別系統(tǒng)仍存在明顯的漏洞。
此外,還有研究人員表明,通過簡單地在路面上貼上某些標簽,也可以欺騙特斯拉的自動駕駛軟件,在沒有警告的情況下改變車道。
這些攻擊對從醫(yī)療到軍事的各種人工智能應(yīng)用都是一個嚴重的威脅。
但從目前來看,這種特定攻擊仍在可控范圍內(nèi),OpenAI 研究人員強調(diào),CLIP 視覺模型尚未部署到任何商業(yè)產(chǎn)品中。