近日,倫斯勒理工學(xué)院的兩位科學(xué)家撰寫(xiě)了一本名為《人工智能時(shí)代語(yǔ)言學(xué)(Linguistics for the Age of AI)》的書(shū)。
該書(shū)探討了目前的人工智能學(xué)習(xí)方法在自然語(yǔ)言理解 (natural language understanding,NLU) 中的瓶頸,并嘗試探索未來(lái)發(fā)展智能代理(intelligent agents)的途徑。
《人工智能時(shí)代語(yǔ)言學(xué)》的作者 Marjorie McShane 和 Sergei Nirenburg 發(fā)現(xiàn)了一種突破人工智能學(xué)習(xí)語(yǔ)言瓶頸的新方法,并稱(chēng)為“語(yǔ)言賦能智能體(Language endowed intelligent agents,LEIA)”。該方法能在減少訓(xùn)練模型數(shù)據(jù)量的情況下,進(jìn)一步提升人工智能理解人類(lèi)語(yǔ)言的準(zhǔn)確性。
他們認(rèn)為,人工智能系統(tǒng)必須超越對(duì)詞語(yǔ)字面意思理解的范疇。他們?cè)跁?shū)中用案例顯示了,自然語(yǔ)言理解系統(tǒng)能夠幫助人工智能理解世界、向人類(lèi)解釋他們的知識(shí)并在探索世界的過(guò)程中學(xué)習(xí)。
一、AI 學(xué)語(yǔ)言的兩種方法:被動(dòng)告知 or 主動(dòng)學(xué)習(xí)?
例如一個(gè)歧義語(yǔ)句的案例:“開(kāi)刀的是她父親”。這句話(huà)有兩種理解方式,她的父親是醫(yī)生去操作開(kāi)刀手術(shù),或者她的父親是被醫(yī)生開(kāi)刀的患者。
有些語(yǔ)句單獨(dú)看充滿(mǎn)了歧義,但人類(lèi)能夠通過(guò)語(yǔ)境來(lái)解決這些歧義。我們通過(guò)說(shuō)話(huà)者的語(yǔ)氣、語(yǔ)境和對(duì)話(huà)的一般邏輯以及生活基本常識(shí)的線(xiàn)索來(lái)構(gòu)建上下文。當(dāng)我們的直覺(jué)和知識(shí)未能幫助我們理解句子的時(shí)候,我們會(huì)提出疑問(wèn)。對(duì)我們(人類(lèi))來(lái)說(shuō),確定上下文的過(guò)程是很容易的。但是讓計(jì)算機(jī)用程序思維來(lái)理解相同的過(guò)程并不簡(jiǎn)單。
科學(xué)家提出了兩種方式來(lái)嘗試解決這個(gè)問(wèn)題。
第一種方式是科學(xué)家在人工智能發(fā)展的初期使用的。科學(xué)家通過(guò)知識(shí)庫(kù)(Knowledge-based)系統(tǒng)來(lái)確定句子中的每一個(gè)單詞的作用,并提取上下文的含義。但知識(shí)庫(kù)系統(tǒng)依賴(lài)大量的關(guān)于語(yǔ)言、情境和世界的特征(features)。這些信息可能有著各自的來(lái)源,并且(在計(jì)算機(jī)中)需要獨(dú)立的計(jì)算方式。
知識(shí)庫(kù)提供了可靠(reliable)和可解釋(explainable)的語(yǔ)言分析方法。但后來(lái)它們逐漸“失寵”了,因?yàn)樗鼈冃枰嗟娜肆?lái)設(shè)計(jì)特征、創(chuàng)建詞匯結(jié)構(gòu)(lexical structures)和本體(ontologies),以及開(kāi)發(fā)將所有這些部分結(jié)合在一起的軟件系統(tǒng)。研究人員認(rèn)為知識(shí)工程(knowledge engineering)的瓶頸是手動(dòng)工作(manual effort,大量的人工操作且不能窮舉所有結(jié)果),他們嘗試尋求其他方法來(lái)進(jìn)行語(yǔ)言處理(language processing)。
“公眾認(rèn)為任何試圖克服這種所謂的知識(shí)瓶頸的努力都是徒勞的,這深刻影響了人工智能的發(fā)展道路,特別是自然語(yǔ)言處理,使該領(lǐng)域遠(yuǎn)離了理性主義、基于知識(shí)的方法,并促成了經(jīng)驗(yàn)主義的出現(xiàn)。”McShane 和 Nirenburg 在《人工智能時(shí)代的語(yǔ)言學(xué)》中寫(xiě)道。
近幾十年來(lái),機(jī)器學(xué)習(xí)算法(machine learning algorithms)已經(jīng)成為神經(jīng)語(yǔ)言程序?qū)W(Neuro-Linguistic Programming,NLP)和自然語(yǔ)言理解(Natural Language Understanding,NLU)的核心。
部分科學(xué)家逐漸開(kāi)始使用第二種方式,利用知識(shí)學(xué)習(xí)系統(tǒng)(knowledge-lean systems)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,使人工智能通過(guò)統(tǒng)計(jì)關(guān)系來(lái)處理語(yǔ)境問(wèn)題。在訓(xùn)練過(guò)程中,機(jī)器學(xué)習(xí)模型需要處理大量的文本資料,并根據(jù)單詞與單詞相鄰位置的方式來(lái)調(diào)整其參數(shù)。在這些模型中,語(yǔ)境是由單詞序列之間的統(tǒng)計(jì)關(guān)系決定的,而不是單詞背后的含義。不過(guò),數(shù)據(jù)集越大,例子越多樣化,這些數(shù)字參數(shù)就越能捕捉到單詞彼此之間的各種出現(xiàn)方式(能夠記錄單詞與單詞的排列參數(shù))。
知識(shí)學(xué)習(xí)系統(tǒng)之所以得到普及,主要是因?yàn)榇罅康挠?jì)算資源和大型數(shù)據(jù)集可以被用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。通過(guò)維基百科等公共數(shù)據(jù)庫(kù),科學(xué)家們已經(jīng)能夠收集龐大的數(shù)據(jù)集,并針對(duì)翻譯、文本生成和問(wèn)答等各種任務(wù),設(shè)置機(jī)器學(xué)習(xí)的專(zhuān)項(xiàng)訓(xùn)練。
二、機(jī)器記錄了數(shù)據(jù)并不意味“理解”了數(shù)據(jù)
今天,我們的深度學(xué)習(xí)模型可以生成文章長(zhǎng)度的文本序列,回答科學(xué)考試問(wèn)題,編寫(xiě)軟件源代碼以及回答基本的客戶(hù)服務(wù)查詢(xún)。這些領(lǐng)域之所以能取得進(jìn)展,是因?yàn)樯疃葘W(xué)習(xí)架構(gòu)(LSTMs,Transformers)得到了改進(jìn)。更重要的是,神經(jīng)網(wǎng)絡(luò)研究每年都有新的進(jìn)展。
但是,雖然更大的深度神經(jīng)網(wǎng)絡(luò)可以在特定任務(wù)上逐步取得進(jìn)展,但它們并不能解決“通用自然語(yǔ)言理解(general natural language understanding)”這一更寬泛的問(wèn)題。這就是為什么各種實(shí)驗(yàn)表明,即使是最復(fù)雜的語(yǔ)言模型也無(wú)法回答有關(guān)世界是如何運(yùn)作的簡(jiǎn)單問(wèn)題。
在 McShane 和 Nirenburg 的書(shū)中,他們把目前人工智能系統(tǒng)解決的問(wèn)題描述為“唾手可得的水果(low-hanging fruit)”任務(wù)。一些科學(xué)家認(rèn)為,繼續(xù)沿著神經(jīng)網(wǎng)絡(luò)的道路前進(jìn),最終會(huì)解決機(jī)器學(xué)習(xí)正面的語(yǔ)言學(xué)問(wèn)題。但 McShane 和 Nirenburg 認(rèn)為,還有更根本的問(wèn)題需要解決。
“當(dāng)前的系統(tǒng)不像人類(lèi),它們不知道自己在做什么以及為什么這樣做。它們解決問(wèn)題的方法也不像人類(lèi),而且它們不依賴(lài)于世界、語(yǔ)言或機(jī)構(gòu)的互動(dòng)。”他們寫(xiě)道,“相反,它們?cè)诤艽蟪潭壬弦蕾?lài)于將通用機(jī)器學(xué)習(xí)算法應(yīng)用于越來(lái)越大的數(shù)據(jù)集,并得到現(xiàn)代計(jì)算機(jī)驚人的速度和存儲(chǔ)容量的支持。”
三、真正了解學(xué)習(xí)意義的 AI 才真“智能”
身為認(rèn)知科學(xué)家和計(jì)算語(yǔ)言學(xué)家的 McShane 表示,機(jī)器學(xué)習(xí)必須克服幾個(gè)障礙,其中首先是意義的缺失(真正讓計(jì)算機(jī)了解學(xué)習(xí)的意義,而不是單純的背答案)。
“統(tǒng)計(jì)/機(jī)器學(xué)習(xí)(The statistical/machine learning,S-ML)方法并不試圖計(jì)算意義(compute meaning)(目前的計(jì)算機(jī)學(xué)習(xí)僅能進(jìn)行數(shù)據(jù)處理,并不能真正理解數(shù)據(jù)的含義)。”McShane 說(shuō)。“從業(yè)者(部分研究人員)認(rèn)為單詞(在句子中)足夠代表它的含義,但事實(shí)并非如此。當(dāng)涉及到完整的上下文意義時(shí),一個(gè)句子中的單詞(意思)只是冰山一角。對(duì)人工智能來(lái)說(shuō),混淆詞語(yǔ)的含義就像把船開(kāi)向冰山一樣令人擔(dān)憂(yōu)(人工智能在不能完全正確理解語(yǔ)言指令含義的時(shí)候,會(huì)導(dǎo)致后續(xù)的一系列錯(cuò)誤)。”
在大多數(shù)情況下,機(jī)器學(xué)習(xí)系統(tǒng)通過(guò)縮小任務(wù)范圍或擴(kuò)大數(shù)據(jù)集來(lái)回避處理詞義的問(wèn)題。但是,即使一個(gè)大型的神經(jīng)網(wǎng)絡(luò)能夠“創(chuàng)作”一段長(zhǎng)文本并保持語(yǔ)義的連貫性,它仍然不能理解它所“寫(xiě)”的詞句的含義。
“人們可以搭建一個(gè)看起來(lái)十分“智能”的系統(tǒng),但實(shí)際上它們(人工智能)并不知道發(fā)生了什么(例如,GPT-3)。”McShane 說(shuō)。
所有基于深度學(xué)習(xí)的語(yǔ)言模型,只要你問(wèn)它們一系列瑣碎但相關(guān)的問(wèn)題,它們就會(huì)開(kāi)始崩潰,因?yàn)樗鼈兊膮?shù)無(wú)法捕捉日常生活中無(wú)限的復(fù)雜性。在這個(gè)問(wèn)題上投入更多的數(shù)據(jù)并不能讓它們變得更加“智能”。
四、賦能 AI 突破語(yǔ)言學(xué)習(xí)的瓶頸
在他們的書(shū)中,McShane 和 Nirenburg 提出了一種不需要求助于純機(jī)器學(xué)習(xí)(純機(jī)器學(xué)習(xí)需要大量數(shù)據(jù)),而且解決了自然語(yǔ)言理解的“知識(shí)瓶頸”的方法,它被稱(chēng)為“語(yǔ)言賦能智能體(LEIA)”。它有三個(gè)關(guān)鍵特征:
1.LEIAs 能夠理解敏感語(yǔ)境下的語(yǔ)言含義,不至于造成歧義。
2.LEIAs 可以向人類(lèi)解釋它們(AI)的思想、行動(dòng)和決策
3.LEIAs 能夠在與“世界”互動(dòng)中終身自主學(xué)習(xí),減少人類(lèi)對(duì)其擴(kuò)展知識(shí)庫(kù)的需求。
LEIAs 對(duì)自然語(yǔ)言進(jìn)行了六個(gè)階段的處理,從確定單詞在句子中的作用,到語(yǔ)義分析,最后到情景推理。這些階段使得 LEIA 能夠解決單詞和短語(yǔ)不同含義之間的沖突,并將句子整合到主體工作的更廣泛的環(huán)境中(將句子的表達(dá)方式調(diào)整的更像人類(lèi)的語(yǔ)言)。
LEIA 為它們的語(yǔ)言表達(dá)設(shè)置了信心水平,并知道它們的技能(語(yǔ)言技巧)和知識(shí)在哪里達(dá)到了它們的極限。在遇到理解力的極限的情況下,它們能與人類(lèi) (或其他高等智能) 進(jìn)行交互以解決語(yǔ)言歧義的問(wèn)題。這些互動(dòng)反過(guò)來(lái)使它們能夠?qū)W習(xí)新事物,擴(kuò)大它們的知識(shí)儲(chǔ)備。
LEIA 將句子轉(zhuǎn)化為文本意義表述(text-meaning representations,TMR),即句子中每個(gè)詞的可解釋和可操作的定義。根據(jù)其(語(yǔ)句)背景和目標(biāo),LEIA 決定哪些語(yǔ)言需要跟進(jìn)處理。例如,如果一個(gè)維修機(jī)器人與幾個(gè)人類(lèi)技術(shù)人員處在同一個(gè)機(jī)器維修的車(chē)間,而人類(lèi)在討論昨天的體育比賽結(jié)果,那么人工智能應(yīng)該能夠區(qū)分與它的工作(機(jī)器維修)相關(guān)的句子和它可以忽略的句子(體育)。
LEIAs 主要使用 knowledge-based systems,但它們也在處理語(yǔ)言的過(guò)程中使用了機(jī)器學(xué)習(xí)模型,特別是在語(yǔ)言處理句子解析的初始階段。
五、AI 真的需要模擬人類(lèi)大腦思維嗎?
LEIA 的主要特點(diǎn)之一是整合了知識(shí)庫(kù)(knowledge bases)、推理模塊(reasoning modules)和感覺(jué)輸入(sensory input)。目前,計(jì)算機(jī)視覺(jué)(computer vision)和自然語(yǔ)言處理等領(lǐng)域的重疊很少。
正如 McShane 和 Nirenburg 在他們的書(shū)中所指出的,“語(yǔ)言理解不能脫離整體認(rèn)知(overall agent cognition),因?yàn)檎Z(yǔ)言理解有時(shí)也需要其他感知模式(如視覺(jué))的輔助。
在現(xiàn)實(shí)世界中,人類(lèi)利用豐富的感官體驗(yàn)來(lái)填補(bǔ)語(yǔ)言表達(dá)的空白(例如,當(dāng)有人告訴您“看那邊?”時(shí),他們假設(shè)您可以看到他們的手指指向的位置,并補(bǔ)充信息)。人類(lèi)對(duì)話(huà)的思維邏輯能做出假設(shè)并省略語(yǔ)言中的細(xì)節(jié)。我們希望與我們交互的智能代理(intelligent agent)都具有類(lèi)似的功能。
“我們完全理解為什么單獨(dú)處理的方式(silo approaches)是現(xiàn)在的常態(tài),畢竟解決每一個(gè)問(wèn)題都很困難,而且每個(gè)問(wèn)題都需要單獨(dú)進(jìn)行研究,”McShane 說(shuō)。“然而,如果不進(jìn)行整合,問(wèn)題是無(wú)法從根源解決的(人工智能語(yǔ)言學(xué)習(xí)的發(fā)展應(yīng)該整合多個(gè)模式)。”
同時(shí),實(shí)現(xiàn)類(lèi)似人類(lèi)的思考邏輯并不要求 LEIA 完全復(fù)制人類(lèi)大腦。McShane 說(shuō):“至少在這個(gè)發(fā)展階段,神經(jīng)科學(xué)(neuroscience)不能為我們的認(rèn)知建模(cognitive modeling)提供任何語(yǔ)法上和內(nèi)容上的幫助。”McShane 和 Nirenburg 認(rèn)為,復(fù)制大腦并不能為人工智能解釋目標(biāo)(語(yǔ)句)所服務(wù)。
結(jié)語(yǔ):讓 AI 像人一樣使用語(yǔ)言仍需時(shí)間
McShane 和 Nirenburg 提出了 LEIA 作為新的人工智能學(xué)習(xí)方法,這不僅減少了訓(xùn)練所需的數(shù)據(jù)量,而且解決了自然語(yǔ)言理解存在的“知識(shí)瓶頸”問(wèn)題。
同時(shí),他們也承認(rèn)開(kāi)發(fā) LEIA 是一個(gè)持續(xù)的、長(zhǎng)期的、范圍廣泛的工作計(jì)劃,有很多工作需要做。而最終的目標(biāo)就是“使機(jī)器能夠像人類(lèi)一樣熟練地使用語(yǔ)言”。