新京報貝殼財經訊(記者 羅亦丹)11月8日,貝殼財經記者從阿里巴巴達摩院獲悉,其多模態大模型M6最新參數已從萬億躍遷至10萬億,規模超過了谷歌、微軟此前發布的萬億級模型,成為全球最大的AI預訓練模型。
貝殼財經記者觀察到,2021年以來,AI訓練模型的規模不斷擴大。據不完全統計,這些大模型包括年初華為發布的1000億參數盤古大模型、1.6萬億參數的Google switch transformer模型、1.75萬億參數的智源悟道2.0智能模型、1.9萬億參數的快手精排模型等。其中,阿里達摩院M6模型上一次公布的參數規模為1萬億。
據了解,與傳統AI相比,大模型擁有成百上千倍“神經元”數量,且預先學習過海量知識,表現出像人類一樣“舉一反三”的學習能力。因此,大模型被普遍認為是未來的“基礎模型”,將成下一代AI基礎設施。
“近年來人工智能的發展應該從家家戶戶‘大煉模型’的狀態逐漸變為把資源匯聚起來,訓練超大規模模型的階段,通過設計先進的算法,整合盡可能多的數據,匯聚大量算力,集約化地訓練大模型,供大量企業使用,這是必然趨勢?!北本┐髮W信息科學技術學院教授黃鐵軍此前告訴貝殼財經記者。
需要注意的是,訓練大模型的算力成本相當高昂,如訓練1750億參數語言大模型GPT-3所需能耗,相當于汽車行駛地月往返距離。對此,達摩院表示,M6使用512 GPU在10天內即訓練出具有可用水平的10萬億模型,相比去年發布的大模型GPT-3,M6實現同等參數規模,能耗減至其1%,達摩院透露,實現能耗減少的技術原理包括通過更細粒度的CPU offload、共享-解除算法等。
據了解,M6是達摩院研發的通用性人工智能大模型。目前,達摩院聯合阿里云推出了M6服務化平臺,為大模型訓練及應用提供完備工具,算法人員及普通用戶均可使用平臺。
達摩院智能計算實驗室負責人周靖人表示,“接下來,我們將深入研究大腦認知機理,致力于將M6的認知力提升至接近人類的水平,比如,通過模擬人類跨模態的知識抽取和理解方式,構建通用的人工智能算法底層框架;另一方面,不斷增強M6在不同場景中的創造力,產生出色的應用價值?!?/p>
校對 柳寶慶