亚洲综合中文字幕无线码,国产成人精品日本亚洲专区61,婷婷国产偷v国产偷v亚洲

512顆GPU、10萬億參數(shù)！阿里達摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

2021-11-08 22:37:13 來源：快科技

11月8日，阿里巴巴達摩院公布了多模態(tài)大模型“M6”的最新進展，其參數(shù)已從萬億躍遷至10萬億，成為全球最大的AI預(yù)訓(xùn)練模型。

作為通用性AI大模型，M6擁有多模態(tài)、多任務(wù)能力，尤其擅長設(shè)計、寫作、問答，在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。

與傳統(tǒng)AI相比，大模型擁有成百上千倍“神經(jīng)元”數(shù)量，認知和創(chuàng)造能力也更勝一籌，被普遍認為是未來的“基礎(chǔ)模型”。

但是，大模型的算力成本相當(dāng)高昂，比如訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗，能讓一輛汽車在地月之間往返一趟。

今年5月，通過專家并行策略及優(yōu)化技術(shù)，達摩院M6團隊將萬億模型能耗降低超過80％，效率提升近11倍。

10月，M6再次突破業(yè)界極限，使用512顆GPU，在10天內(nèi)就訓(xùn)練出了具有可用水平的10萬億模型，相比去年發(fā)布的大模型GPT-3，M6實現(xiàn)了同等參數(shù)規(guī)模，能耗卻只有1％。

另一方面，AI大模型擴展到千億及以上參數(shù)的超大規(guī)模時，很難放在一臺機器上，為此達摩院在阿里云PAI自研Whale框架上搭建了MoE模型，并通過更細粒度的CPU offload技術(shù)，最終實現(xiàn)將10萬億參數(shù)放進512張GPU：

自研Whale框架：

自研Whale分布式深度學(xué)習(xí)訓(xùn)練框架，針對數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進行了統(tǒng)一架構(gòu)設(shè)計，讓用戶在僅僅添加幾行API調(diào)用的情況下就可以實現(xiàn)豐富的分布式并行策略。

MoE專家并行策略：

在Whale架構(gòu)中實現(xiàn)Mixture-of-Experts（MoE）專家并行策略，在擴展模型容量、提升模型效果的基礎(chǔ)上，不顯著增加運算FLOPs（每秒所執(zhí)行的浮點運算次數(shù)），從而實現(xiàn)高效訓(xùn)練大規(guī)模模型的目的。

CPU offload創(chuàng)新技術(shù)：

在自研的分布式框架Whale中通過更細粒度的CPU offload，解決了有限資源放下極限規(guī)模的難題，并通過靈活地選擇offload的模型層，進一步地提高GPU利用率。

此外，針對訓(xùn)練效率問題，M6團隊設(shè)計了Pseudo-to-Real（共享解除）機制，即利用訓(xùn)練好的共享參數(shù)模型初始化大模型，讓收斂效率進一步提升7倍，解決大模型訓(xùn)練速度慢的問題。

對比不使用該機制，預(yù)訓(xùn)練達到同樣loss用時僅需6％；和此前萬億模型相比，訓(xùn)練樣本量僅需40％。

作為國內(nèi)首個商業(yè)化落地的多模態(tài)大模型，M6已在超40個場景中應(yīng)用，日調(diào)用量上億。

今年，大模型首次支持雙11，應(yīng)用包括但不限于：

－ M6在犀牛智造為品牌設(shè)計的服飾已在淘寶上線；

－憑借流暢的寫作能力，M6正為天貓?zhí)摂M主播創(chuàng)作劇本；

－依靠多模態(tài)理解能力，M6正在增進淘寶、支付寶等平臺的搜索及內(nèi)容認知精度。

M6設(shè)計的飛行汽車

未來，M6將積極探索與科學(xué)應(yīng)用的結(jié)合，通過AI for science讓大模型的潛力充分發(fā)揮，并加強M6與國產(chǎn)芯片的軟硬一體化研究。

目前，達摩院聯(lián)合阿里云已推出M6服務(wù)化平臺，為大模型訓(xùn)練及應(yīng)用提供完備工具，首次讓大模型實現(xiàn)“開箱即用”，算法人員及普通用戶均可方便地使用平臺。

- THE END -

轉(zhuǎn)載請注明出處：快科技

#阿里巴巴#人工智能#達摩院

相關(guān)熱詞搜索：

熱點圖集：

512顆GPU、10萬億參數(shù)！阿里達摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型