512顆GPU、10萬億參數(shù)!阿里達摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型

              2021-11-08 22:37:13    來源:快科技

              11月8日,阿里巴巴達摩院公布了多模態(tài)大模型“M6”的最新進展,其參數(shù)已從萬億躍遷至10萬億,成為全球最大的AI預(yù)訓(xùn)練模型。

              作為通用性AI大模型,M6擁有多模態(tài)、多任務(wù)能力,尤其擅長設(shè)計、寫作、問答,在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。

              與傳統(tǒng)AI相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,認知和創(chuàng)造能力也更勝一籌,被普遍認為是未來的“基礎(chǔ)模型”。

              但是,大模型的算力成本相當(dāng)高昂,比如訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗,能讓一輛汽車在地月之間往返一趟。

              今年5月,通過專家并行策略及優(yōu)化技術(shù),達摩院M6團隊將萬億模型能耗降低超過80%,效率提升近11倍。

              10月,M6再次突破業(yè)界極限,使用512顆GPU,在10天內(nèi)就訓(xùn)練出了具有可用水平的10萬億模型,相比去年發(fā)布的大模型GPT-3,M6實現(xiàn)了同等參數(shù)規(guī)模,能耗卻只有1%。

              另一方面,AI大模型擴展到千億及以上參數(shù)的超大規(guī)模時,很難放在一臺機器上,為此達摩院在阿里云PAI自研Whale框架上搭建了MoE模型,并通過更細粒度的CPU offload技術(shù),最終實現(xiàn)將10萬億參數(shù)放進512張GPU:

              自研Whale框架:

              自研Whale分布式深度學(xué)習(xí)訓(xùn)練框架,針對數(shù)據(jù)并行、模型并行、流水并行、混合并行等多種并行模型進行了統(tǒng)一架構(gòu)設(shè)計,讓用戶在僅僅添加幾行API調(diào)用的情況下就可以實現(xiàn)豐富的分布式并行策略。

              MoE專家并行策略:

              在Whale架構(gòu)中實現(xiàn)Mixture-of-Experts(MoE)專家并行策略,在擴展模型容量、提升模型效果的基礎(chǔ)上,不顯著增加運算FLOPs(每秒所執(zhí)行的浮點運算次數(shù)),從而實現(xiàn)高效訓(xùn)練大規(guī)模模型的目的。

              CPU offload創(chuàng)新技術(shù):

              在自研的分布式框架Whale中通過更細粒度的CPU offload,解決了有限資源放下極限規(guī)模的難題,并通過靈活地選擇offload的模型層,進一步地提高GPU利用率。

              此外,針對訓(xùn)練效率問題,M6團隊設(shè)計了Pseudo-to-Real(共享解除)機制,即利用訓(xùn)練好的共享參數(shù)模型初始化大模型,讓收斂效率進一步提升7倍,解決大模型訓(xùn)練速度慢的問題。

              對比不使用該機制,預(yù)訓(xùn)練達到同樣loss用時僅需6%;和此前萬億模型相比,訓(xùn)練樣本量僅需40%。

              作為國內(nèi)首個商業(yè)化落地的多模態(tài)大模型,M6已在超40個場景中應(yīng)用,日調(diào)用量上億。

              今年,大模型首次支持雙11,應(yīng)用包括但不限于:

              - M6在犀牛智造為品牌設(shè)計的服飾已在淘寶上線;

              - 憑借流暢的寫作能力,M6正為天貓?zhí)摂M主播創(chuàng)作劇本;

              - 依靠多模態(tài)理解能力,M6正在增進淘寶、支付寶等平臺的搜索及內(nèi)容認知精度。

              M6設(shè)計的飛行汽車

              未來,M6將積極探索與科學(xué)應(yīng)用的結(jié)合,通過AI for science讓大模型的潛力充分發(fā)揮,并加強M6與國產(chǎn)芯片的軟硬一體化研究。

              目前,達摩院聯(lián)合阿里云已推出M6服務(wù)化平臺,為大模型訓(xùn)練及應(yīng)用提供完備工具,首次讓大模型實現(xiàn)“開箱即用”,算法人員及普通用戶均可方便地使用平臺。

              - THE END -

              轉(zhuǎn)載請注明出處:快科技

              #阿里巴巴#人工智能#達摩院

              相關(guān)熱詞搜索:

              上一篇:
              下一篇:

              熱點話題

              熱點推薦

              頭條

              ? 国产亚洲综合成人91精品| 在线免费观看亚洲| 久久精品视频亚洲| 亚洲国产一区二区三区在线观看| 国产亚洲人成网站在线观看不卡| 亚洲videosbestsex日本| 亚洲色偷偷偷鲁综合| 亚洲精品美女久久7777777| 99人中文字幕亚洲区| 中文字幕无码精品亚洲资源网| 亚洲精品亚洲人成在线播放| 亚洲AV无码精品色午夜果冻不卡| 亚洲高清偷拍一区二区三区| tom影院亚洲国产一区二区| 图图资源网亚洲综合网站| 亚洲精品亚洲人成在线观看下载| 久久精品亚洲AV久久久无码 | 亚洲一区二区三区写真| 亚洲av日韩av不卡在线观看| 亚洲国产成人久久精品99 | 国产精品亚洲成在人线| 精品久久久久久久久亚洲偷窥女厕| 亚洲综合久久久久久中文字幕| 亚洲日韩欧洲乱码AV夜夜摸| 无码一区二区三区亚洲人妻| 亚洲一区中文字幕在线观看| 91情国产l精品国产亚洲区| 亚洲中文字幕在线乱码| 亚洲AV无码乱码在线观看| 亚洲精品乱码久久久久久蜜桃图片 | 亚洲AV日韩精品久久久久久| 狠狠色婷婷狠狠狠亚洲综合| 欧洲亚洲国产精华液| 亚洲第一区二区快射影院| 亚洲视频一区二区三区| 亚洲av无码无在线观看红杏| 久久影视国产亚洲| 亚洲精品无码AV中文字幕电影网站| 亚洲av无码日韩av无码网站冲| 久久精品国产亚洲αv忘忧草| 亚洲高清无在码在线电影不卡|