亚洲乱码一二三四区国产,亚洲韩国精品无码一区二区三区,亚洲日韩一区二区一无码

從競爭打響，再到?jīng)Q出勝負(fù)，最快需要多長時間？

【資料圖】

在科技圈，大模型如論第二，則很少有行業(yè)敢稱第一。2023年，業(yè)界刮起一股“百模大戰(zhàn)”風(fēng)潮，百余個大模型面世，期待贏得下一個人工智能時代的入場券。但時間僅過半年有余，這場萬眾矚目的角逐便走至了“決賽圈”。

目前，行業(yè)中的大模型用戶體驗(yàn)已逐漸出現(xiàn)“分水嶺”。背后的推手，無疑是科技巨頭們正在投入巨資，強(qiáng)化自家產(chǎn)品的基礎(chǔ)模型能力。

近期有媒體報(bào)道稱，百度正在加緊訓(xùn)練文心大模型4.0，或?qū)⒃?0月17日百度世界大會上發(fā)布。據(jù)透露，目前這款基礎(chǔ)模型已在理解、生成、邏輯和記憶四大方面有巨大突破，在邏輯推理、代碼、數(shù)學(xué)等方面的進(jìn)步水平明顯。另一組引人注意的信息是，文心大模型4.0的推理成本相比文心大模型3.5增加很多，有傳聞是8-10倍，也有說法是至少翻了10倍。

如何理解大模型的推理成本？其訓(xùn)練成本和推理成本的關(guān)系是什么？如果百度文心4.0推理成本真的至少翻了10倍，那么大模型的可持續(xù)發(fā)展之路在何方？這些問題無疑為這場科技競賽增添了更多看點(diǎn)。

推理成本激增

什么是推理成本？通常意義上，它指的是大語言模型訓(xùn)練完成后在線為用戶提供生成內(nèi)容服務(wù)時產(chǎn)生的成本，模型的每一次“思考”和“輸出”都會產(chǎn)生資源消耗。

推理成本由質(zhì)量和數(shù)量兩部分構(gòu)成。一方面，在質(zhì)量側(cè)，需要優(yōu)秀的算法和技術(shù)實(shí)力儲備作為支撐，其背后往往意味著專業(yè)的算法工程師和數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的支持；而在數(shù)量側(cè)，“暴力計(jì)算”所依賴的計(jì)算資源也是重要因素。

GPU“堆料”能不能解決所有問題？

應(yīng)該說，在過去的一段時間是可以這樣認(rèn)為的。不過，目前隨著模型網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化、參數(shù)規(guī)模的巨量化，線性的基礎(chǔ)設(shè)施投入所取得的邊際收益正在降低。

對于技術(shù)研發(fā)能力不足的大模型廠商而言，由于AI芯片價格的持續(xù)高企，“堆料”邏輯是死路一條，并必將被市場淘汰。而推理成本本身，也是因不同的開發(fā)商而異的。

“中文天才”已就位

在市場中，有實(shí)力的企業(yè)通常愿意雇傭名牌大學(xué)的高等生。在大模型領(lǐng)域內(nèi)，這個規(guī)律同樣適用。

目前，行業(yè)里已出現(xiàn)多種為大模型生成內(nèi)容付費(fèi)的使用方式，不過根本上，遇到刁鉆或時效性問題時，大模型給出的結(jié)果仍然效果不甚理想。一方面，這是由于中文特有的復(fù)雜性決定；另一方面，也是用戶激增帶來的短期算力不足所導(dǎo)致。

實(shí)際上，此前行業(yè)所提及的“訓(xùn)練成本”和“推理成本”并不能等同。

一般而言，訓(xùn)練GPT-3等級的大模型的成本約為140萬美元，這也是幾個月前人們對大模型成本測算的核心依據(jù)，但GPT-3迭代到3.5、GPT-4后，大模型的成本增長是非常驚人的。對于一些私有部署的模型而言，其模式是在已經(jīng)訓(xùn)練好的模型進(jìn)行輸出，成本相對較低。但這種模式只能滿足特定需求，并不適用于開放市場。

目前，考慮到在線推理場景，則更需要處理大規(guī)模數(shù)據(jù)，成本隨之被推高。

根據(jù)海外最新研究《TheEconomicsofLargeLanguageModels》，可以有如下估計(jì)：每個token（1000token約等于750個單詞）的訓(xùn)練成本通常約為6N（N為參數(shù)的計(jì)量單位），而推理成本約為2N，也就是說推理成本大約相當(dāng)于訓(xùn)練成本的三分之一。但隨著模型上線部署后使用量的增加，推理成本可能遠(yuǎn)超訓(xùn)練成本。

在國外，大模型的付費(fèi)是大勢所趨。其中以ChatGPT專業(yè)版為例，其版本所提供的用戶體驗(yàn)與免費(fèi)版差別很大。當(dāng)然，這也有助于大模型向著健康正向、持續(xù)發(fā)展的角度進(jìn)步。

有媒體估算過，使用云計(jì)算服務(wù)（以AWS為例）調(diào)用ChatGPT的能力，每處理一個輸入長度為50字、輸出長度為1000字的問題，大約需要消耗0.00014611美元的云計(jì)算資源。即用1美元可以向ChatGPT提問約6843個問題。

據(jù)推測，文心4.0的推理成本將比3.5版本上升10倍。不過，其帶來的好處也是顯而易見的，那就是相當(dāng)于為每個普通人都帶來了“高知高學(xué)”的AI助手。

中文大模型逐漸彎道超車

應(yīng)該說，2023年是屬于“遙遙領(lǐng)先”的一年。在眾多網(wǎng)友的觀感中，這個詞匯除弘揚(yáng)國產(chǎn)技術(shù)實(shí)力外，也有一些趣味因素在其中。

中文大模型是否能夠“遙遙領(lǐng)先”？這是十分令人期待的。

嚴(yán)肅些說，中國需要自己的中文大模型。可以看到，中文大模型的崛起已在日程之上。在OpenAI的GPT系列活躍量連續(xù)下滑之際，諸如百度文心一言等產(chǎn)品的增長卻與日俱增。應(yīng)該說，從落后再到領(lǐng)跑，在過去的幾個月間，中文大模型打出了一場漂亮的逆襲戰(zhàn)。

中文大模型的優(yōu)勢是，它在語義理解上更加準(zhǔn)確，在文化背景差異上也幾乎沒有代溝。如果當(dāng)我們把視角放在科技創(chuàng)新、產(chǎn)業(yè)升級等大背景下，中文大模型所承載的知識量或?qū)⒃俅嗡⑿氯藗兊恼J(rèn)知。

應(yīng)該看到，中文大模型也是“國貨”的一種，它不僅是高新技術(shù)領(lǐng)域的突破，也可被看成一種對外名片和集體記憶。

一個好消息是，目前據(jù)已知的訊息，百度文心大模型4.0已進(jìn)入小流量測試階段，其參數(shù)量大于所有已經(jīng)公開的LLM（大語言模型）。

值得注意的是，該款產(chǎn)品是國內(nèi)首次使用萬卡規(guī)模AI集群訓(xùn)練的大語言模型。借助百度飛槳的深度融合，它將大幅超越前作。作為國內(nèi)對標(biāo)“GPT-4"的產(chǎn)品，它的問世將是令人激動的。

有媒體爆料，百度文心大模型4.0正在加緊訓(xùn)練，已經(jīng)接近可發(fā)布狀態(tài)。

言而總之，對于國內(nèi)眾多廠商而言，如今的大模型已至競爭的下半場，“百模大戰(zhàn)”或更快落幕。不過對于普通人而言，產(chǎn)品的品牌廠商并不重要，能享受到體驗(yàn)上乘的產(chǎn)品才是第一選擇。

（責(zé)任編輯：徐帥）

【免責(zé)聲明】本文僅代表第三方觀點(diǎn)，不代表和訊網(wǎng)立場。投資者據(jù)此操作，風(fēng)險請自擔(dān)。

關(guān)鍵詞：

亚洲精品国产情侣av在线_91亚洲国产成人久久精品网站_亚洲AV无码专区电影在线观看_亚洲AV无码专区亚洲AV桃

文心4.0推理成本或暴增10倍，大模型如何走遠(yuǎn)

熱點(diǎn)話題

熱點(diǎn)推薦

頭條