(相關(guān)資料圖)
鳳凰網(wǎng)科技訊 《AI前哨》 5月9日消息,今日,中文通用大模型綜合性評測基準(zhǔn)SuperCLUE正式發(fā)布。中文通用大模型基準(zhǔn)(SuperCLUE),是針對中文可用的通用大模型的一個測評基準(zhǔn)。
據(jù)介紹,SuperCLUE主要回答的問題是:在當(dāng)前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。包括但不限于:這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度、 這些模型與人類的效果對比如何?它嘗試在一系列國內(nèi)外代表性的模型上使用多個維度能力進行測試。SuperCLUE是中文語言理解測評基準(zhǔn)(CLUE)在通用人工智能時代的進一步發(fā)展。
與此同時,SuperCLUE評測榜單也同步公開。該榜單測試了國內(nèi)外9個模型,分別為GPT4、GPT3.5-turbo、訊飛星火認(rèn)知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言,九大模型還與人類進行了對比。
榜單顯示,從人類測評角度看,基礎(chǔ)能力(98%)+中文特性(95%),都達到了非常高的水平。除GPT-4外,人類準(zhǔn)確率大幅超過了其他的大模型(如在基礎(chǔ)能力上超過其他模型20多個百分點)。AI雖然進展很快,但人類還是有相對優(yōu)勢的, 比如在計算方面,人類比最強模型GPT-4高出了30個百分點。
目前,國際先進模型效果具有較大的領(lǐng)先性,而同時國產(chǎn)GPT模型也有不俗的表現(xiàn)。
榜單中,表現(xiàn)最好的國內(nèi)大模為訊飛星火認(rèn)知大模型,總分53.58分,與GPT-4相比有23個百分點的差距,與gpt-3.5-turbo在總分上有13個百分點的差距。在語義理解方面,訊飛星火認(rèn)知大模型得分100分,超過GPT-4。百度文心一言在榜單中排名最后一名,得分32.61分。
據(jù)悉,SuperCLUE從基礎(chǔ)能力、專業(yè)能力和中文特性能力三個不同的維度評價大模型。其中,基礎(chǔ)能力包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項能力;專業(yè)能力包括了中學(xué)、大學(xué)與專業(yè)考試,涵蓋了從數(shù)學(xué)、物理、地理到社會科學(xué)等50多項能力;中文特性能力針對有中文特點的任務(wù),包括了中文成語、詩歌、文學(xué)、字形等10項多種能力。
值得注意的是,SuperCLUE標(biāo)明了評測基準(zhǔn)的不足和局限,包括中文特性能力總數(shù)據(jù)量比較少,以及選取的模型較少。
(責(zé)任編輯:劉靜 HZ010)關(guān)鍵詞: