首頁 > 互聯網 > > 正文

              【世界聚看點】AI前哨 | 中文通用大模型評測基準SuperCLUE發布:訊飛星火大模型國內第一

              2023-05-09 17:43:53    來源:鳳凰網


              (相關資料圖)


              鳳凰網科技訊 《AI前哨》 5月9日消息,今日,中文通用大模型綜合性評測基準SuperCLUE正式發布。中文通用大模型基準(SuperCLUE),是針對中文可用的通用大模型的一個測評基準。

              據介紹,SuperCLUE主要回答的問題是:在當前通用大模型大力發展的情況下,中文大模型的效果情況。包括但不限于:這些模型不同任務的效果情況、相較于國際上的代表性模型做到了什么程度、 這些模型與人類的效果對比如何?它嘗試在一系列國內外代表性的模型上使用多個維度能力進行測試。SuperCLUE是中文語言理解測評基準(CLUE)在通用人工智能時代的進一步發展。

              與此同時,SuperCLUE評測榜單也同步公開。該榜單測試了國內外9個模型,分別為GPT4、GPT3.5-turbo、訊飛星火認知大模型、MiniMax、BELLE-138、ChatGML-68、M0SS-168、Vicuna-138、文心一言,九大模型還與人類進行了對比。

              榜單顯示,從人類測評角度看,基礎能力(98%)+中文特性(95%),都達到了非常高的水平。除GPT-4外,人類準確率大幅超過了其他的大模型(如在基礎能力上超過其他模型20多個百分點)。AI雖然進展很快,但人類還是有相對優勢的, 比如在計算方面,人類比最強模型GPT-4高出了30個百分點。

              目前,國際先進模型效果具有較大的領先性,而同時國產GPT模型也有不俗的表現。

              榜單中,表現最好的國內大模為訊飛星火認知大模型,總分53.58分,與GPT-4相比有23個百分點的差距,與gpt-3.5-turbo在總分上有13個百分點的差距。在語義理解方面,訊飛星火認知大模型得分100分,超過GPT-4。百度文心一言在榜單中排名最后一名,得分32.61分。

              據悉,SuperCLUE從基礎能力、專業能力和中文特性能力三個不同的維度評價大模型。其中,基礎能力包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創作等10項能力;專業能力包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力;中文特性能力針對有中文特點的任務,包括了中文成語、詩歌、文學、字形等10項多種能力。

              值得注意的是,SuperCLUE標明了評測基準的不足和局限,包括中文特性能力總數據量比較少,以及選取的模型較少。

              (責任編輯:劉靜 HZ010)

              關鍵詞:

              上一篇:內容正在升級改造,請稍后再試! 全球快看
              下一篇:最后一頁

              熱點話題

              熱點推薦

              頭條

              ? 亚洲日韩精品无码专区加勒比 | 亚洲av无码久久忘忧草| 亚洲美女又黄又爽在线观看| 亚洲av无码成人影院一区| 亚洲一卡二卡三卡| 亚洲一区二区久久| 国产色在线|亚洲| 久久狠狠爱亚洲综合影院| 亚洲午夜电影在线观看高清| 亚洲欧洲综合在线| 亚洲国产精品无码久久久| 亚洲国产理论片在线播放| 亚洲人和日本人jizz| 日本亚洲精品色婷婷在线影院| 亚洲一区二区三区国产精品无码| 亚洲日韩在线视频| 亚洲人成伊人成综合网久久| 色婷五月综激情亚洲综合| 在线综合亚洲中文精品| 亚洲人成人网站18禁| 亚洲av无码日韩av无码网站冲| 精品久久久久亚洲| 亚洲精品99久久久久中文字幕 | 亚洲美女色在线欧洲美女| 亚洲精品中文字幕乱码| 亚洲一级片在线观看| 天堂亚洲国产中文在线| 亚洲精品中文字幕| 日韩精品亚洲专区在线观看| 在线观看国产一区亚洲bd| 亚洲日本韩国在线| 亚洲精品国产美女久久久| 亚洲国产精品不卡在线电影| 亚洲精品美女视频| 亚洲午夜一区二区三区| 亚洲AV成人片无码网站| 亚洲日韩涩涩成人午夜私人影院| 亚洲熟妇无码AV在线播放| 亚洲精品成人av在线| 亚洲日本视频在线观看| 亚洲人成人伊人成综合网无码|