(資料圖片)
鳳凰網科技訊 6月16日消息,鳳凰網科技《浪潮》對話智源研究院黃鐵軍,談到對中英文大模型算法分析的看法,黃鐵軍表示,ChatGPT訓練時用的英文數據多,中文數據只有百分之幾,所以英文表現得比中文好。
鳳凰網科技《浪潮》:我們剛才也提到了一個上下游,因為要進入到這個生態里邊,要投入很多的技術和內容。我們在剛接觸ChatGPT的時候發現用英文比用中文更好溝通。它們的理解,它們的算法,都是以英文為基礎。您覺得中文的這個大模型的算法分析和英文的這些哪一個更加容易,或者是哪個更困難一些?
黃鐵軍: ChatGPT當初訓練的時候用的確實是英文數據多,中文數據少,而且據我們了解,他們也用了智源中文的數據集,但他們用的中文數據只有百分之幾,所以它英文表現得比中文好,這也是自然而然的。因為我們剛才說大模型的智能主要是來源于數據,那數據的分布也就決定了它的智能輸出特性的不同。中文的這個數據的建設,確實對于未來大模型發展來說是特別重要的一項工作。
(責任編輯:王治強 HF013)關鍵詞: