首頁 > 互聯網 > > 正文

              觀察|大模型“幻覺”里的算力與數據,誰會先成為“賽點”?

              2023-07-09 21:55:34    來源:北京商報網

              全球大模型群雄逐鹿,算力最先告急。今年5月29日,英偉達創始人黃仁勛斷言,“我們已經達到生成式AI引爆點,從此全世界的每個角落都會有算力需求”。一天后,英偉達市值突破萬億美元,屹立世界之巔。

              英偉達將世界的目光聚焦在了風云變幻的算力、顯卡江湖。2023世界人工智能大會期間,有人直言,沒有大算力做大模型就是天方夜譚。但也有人認為,數據要素在人工智能大模型的發展中具有關鍵性作用,決定了模型的訓練質量、性能表現和應用領域的廣度與深度。


              【資料圖】

              人們常把算力、算法、數據形容為人工智能的三駕馬車,但這三駕馬車之間可能也不是完全的并行關系。如果說算力是大模型的“根”,那數據或者說是高質量的語料庫,或許就會成為算力的“根”。

              一熱一“冷”

              大模型浪潮,率先將算力推至風口浪尖。2023世界人工智能大會上,算力成為大模型絕對的關鍵詞之一。中國工程院院士、鵬城實驗室主任高文把算力比作電力,認為沒有大算力做大模型就是天方夜譚。華為輪值董事長胡厚崑也提到,大模型訓練的效率或者是創新的速度,根本上取決于算力的大小。中國的算力已經成為一個越來越稀缺的資源。

              大會期間,畢馬威與聯想集團聯合發布《普慧算力開啟新計算時代》報告。畢馬威中國數字化賦能主管合伙人張慶杰在解讀報告時提到,算力供給增速明顯難以滿足指數式爆發的需求,儲備算力成為各行各業的必要舉動。

              據了解,深度學習出現之前,用于AI訓練的算力增長大約每20個月翻一番;之后,用于AI訓練的算力大約每6個月翻一番;2012年后,全球頭部AI模型訓練算力需求更是加速到每3個月至4個月翻一番,即平均每年算力增長幅度達到驚人的10倍;目前大模型發展如火如荼,訓練算力需求有望擴張到原來的10-100倍,算力需求的指數級增長曲線將更加陡峭。

              大模型對算力的需求是顯而易見的,但更關鍵的點可能在于是否能把算力更高效地挖掘出來。一位芯片企業的技術人員對北京商報記者提到,一個模型上線需要用到很多硬件,如果只支撐了少量用戶,就會因為太貴導致用戶不買賬,由此撐不起正向循環的情況,但太便宜又會出現虧本的問題。特別是到落地階段,如何能夠結合模型上的一些改進,把硬件的特性最大程度地發揮出來,就會變得非常重要。

              “也就是說在訓練階段,大家對算力的追求可能是‘大’,這一方面能夠做出更大的模型,另一方面也能夠進行更快速的迭代。但到用戶開始接受這個效果的時候,就要涉及到怎樣做才能更劃算的問題,也就是說在部署階段,可能要更關注‘精’的問題,盡可能用相對少的算力實現最大程度的作用。”上述技術人員說道。

              大會期間,比起對算力的探討,數據就顯得有些“冷清”了。“數據要素比大模型早好幾年,大模型被‘炒’起來了,但數據要素卻一直不溫不火”,7月8日,在2023世界人工智能大會“大模型時代下的數據要素流通”論壇的主題演講中,拓爾思(300229)總裁施水才開場便提出了這樣一種現象,在他看來,這場論壇為人們認識數據要素流通提供了一個新的視角。

              大模型幻覺

              在上述論壇上,中國知網副總經理張宏偉表示,數據是人工智能的基石,數據的質量和數量最終決定人工智能水平高低,影響其安全性、可信性。施水才更是認為,高質量數據才是大模型價值躍遷的制勝法寶。

              但當下的問題在于,數據并不都是高質量的。過去一段時間,一度出現“AI正在污染中文互聯網”的討論,而AI最讓人詬病的就是“幻覺”問題,也就是人們常說的“一本正經地胡說八道”。

              大模型“幻覺”也是人工智能大會期間被提到的高頻詞匯。施水才對北京商報記者提到,“幻覺”問題的出現,主要是因為大模型缺乏理論的支撐,因為其核心技術原理主要就是Transformer架構下的Next Token Prediction,即“下一個字符的預測”。另一方面大模型并不是越大越好,數據也不是越多越好,真正好的大模型是參數大小適中,數據高質量。

              算力可以堆硬件,相比起來,優質數據的供給可能會復雜得多。上海數據交易所總經理湯奇峰認為,大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。

              在接受北京商報記者采訪時,上海數據交易所副總經理韋志林提到,從推動數字經濟,推動數據作為生產要素的角度看,數據應該是最核心、最長遠、最基礎性的因素。“大模型的預訓練對數據要求也特別高,必須在前期進行清洗、標注、標識,但圍繞千行百業的數據訓練,在數據供給方面也呈現出了許多問題和挑戰。”

              首要的就是頭部廠商并不愿意開放數據。數據是生產要素,數據有價值,這些已經達成共識,但進行數據共享就一定會牽扯到安全問題,如何解決數據在共享過程中的安全機制至關重要。而數據的開放流通,也自然涉及收益分配,且數據流通過程中創造的新價值更多服務于企業內部,拿出去的動力還需進一步培育。

              “所以從數據流通本身看,更多壓力還存在供給側這一方面,需要解決供給側中產權制度問題、收益分配制度問題、安全問題、基礎設施問題等,讓數據流通更加便捷、更加合規。”韋志林表示,上海數據交易所作為國家戰略的承接者,需要解決的就是這些問題。

              據了解,7月8日,上海數據交易所啟動語料數據生態創新合作伙伴計劃,而在此前一天,上海數據交易所官網剛剛正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態,覆蓋金融、交通運輸和醫療等領域。

              湯奇峰稱,語料庫建設不是單一企業的責任,需要多方共同推進,如果每個企業都單獨建設維護語料庫,會拉低效率,也會增加企業成本,“數交所希望通過自己的努力加強數據要素建設提升語料庫建設效率。”

              北京商報記者 楊月涵

              (責任編輯:董萍萍 )

              關鍵詞:

              上一篇:世界人工智能大會在滬召開,大模型成“頂流”,商業化落地受關注
              下一篇:最后一頁

              熱點話題

              熱點推薦

              頭條

              ? 亚洲国产成人高清在线观看 | 亚洲一区二区三区国产精品| 亚洲AV无码一区二区三区DV| 亚洲一区二区三区影院 | 亚洲人成色7777在线观看不卡| 亚洲精品中文字幕| 亚洲人成片在线观看| 亚洲一区二区三区AV无码| 亚洲欧美日本韩国| 亚洲熟女综合一区二区三区| 国产v亚洲v天堂a无| 国产精品亚洲片夜色在线| 亚洲精品国产国语| 亚洲日韩一中文字暮| 国产成人亚洲综合网站不卡| 亚洲中文字幕AV每天更新| 亚洲人成网站在线播放2019| 亚洲精品无码久久久久A片苍井空| 亚洲看片无码在线视频| 亚洲码欧美码一区二区三区| 亚洲AV日韩AV无码污污网站| 亚洲av无码国产精品色在线看不卡| 亚洲国产成人爱av在线播放| 亚洲精品第一国产综合境外资源| 国产精品亚洲不卡一区二区三区 | 亚洲国产av美女网站| 亚洲av无码专区在线| 亚洲一线产品二线产品| 亚洲成av人片天堂网无码】| 无码专区一va亚洲v专区在线| 亚洲日本一区二区三区在线不卡| 亚洲码国产精品高潮在线| 亚洲∧v久久久无码精品| 亚洲欧洲自拍拍偷午夜色| 色噜噜亚洲男人的天堂| 久久亚洲精品无码gv| 在线观看亚洲天天一三视| 亚洲AV无码专区国产乱码4SE| 精品亚洲成AV人在线观看| 激情综合亚洲色婷婷五月| 亚洲AV无码一区二区一二区|