經(jīng)濟(jì)觀察報(bào) 記者 沈怡然 今年4月,一家人工智能頭部企業(yè)中的幾位研究員不約而同地關(guān)注到了一項(xiàng)新技術(shù):SAM(SegmentAnythingModel)。研究員們很快將這一技術(shù)上報(bào)部門負(fù)責(zé)人,這家企業(yè)以機(jī)器視覺(jué)技術(shù)起家,研究員關(guān)注到的技術(shù)也與此有關(guān)。“隨著SAM的出現(xiàn),越來(lái)越多AI的人意識(shí)到,大模型對(duì)于他們而言是一次沖擊”,其中一名研究員說(shuō)。
一個(gè)月后,這家公司開(kāi)始調(diào)配資源開(kāi)發(fā)視覺(jué)大模型。
此后三個(gè)月,頭部的機(jī)器視覺(jué)AI企業(yè)關(guān)注到這一技術(shù)的潛力,截至目前,商湯科技、云從科技等人工智能公司以及傳統(tǒng)安防企業(yè),紛紛開(kāi)始投入這場(chǎng)新的技術(shù)競(jìng)爭(zhēng)。
(資料圖片)
SAM,是一種面向通用場(chǎng)景的圖像分割模型,在今年4月由Meta推出,就像和ChatGPT對(duì)話一樣,人類可以通過(guò)一些語(yǔ)言指令,讓SAM自主分辨和思考圖片中的內(nèi)容,SAM被認(rèn)為是出現(xiàn)在視覺(jué)領(lǐng)域的ChatGPT。
全世界的發(fā)燒友用它畫畫、摳圖,玩得不亦樂(lè)乎,中國(guó)研究員們卻識(shí)別出SAM的威力:若用在自動(dòng)駕駛、安防監(jiān)控,以檢測(cè)人、車和道路,它就是一個(gè)從根本上打破傳統(tǒng)機(jī)器視覺(jué)玩法的大模型。
分割和識(shí)別圖像是機(jī)器視覺(jué)的核心任務(wù)。過(guò)去,每創(chuàng)建一個(gè)分割圖像的任務(wù),都需要訓(xùn)練一次算法、標(biāo)注一批數(shù)據(jù),以疊加小模型的方式讓機(jī)器“看見(jiàn)”圖像中的各類物體。而SAM表現(xiàn)出了一些新的特征:無(wú)需為每一個(gè)特定任務(wù)創(chuàng)建小模型,機(jī)器可以自主對(duì)任何圖像中的任何物體進(jìn)行分割,甚至是未知的、影像模糊的場(chǎng)景,且操作極為簡(jiǎn)單。
這意味著SAM具有更加通用的特征,且有可能利用這種通用特征,大幅度降低機(jī)器視覺(jué)識(shí)別的成本,從而改變基于原有技術(shù)的商業(yè)模式和競(jìng)爭(zhēng)格局。
自2016年開(kāi)始,擁有巨大市場(chǎng)的中國(guó)涌現(xiàn)了上百家人工智能公司,在市場(chǎng)競(jìng)爭(zhēng)和資本助推下,逐步形成了數(shù)家AI獨(dú)角獸,商湯科技、云從科技、曠視科技、依圖科技,這些公司將AI帶入安防、政務(wù)、工業(yè)領(lǐng)域,并利用算法上的精進(jìn)、規(guī)模上的優(yōu)勢(shì)建起了護(hù)城河。
但如今,隨著技術(shù)的更迭,這場(chǎng)賽事有可能重新展開(kāi)。
中國(guó)移動(dòng)集團(tuán)首席科學(xué)家、中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟副理事長(zhǎng)馮俊蘭對(duì)記者表示,AI大模型將帶來(lái)一種全新的人工智能范式,過(guò)去所謂的AI領(lǐng)域的護(hù)城河在大模型沖擊下基本不存在了。SAM的出現(xiàn),證明視覺(jué)大模型的可實(shí)現(xiàn)性,顛覆了一直以來(lái)機(jī)器視覺(jué)的研究框架、交互和生產(chǎn)服務(wù)方式。
IEEE高級(jí)會(huì)員、天津理工大學(xué)教授、AR/VR技術(shù)專家羅訓(xùn)對(duì)記者表示,之前頭部企業(yè)的AI能力優(yōu)勢(shì),會(huì)因?yàn)橥ㄓ么竽P偷呐d起而被一定程度削弱。但是這些企業(yè)是否本身會(huì)變?nèi)酰Q于它們的轉(zhuǎn)型。
技術(shù)路線
作為AI的一個(gè)重要分支,機(jī)器視覺(jué)的目標(biāo)是讓計(jì)算機(jī)模仿人類視覺(jué)系統(tǒng),實(shí)現(xiàn)圖像和視頻的理解和處理。
2000年后,被稱人工智能奠基人的Ge-offreyHinton、YannLeCun和YoshuaBengio突破了深度學(xué)習(xí)技術(shù),讓機(jī)器可以模糊地模擬人腦,從海量圖像中自動(dòng)學(xué)習(xí)并提取特征。
2012年是一個(gè)重要時(shí)間節(jié)點(diǎn),斯坦福大學(xué)教授李飛飛創(chuàng)建的ImageNet項(xiàng)目,將深度學(xué)習(xí)推向主流:研究者可通過(guò)對(duì)大量圖片的人工標(biāo)注教會(huì)計(jì)算機(jī)識(shí)別各種各樣的物體,這大幅提升了機(jī)器視覺(jué)的準(zhǔn)確率,降低了成本,使其有了商業(yè)化的可能。
2023年4月,新的變化到來(lái),Meta公司上線了一款名叫SAM的圖像分割模型。作為一款大模型,SAM不僅為機(jī)器安上感知外界的眼睛,還賦予機(jī)器一個(gè)真正的大腦,它學(xué)會(huì)對(duì)圖像進(jìn)行觀察、感知、思考、邏輯推理、得出結(jié)果,且操作極其簡(jiǎn)單,類似于ChatGPT用人類語(yǔ)言對(duì)話的方式給機(jī)器命令。
簡(jiǎn)言之,它更容易地實(shí)現(xiàn)了機(jī)器視覺(jué)的目標(biāo),過(guò)程中無(wú)需大量圖像標(biāo)注、堆疊算法,消耗的算力也更少。英偉達(dá)人工智能科學(xué)家JimFan表示,SAM大模型是機(jī)器視覺(jué)的GPT-3時(shí)刻,它已經(jīng)了解了物體的一般概念,即使對(duì)于未知對(duì)象、不熟悉的場(chǎng)景(例如水下圖像)、在模棱兩可的情況下也能進(jìn)行圖像分割。
Meta發(fā)布SAM后,也將模型及其背后的訓(xùn)練數(shù)據(jù)集一并開(kāi)源,并從AR、VR、內(nèi)容創(chuàng)建等領(lǐng)域,介紹了SAM的應(yīng)用場(chǎng)景。
身在中國(guó)的企業(yè)和研究人士很快判斷出SAM可能具備的商業(yè)價(jià)值若將其用在自動(dòng)駕駛、安防監(jiān)控,以檢測(cè)人、車和道路,它能從根本上打破傳統(tǒng)機(jī)器視覺(jué)的玩法。
馮俊蘭表示,大模型將改變AI的供給模式,將供給方的復(fù)雜度大幅度降低,邊際成本接近于零;業(yè)務(wù)方可以用更簡(jiǎn)單的自然語(yǔ)言表達(dá)需求,不再需要依托工程師用代碼等專業(yè)指令與機(jī)器交流,依據(jù)自身需求靈活部署到不同的模型上,提高了效率
宇視科技首席產(chǎn)品官朱兵對(duì)記者表示,“過(guò)去干AI的活就像是搬箱子,其實(shí)是一些技術(shù)含量相對(duì)較低的體力活,當(dāng)AI賦能單點(diǎn)的場(chǎng)景,它是非常碎片化和定制化的,售前效率、售后效率、銷售效率都較低,產(chǎn)業(yè)的上下游都比較痛苦”。朱兵舉例稱,廠家投入開(kāi)發(fā)、收集素材、標(biāo)定、針對(duì)不同場(chǎng)景和地區(qū)做定制算法的投入和代價(jià)非常大,研發(fā)過(guò)程中往往面臨著素材緊缺、周期過(guò)長(zhǎng)、指標(biāo)優(yōu)化難等等問(wèn)題,對(duì)客戶來(lái)說(shuō),定制開(kāi)發(fā)費(fèi)也是一筆不小的支出。
如今,用大模型替代原有的小模型玩法,無(wú)需堆疊算法、無(wú)需大量標(biāo)注數(shù)據(jù),過(guò)程中消耗的算力極少,可以用更簡(jiǎn)單的人類語(yǔ)言給機(jī)器下命令,無(wú)需用專業(yè)的計(jì)算機(jī)編程語(yǔ)言。朱兵表示,大模型大幅拉低了AI的研發(fā)和部署成本,它建造了一系列新的玩法,重構(gòu)了行業(yè)秩序,尤其計(jì)算機(jī)視覺(jué)行業(yè),之前的大公司構(gòu)造的技術(shù)壁壘已經(jīng)被抹平了,大家又回到同一個(gè)起跑線上。
涌入
圍繞上一代機(jī)器視覺(jué)技術(shù),中國(guó)誕生了一批人工智能公司,這些公司提供的技術(shù)開(kāi)始被廣泛用于公安、地鐵、樓宇商廈的攝像監(jiān)控識(shí)別和安檢識(shí)別。
“AI四小龍”是指在2011年至2014年間陸續(xù)成立的四家中國(guó)人工智能企業(yè),分別是商湯科技、云從科技、曠視科技、依圖科技。他們的共同特點(diǎn)是以機(jī)器視覺(jué)為核心技術(shù),此前AI在深度學(xué)習(xí)路線上的突破為這一批人工智能企業(yè)的崛起提供了技術(shù)基礎(chǔ),而中國(guó)的產(chǎn)業(yè)優(yōu)勢(shì)又為這些企業(yè)的發(fā)展提供了市場(chǎng)。
在SAM面世后,它們開(kāi)始紛紛瞄準(zhǔn)這一技術(shù)。
記者從多位業(yè)內(nèi)人士處了解到,除了依圖科技,“AI四小龍”中商湯科技、云從科技、曠視科技都在研發(fā)視覺(jué)大模型,號(hào)稱傳統(tǒng)安防的“海大宇”中,海康威視(002415)和宇視科技也布局相關(guān)技術(shù)研發(fā)。
4月,就在Meta上線了SAM后的幾天,商湯發(fā)布“日日新”大模型。商湯智能產(chǎn)業(yè)研究院院長(zhǎng)田豐對(duì)記者表示,“日日新”系列是包含自然語(yǔ)言生成、圖片生成、視覺(jué)感知等多個(gè)大模型的集合,其中“如影”、“瓊宇”、“格物”都屬于視覺(jué)相關(guān)的大模型。
5月,云從科技發(fā)布了“從容”大模型,是包含視覺(jué)在內(nèi)的多模態(tài)大模型,云從科技在最近的投資者會(huì)議上表示,視覺(jué)大模型是非常重要的,未來(lái)也將推出視覺(jué)主導(dǎo)的模型。因?yàn)楣驹谟?jì)算機(jī)視覺(jué)方面的儲(chǔ)備較強(qiáng),也因?yàn)橐鉀Q客戶具體業(yè)務(wù)需要多模態(tài)技術(shù)。
曠視科技和依圖科技尚未推出大模型。曠視科技對(duì)記者稱,“正在研發(fā)大模型,但沒(méi)有對(duì)客戶推出和交付”。在方向上,曠視選取了通用圖像大模型、視頻理解大模型、計(jì)算攝影大模型和自動(dòng)駕駛感知大模型四個(gè)研究方向,并獲得一定突破。
研究機(jī)構(gòu)Omdia人工智能首席分析師蘇廉節(jié)對(duì)記者表示,在視覺(jué)大模型這一波沖擊下,“AI四小龍”快速轉(zhuǎn)型大模型,部署以視覺(jué)為主的多模態(tài)大模型,這樣的路徑相對(duì)合理。
海康威視在今年6月對(duì)投資者稱,“SAM模型在發(fā)布之初我們就關(guān)注到了,也進(jìn)行了系統(tǒng)性的評(píng)測(cè)。”朱兵對(duì)記者表示,公司正在自研的AIoT行業(yè)大模型“梧桐”,就是一款以通用大模型+行業(yè)場(chǎng)景+訓(xùn)練調(diào)優(yōu)為架構(gòu)的行業(yè)大模型,在5月9日首次發(fā)布,6月已經(jīng)面向第一批伙伴測(cè)試。
海康威視和宇視科技是以設(shè)備生產(chǎn)起家的傳統(tǒng)安防企業(yè),在“AI四小龍”殺入安防后面臨激烈競(jìng)爭(zhēng),一直積極擁抱機(jī)器視覺(jué)技術(shù),但也因軟件能力不足而被奪走一定的市場(chǎng)份額。
目前,AI企業(yè)開(kāi)始在“大模型的劃時(shí)代”意義上達(dá)成共識(shí)。
商湯智能產(chǎn)業(yè)研究院院長(zhǎng)田豐和云從科技聯(lián)合創(chuàng)始人姚志強(qiáng),都對(duì)記者表示,AI1.0是小模型時(shí)代,企業(yè)以提供專有小模型為主,運(yùn)用多點(diǎn)技術(shù)解決特定場(chǎng)景需求;AI2.0是大模型時(shí)代,企業(yè)要通過(guò)統(tǒng)一的大型技術(shù)底座平臺(tái),也就是打造一個(gè)對(duì)世界有通識(shí)感知和認(rèn)知能力的多模態(tài)的基礎(chǔ)模型,并在此基礎(chǔ)上生成一系列行業(yè)小模型,以此來(lái)解決專業(yè)場(chǎng)景和更多海量場(chǎng)景的需求。
姚志強(qiáng)認(rèn)為,如果一家AI企業(yè)還停留在上一階段,或許能解決很多場(chǎng)景問(wèn)題,但成本難以下降,使得規(guī)模化效應(yīng)無(wú)法顯現(xiàn);田豐認(rèn)為,兩個(gè)時(shí)代是長(zhǎng)期并存的,不是誰(shuí)淘汰誰(shuí)的對(duì)立關(guān)系,兩者以模型協(xié)同的方式去完成。例如采用混合專家模型結(jié)構(gòu)(MoE),AI2.0時(shí)代是多個(gè)模型組合成服務(wù),1.0的模型也能嵌入進(jìn)來(lái)。
在新的競(jìng)爭(zhēng)中,原有的技術(shù)積累和硬件投入仍將發(fā)揮作用。
田豐對(duì)記者表示,“AI大裝置”智算中心具備強(qiáng)大的AI算力,能夠?yàn)榍|參數(shù)量的20個(gè)大模型提供訓(xùn)練算力,是研發(fā)和訓(xùn)練大模型的關(guān)鍵裝備,商湯科技不僅自用,還開(kāi)放給大模型創(chuàng)企、研發(fā)伙伴使用。
云從相關(guān)負(fù)責(zé)人對(duì)記者表示,公司的CWOS操作系統(tǒng)在整合ChatGPT這類超級(jí)語(yǔ)言模型方面有先天的優(yōu)勢(shì)。同時(shí),該系統(tǒng)可以根據(jù)生產(chǎn)實(shí)際情況,反饋數(shù)據(jù)和信息到大模型中,優(yōu)化模型的訓(xùn)練和調(diào)整,提高模型的準(zhǔn)確性和效率。
大模型突圍市場(chǎng)
“即便沒(méi)有大模型的沖擊,“AI四小龍”也處在一個(gè)轉(zhuǎn)型的迷茫期,需要思考自身的價(jià)值和出路所在”。蘇廉節(jié)表示。
一批人工智能企業(yè)受到了資本和市場(chǎng)的青睞,其中商湯科技、云從科技已登陸資本市場(chǎng)。商湯在2018-2022年間,每年研發(fā)投入累計(jì)超過(guò)120億元,并在2021年IPO時(shí)募資超50億元。云從在2018-2022年間,每年研發(fā)投入累計(jì)超過(guò)22億元,并在2022年IPO時(shí)募資17億元。
技術(shù)和資本的良好互動(dòng)也讓中國(guó)在視覺(jué)識(shí)別領(lǐng)域一度取得了領(lǐng)先的優(yōu)勢(shì),在2018年前后,中國(guó)在人工智能論文發(fā)表量、人工智能融資額等多方面僅次于美國(guó)或已超過(guò)美國(guó),特別是在視覺(jué)識(shí)別領(lǐng)域,中國(guó)人工智能公司屢屢在國(guó)際大賽中打破紀(jì)錄,取得優(yōu)良成績(jī)。
但很快,隨著市場(chǎng)的推動(dòng),原有技術(shù)的潛力逐漸見(jiàn)頂,2019年中國(guó)科學(xué)院院士張鈸在接受經(jīng)濟(jì)觀察報(bào)專訪時(shí)曾提示在現(xiàn)有技術(shù)路線上,產(chǎn)業(yè)應(yīng)用的潛力可能已經(jīng)觸碰到天花板。
更重要的是,從商業(yè)角度,AI原有技術(shù)路線始終難以突破成本瓶頸,以至于更多傳統(tǒng)產(chǎn)業(yè)客戶沒(méi)有能力買單。朱兵表示,“多年以來(lái),我們沒(méi)有看到蓬勃向上的新秩序,大量企業(yè)在人和車牌識(shí)別這兩個(gè)賽道里殘酷競(jìng)爭(zhēng),根本原因在于更多算法無(wú)法形成規(guī)模效應(yīng)”。
一位頭部企業(yè)的AI研究員對(duì)記者稱,按照傳統(tǒng)玩法,一家AI企業(yè)為車廠服務(wù),出售一套識(shí)別路障的算法,識(shí)別一種路障平均單算法需要十幾萬(wàn)元,時(shí)間需要約2個(gè)月,還需要客戶提供上萬(wàn)張用于標(biāo)注的圖片,但僅僅一個(gè)算法是不夠的,實(shí)際道路場(chǎng)景很復(fù)雜,適用于小汽車的算法不一定適用于大卡車,換一個(gè)角度就識(shí)別不出了,當(dāng)檢測(cè)目標(biāo)受部分受遮擋就也難識(shí)別。
為了增加設(shè)備的智能化,AI企業(yè)要疊加多個(gè)算法,簡(jiǎn)單說(shuō)就是堆疊許多個(gè)小模型。根據(jù)財(cái)報(bào),商湯科技已累計(jì)擁有6.7萬(wàn)個(gè)商用小模型,記者從云從科技獲悉,公司也具備數(shù)千個(gè)商用小模型。
但是訓(xùn)練的時(shí)間和成本也翻倍上漲。
馮俊蘭對(duì)記者表示,很多AI公司難以賺錢,一個(gè)重要原因在于AI服務(wù)的高成本,造成企業(yè)“掙一塊錢賠五塊”,“接單越多、賠的越多”這種模式讓供給方難以持續(xù),需求方也只能是少數(shù)關(guān)鍵行業(yè)或支付能力較強(qiáng)的行業(yè)。
根據(jù)財(cái)報(bào),2018至2022年間,云從科技累計(jì)虧損31億元,商湯科技累計(jì)虧損超過(guò)400億元。
為了進(jìn)一步降低AI成本、提升市場(chǎng),“AI四小龍”戰(zhàn)略上也出現(xiàn)分化。商湯選擇AI大裝置,云從選擇操作系統(tǒng),曠視選擇芯片,依圖選擇物聯(lián)網(wǎng)。
從這個(gè)角度,大模型可能帶來(lái)的并不僅僅是對(duì)現(xiàn)有公司的挑戰(zhàn),也可能帶來(lái)一個(gè)全新的商業(yè)模式和應(yīng)用場(chǎng)景。
上述研究員稱,公司曾努力在更多市場(chǎng)找AI的生意,比如,公司曾和一家超市談過(guò)AI監(jiān)控,檢測(cè)售貨員是否在場(chǎng),公司派出5名算法工程師,光工資就要花30萬(wàn)元,但客戶的十幾個(gè)售貨員月薪加起來(lái)不到5萬(wàn)元;還跟工廠主談過(guò)AI質(zhì)檢,檢測(cè)流水線上的包裝盒是否破損,對(duì)方評(píng)估下來(lái)認(rèn)為雇傭工人更經(jīng)濟(jì)等等。
這些需求統(tǒng)稱為AI的長(zhǎng)尾需求:大量的中小型客戶,支付能力不強(qiáng),對(duì)AI沒(méi)有剛需,只是在某種場(chǎng)景下有一些特色需求,可用可不用,不愿意支付動(dòng)輒上百萬(wàn)的成本。在這位研究員看來(lái),未來(lái),可以將某類大模型或一套多模態(tài)大模型,應(yīng)用于這些視覺(jué)檢測(cè)場(chǎng)景,利用大模型的遷移和通用能力,只需要少量數(shù)據(jù)標(biāo)注和算法投入,開(kāi)發(fā)周期和對(duì)算力的要求也會(huì)更低,這樣費(fèi)用大幅降下來(lái),客戶就有更大可能買單。
朱兵測(cè)算過(guò),過(guò)去基于小模型的AI算法對(duì)碎片化需求的滿足度不足10%,未來(lái)基于大模型大概率能提升到超過(guò)50%,整體長(zhǎng)尾算法的效率提升能達(dá)到10倍數(shù)量級(jí),定制時(shí)間能降至1人周內(nèi)。
姚志強(qiáng)對(duì)記者表示,一旦技術(shù)實(shí)現(xiàn)平臺(tái)化和標(biāo)準(zhǔn)化,各AI公司通過(guò)統(tǒng)一的核心技術(shù)的底座平臺(tái),快速適應(yīng)海量場(chǎng)景和實(shí)現(xiàn)海量應(yīng)用。
馮俊蘭表示,技術(shù)耗費(fèi)的成本,遠(yuǎn)小于技術(shù)給業(yè)務(wù)帶來(lái)的價(jià)值,當(dāng)滿足了這個(gè)公式,技術(shù)就能實(shí)現(xiàn)規(guī)模化,遷移到更多、更長(zhǎng)尾的市場(chǎng)。這也滿足AI企業(yè)實(shí)現(xiàn)盈利的根本邏輯,也意味著其有機(jī)會(huì)開(kāi)拓更多的藍(lán)海市場(chǎng)。
(責(zé)任編輯:賀翀 )關(guān)鍵詞:
