ChatGPT拯救月薪5000的數(shù)據(jù)打工人
北京時(shí)間3月15日凌晨,OpenAI正式推出大型多模態(tài)語言模型GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。
GPT-4的發(fā)布正好趕在百度語言大模型“文心一言”發(fā)布的前一天。壓力,再一次給到正加班加點(diǎn)鏖戰(zhàn)“中國版ChatGPT”的各家大廠這邊。
GPT-4最為亮眼的革新莫過于支持“多模態(tài)”輸入,也就是相比于ChatGPT(基于GPT-3.5)僅能文字輸入和文字輸出,GPT-4還支持圖片、文字輸入——換句話說,它看得懂表情包和梗圖。
此外,根據(jù) OpenAI公布的研究數(shù)據(jù),GPT-4不僅在各項(xiàng)性能表現(xiàn)上均優(yōu)于GPT-3.5模型,在一系列人類測試中也表現(xiàn)出了更強(qiáng)的能力,其中包括“難倒”萬千大學(xué)生的高等數(shù)學(xué)(微積分)、統(tǒng)一律師資格考試、美國高考(SAT)數(shù)學(xué)……
目前,OpenAI發(fā)布了集成GPT-4的ChatGPT Plus,用戶可以以每月20美元的訂閱標(biāo)準(zhǔn)搶先試用。不過,ChatGPT Plus暫時(shí)還未開啟圖像輸入功能。
OpenAI并未公布GPT-4用于訓(xùn)練的數(shù)據(jù)規(guī)模,但考慮到前代模型ChatGPT(基于GPT-3.5模型)使用了1750億個(gè)參數(shù),業(yè)界估算GPT-4使用的參數(shù)規(guī)模或達(dá)到100萬億級別。
而在幾年前,這是不可想象的。
ChatGPT萬億參數(shù)背后
全球頂級人工智能(AI)科學(xué)家、斯坦福大學(xué)終身教授、曾任谷歌首席AI科學(xué)家的李飛飛分享過一個(gè)故事:
2009年之前,AI圖像識別模型僅能認(rèn)出四種物體:汽車、飛機(jī)、豹子、人臉,因?yàn)橐酝芯空咭话阒粫槍@四類物體進(jìn)行模型訓(xùn)練。
更深層次的原因是,想讓AI認(rèn)識一種物體,需要人工先在圖片中標(biāo)記出目標(biāo)物,再將大量這樣的圖片“喂”給AI進(jìn)行訓(xùn)練?!坝卸嗌偃斯?,就有多少智能”,AI能力越強(qiáng),背后要付出的人力越多。
因此李飛飛設(shè)想,如果人工標(biāo)注足夠多的圖片并用以訓(xùn)練,理論上就能夠得到“無所不知”的模型。
這堪稱一個(gè)瘋狂的想法,如果想讓AI識別出字典上的所有物體,需要標(biāo)注的圖片數(shù)量達(dá)上億張,李飛飛的3人課題組要不眠不休干幾十年才能完成。
最后,李飛飛不得不通過眾包平臺發(fā)布任務(wù),低價(jià)雇傭全球各地的勞動力完成標(biāo)注任務(wù)——可想而知,大部分標(biāo)注工來自更具人口紅利的國家和地區(qū)。
這是全球最知名大型視覺數(shù)據(jù)庫ImageNet背后的故事,也是“三院院士”“AI女神”李飛飛的成名之戰(zhàn)。ImageNet滋養(yǎng)了全球各地大大小小的AI項(xiàng)目,但也揭示了AI數(shù)據(jù)處理環(huán)節(jié)是勞動力密集產(chǎn)業(yè)的事實(shí)。
從那之后,資金涌入各類AI模型創(chuàng)業(yè)領(lǐng)域,相比之下AI數(shù)據(jù)環(huán)節(jié)則少有人問津。
不過十余年之后,當(dāng)曾經(jīng)夢想的“無所不知的模型”真正誕生,情形似乎開始發(fā)生變化。
美國研究機(jī)構(gòu)OpenAI發(fā)布的大語言模型ChatGPT,被視為揭示了AI行業(yè)新的發(fā)展方向,也帶動各路資本涌入大語言模型研發(fā)。
大型模型對數(shù)據(jù)處理提出了新的玩法,也意味著全新的技術(shù)掘金空間正被打開。一二級市場中,投資熱情已經(jīng)帶動著相關(guān)企業(yè)的估值高漲。開年至今,A股“AI數(shù)據(jù)第一股”海天瑞聲已拉出4個(gè)漲停板。截至3月15日收盤,海天瑞聲市值已達(dá)到70.41億元。
不僅如此,據(jù)業(yè)內(nèi)消息,多家大廠正在著手將數(shù)據(jù)標(biāo)注團(tuán)隊(duì)獨(dú)立出來。一場對AI數(shù)據(jù)服務(wù)市場的搶奪戰(zhàn),正在吹響號角。
“AI數(shù)據(jù)”突然又香了
AI數(shù)據(jù)處理主要步驟包括數(shù)據(jù)收集、清洗原始數(shù)據(jù)、對數(shù)據(jù)進(jìn)行標(biāo)注等等。根據(jù)相關(guān)統(tǒng)計(jì),數(shù)據(jù)處理往往會占據(jù)整個(gè)AI項(xiàng)目實(shí)施過程中80%的時(shí)間。其中最耗費(fèi)時(shí)間的則是標(biāo)注環(huán)節(jié)。
數(shù)據(jù)標(biāo)注是指人工對文本、視頻、圖像等元數(shù)據(jù)進(jìn)行標(biāo)注,以此將元數(shù)據(jù)轉(zhuǎn)換為機(jī)器可以識別的信息,標(biāo)記好的數(shù)據(jù)才能用于訓(xùn)練AI模型。因此,數(shù)據(jù)標(biāo)注常被視為“dirty work(臟活累活)”,相關(guān)工作常被委托給第三方外包企業(yè)完成。
從2022下半年開始,這項(xiàng)曾經(jīng)不受歡迎的“dirty work”,突然獲得了前所未有的重視。
“我和團(tuán)隊(duì)2017年開始創(chuàng)業(yè)時(shí),很多機(jī)構(gòu)還無法理解數(shù)據(jù)處理的價(jià)值,我們只能通過描述未來的愿景說服他們。之后幾年里,我們平均營收年增速在50%-100%,因?yàn)槲覀円婚_始投入在自動化算法的比例比較大,堅(jiān)持難而正確的事情,所以橫向?qū)Ρ龋瑳]有純粹做業(yè)務(wù)的公司跑得快。”AI數(shù)據(jù)服務(wù)企業(yè)星塵數(shù)據(jù)(北京星塵紀(jì)元智能科技有限公司)的創(chuàng)始人、CEO章磊告訴市界。
不過,最近情況明顯發(fā)生了變化。越來越多投資人找到星塵數(shù)據(jù),希望能對其進(jìn)行投資。
2022年12月底,星塵數(shù)據(jù)完成了5000萬元的A輪融資。據(jù)一位接近星塵數(shù)據(jù)的知情人士透露,此后仍有多家投資機(jī)構(gòu)在積極接觸星塵數(shù)據(jù),“有時(shí)候一天要接觸不止一家機(jī)構(gòu)”。公司預(yù)計(jì)將在2023年中開啟下一輪融資。
一家企業(yè)面臨的際遇變化,背后是越來越多的投資人正將目光投向這一領(lǐng)域。
供職于一家腰部投資機(jī)構(gòu)的Andy告訴市界,目前AI數(shù)據(jù)處理項(xiàng)目已經(jīng)成為新的投資熱點(diǎn),“在2017、2018年的AI融資高峰期里,如果一個(gè)項(xiàng)目同時(shí)滿足海歸科學(xué)家、CV(計(jì)算機(jī)視覺技術(shù))、團(tuán)隊(duì)這3點(diǎn),大家都會搶著投?,F(xiàn)如今如果把CV換成數(shù)據(jù),大家也會搶著投。”
所謂“搶”,體現(xiàn)在當(dāng)Andy接觸到某個(gè)數(shù)據(jù)處理團(tuán)隊(duì)時(shí),“對方會直言近期也有別的投資方來聯(lián)系過,壓力就給到我這邊了”。
在中小型投資機(jī)構(gòu)做出動作之前,頭部的資本已更早地對AI數(shù)據(jù)進(jìn)行了布局,這更讓新入場的團(tuán)隊(duì)和資本感受到壓力。
比如,國內(nèi)“AI數(shù)據(jù)第一股”海天瑞聲曾在2017年的B輪投資中,獲得了小米集團(tuán)的青睞;2018年,梅花創(chuàng)投現(xiàn)身于愛數(shù)智慧的A輪融資;2019年,數(shù)據(jù)服務(wù)平臺格物鈦完成Pre-A輪融資,紅杉中國、真格基金同臺投資……
如果說AI數(shù)據(jù)服務(wù)在一二級市場的火熱距離普通人的生活還有距離,那么產(chǎn)業(yè)層面的火熱則更容易被人們所感知。
近幾個(gè)月,在河南從事文本標(biāo)注工作的史月,突然發(fā)現(xiàn)自己的職業(yè)“火”起來了,“我一直都是獨(dú)立做標(biāo)注單,靠熟人組團(tuán)接單。最近明顯感覺單子多了,有時(shí)候突然有熟人把我拉到一個(gè)微信群里,然后就開始發(fā)需求,問能不能接”。
在內(nèi)蒙古的易暉也有同樣的感受:“甲方非常多。我一年前入行,在本地?cái)?shù)標(biāo)基地和朋友一起創(chuàng)業(yè)做標(biāo)注團(tuán)隊(duì),一年過去我們已經(jīng)發(fā)展出300人的團(tuán)隊(duì)了?!苯酉聛?,易暉還打算繼續(xù)擴(kuò)充團(tuán)隊(duì):“你只有更大的團(tuán)隊(duì),才能拿到更大體量的數(shù)據(jù)包?!?
不僅如此,易暉口中的一些“甲方”已親自下場,試圖自主搭建數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。據(jù)36氪援引業(yè)內(nèi)人士信息:“目前,已經(jīng)有不少AI大廠開始著手把自己AI標(biāo)注的部分工作獨(dú)立出來了?!?
消解勞動密集的“魔咒”
與AI數(shù)據(jù)投資熱潮分不開的,是以ChatGPT為代表的大模型的興起。
Meta首席人工智能科學(xué)家Yann LeCun評論ChatGPT稱:“(它)并不具有創(chuàng)新性,也不具有革命性……它只是個(gè)巧妙的組合”。
從AI的三要素算法、算力和數(shù)據(jù)角度分別來看,ChatGPT采用的核心算法Transformer最早由谷歌提出,代碼已經(jīng)開源;而ChatGPT訓(xùn)練過程中由英偉達(dá)芯片A100支持也早已不是秘密。在這個(gè)令人驚嘆的大模型中,唯一無形的技術(shù)壁壘只剩下數(shù)據(jù)——那多達(dá)175B個(gè)參數(shù),一個(gè)極其高質(zhì)量的數(shù)據(jù)集。
如國內(nèi)AI企業(yè)OneFlow對此評論的:“算力(芯片)是自由流通的商品,花錢可以買到,工程(算法)上有開源項(xiàng)目和團(tuán)隊(duì),因此,對互聯(lián)網(wǎng)大廠之外的團(tuán)隊(duì)來說,剩下最大的挑戰(zhàn)在于高質(zhì)量訓(xùn)練數(shù)據(jù)集。”
至今,OpenAI尚未公布ChatGPT訓(xùn)練用數(shù)據(jù)集的來源和具體細(xì)節(jié)。
“人工智能三要素里,數(shù)據(jù)不值錢,這是過去幾十年里大家形成的觀念,但是就像Paul Graham(硅谷知名天使投資人)說的,創(chuàng)業(yè)思維最吊詭的一點(diǎn)在于‘正確的做法和直覺往往是相悖的’。現(xiàn)在全球估值最高的AI公司,恰恰是一家數(shù)據(jù)標(biāo)注企業(yè)。這足以說明數(shù)據(jù)服務(wù)的價(jià)值是被低估的。”一位投資人向市界評論道。
他提到的這家AI數(shù)據(jù)標(biāo)注企業(yè),是美國華裔創(chuàng)始人Alexandr Wang在2016年創(chuàng)辦的Scale AI。截至2021年4月宣布的一輪融資,Scale AI的估值為73億美元,公司客戶中包括OpenAI、Airbnb等知名企業(yè)或機(jī)構(gòu)。
這種價(jià)值的低估不僅發(fā)生在一級市場。哪怕在許多市場參與者眼中,AI數(shù)據(jù)處理也是一個(gè)人力“內(nèi)卷”的生意。
星塵數(shù)據(jù)創(chuàng)始人、CEO章磊分析道:“目前市場中存在最多類型的AI數(shù)據(jù)企業(yè)分為兩類,第一類是‘做生意’型的企業(yè),也就是自己聚集一批標(biāo)注人力并做中間整合、低買高賣,核心競爭力在于對甲方的商務(wù)、銷售能力;第二類是做眾包平臺,甲方可以在平臺發(fā)布任務(wù),人力自主接單,這類平臺的核心競爭力是運(yùn)營能力,要看拉新、月活、日活等數(shù)據(jù)。但這兩類企業(yè)都沒有發(fā)展算法相關(guān)的能力?!?
而這兩類企業(yè),都沒有脫離AI數(shù)據(jù)服務(wù)“勞動密集”的窠臼,但Scale AI代表的是一種不同于傳統(tǒng)數(shù)據(jù)標(biāo)注企業(yè)人力“內(nèi)卷”的全新商業(yè)路徑。盡管同樣雇傭了部分海外人力進(jìn)行標(biāo)注,但Scale AI更多是通過自研的自動化數(shù)據(jù)標(biāo)注(auto labeling)平臺完成工作。
具體來說,Scale AI的標(biāo)注工具能夠通過算法自動、快速甄別物體,通過初篩的圖片再經(jīng)過外包團(tuán)隊(duì)的二次篩查和標(biāo)注,用人機(jī)交互的方式消解對人工的過度依賴,在海量數(shù)據(jù)的效率、成本、標(biāo)注準(zhǔn)確率之間尋找最佳平衡點(diǎn)。
如何讓數(shù)據(jù)有更高的價(jià)值
理想狀態(tài)下,90%的數(shù)據(jù)標(biāo)注工作都可以由數(shù)據(jù)公司提供的工具來完成。但如果想要助力像ChatGPT一樣能力出眾的模型誕生,這或許還遠(yuǎn)遠(yuǎn)不夠。
“想要樹立獨(dú)特的競爭力,需要跟算法客戶有更加深度的綁定,思考在數(shù)據(jù)環(huán)節(jié)能夠怎么幫助前沿算法落地?!闭吕诒硎尽?
數(shù)據(jù)自動化標(biāo)注工具說到底也是AI算法和產(chǎn)品設(shè)計(jì)。而隨著技術(shù)進(jìn)步,算法對數(shù)據(jù)系統(tǒng)的要求不僅僅是人工苦力活,更多的是自動化、算法策略,以及相匹配的數(shù)據(jù)閉環(huán)系統(tǒng)。例如ChatGPT中的人機(jī)閉環(huán),就需要支持主動學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的系統(tǒng)與之匹配。
這意味著要建立數(shù)據(jù)服務(wù)的壁壘,或許還需另辟蹊徑。據(jù)章磊分析,除了通過自動化標(biāo)注工具來提升標(biāo)注效率之外,還需要具備另外兩方面的能力:數(shù)據(jù)策略能力和數(shù)據(jù)閉環(huán)能力。
其中,前者指的是數(shù)據(jù)服務(wù)商對AI數(shù)據(jù)處理整個(gè)過程中的領(lǐng)悟和把控力,既涉及大量算法相關(guān)的技術(shù),也涉及以數(shù)據(jù)為中心的反饋迭代技術(shù),還需要服務(wù)商掌握一整套項(xiàng)目管理的方法論。
舉例來說,相較于此前算法客戶提出標(biāo)注規(guī)則,服務(wù)商“盲目”完成任務(wù)的舊模式,未來數(shù)據(jù)服務(wù)人員能否對算法標(biāo)注規(guī)則給出自己的建議,來提升算法的訓(xùn)練效果?
另外據(jù)一位資深A(yù)I數(shù)據(jù)服務(wù)從業(yè)者告訴市界,據(jù)其調(diào)研,如今企業(yè)缺乏AI數(shù)據(jù)資源管理系統(tǒng)是常態(tài),“此前由于缺乏數(shù)據(jù)管理意識,甚至很多科技大廠也沒有建立起AI database,創(chuàng)始人甚至可能不知道公司到底有多少數(shù)據(jù)資源。但是如今隨著大模型等風(fēng)口降臨,許多企業(yè)都準(zhǔn)備自研數(shù)據(jù)系統(tǒng)”。
但是,在短時(shí)間內(nèi)想要研發(fā)出可供大模型訓(xùn)練的數(shù)據(jù)系統(tǒng)并非易事。
因此,在這一方面提供助力,也是AI數(shù)據(jù)服務(wù)企業(yè)在“數(shù)據(jù)策略”方面發(fā)展的一大方向。章磊分析:“如今客戶需要的數(shù)據(jù)系統(tǒng)需要滿足兩個(gè)特點(diǎn),分別是具有自動化能力、具有和算法的整合能力?!?
能否幫助客戶在繁雜的數(shù)據(jù)中快速摸索和整理出可供訓(xùn)練的部分?這也考驗(yàn)著服務(wù)商的數(shù)據(jù)策略能力。
而數(shù)據(jù)閉環(huán)能力,指的則是算法模型與數(shù)據(jù)集之間協(xié)同的、相互的、同期的迭代。當(dāng)AI模型輸出結(jié)果出現(xiàn)問題時(shí),數(shù)據(jù)服務(wù)環(huán)節(jié)可以動態(tài)感知到問題所在,并通過同步改變輸入的參數(shù)來校正訓(xùn)練結(jié)果。
從這個(gè)意義而言,“數(shù)據(jù)閉環(huán)”的能力,就是模型自我快速“debug(調(diào)試)”的能力。
舉例而言,許多用戶在使用過程中發(fā)現(xiàn)ChatGPT在回答某些問題時(shí)出現(xiàn)了錯誤。而如今發(fā)布的ChatGPT并未接入互聯(lián)網(wǎng),訓(xùn)練數(shù)據(jù)截至2021年之前。
也就是說,ChatGPT模型與數(shù)據(jù)之間的實(shí)時(shí)聯(lián)絡(luò)被“斬?cái)唷绷?,模型無法實(shí)時(shí)迭代。如果能夠打通數(shù)據(jù)閉環(huán),這個(gè)問題就能得到解決。
▲(ChatGPT在回答某些問題時(shí)可能發(fā)生錯誤)
據(jù)章磊透露,目前國內(nèi)大部分AI數(shù)據(jù)服務(wù)企業(yè)仍聚集于人力標(biāo)注的低價(jià)值量環(huán)節(jié),具備上述三方面潛力的玩家鳳毛麟角。
英特爾聯(lián)合創(chuàng)始人安迪·格魯夫曾在其自傳中寫道:科技發(fā)展史上有一個(gè)基本規(guī)則,即只要可能發(fā)生的事,一定會變成事實(shí)。
對許多人而言,人工標(biāo)注還是AI數(shù)據(jù)處理的代名詞,但變化已在不經(jīng)意之間發(fā)生。盡管離最終實(shí)現(xiàn)還有距離,但“自動化標(biāo)注+數(shù)據(jù)策略服務(wù)+構(gòu)建數(shù)據(jù)閉環(huán)”正為AI數(shù)據(jù)服務(wù)市場打開更大的想象空間。
對于國內(nèi)玩家而言,唯有上溯產(chǎn)業(yè)價(jià)值鏈,才能在新一波的AI技術(shù)浪潮中不受蕩滌。
注:文中Andy為化名。
參考文獻(xiàn):
1、《開啟人工智能時(shí)代 給AI一雙慧眼 專訪斯坦福大學(xué)人工智能實(shí)驗(yàn)室主任李飛飛》,楊瀾訪談錄
2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吳恩達(dá)
3、《ChatGPT數(shù)據(jù)集之謎》,OneFlow
猜你喜歡
【價(jià)值發(fā)現(xiàn)】AI科技持續(xù)高景氣,這幾只寶藏基你買了嗎?
Choice數(shù)據(jù)顯示,截至2025年9月11日,人工智能板塊指數(shù)今年以來累計(jì)上行76.80%。大模型“上車”,“看懂”物理世界是必由之路
中國智駕領(lǐng)域的新生力量正以對物理世界的深度理解,賦予大模型AI全局感知、深度認(rèn)知和實(shí)時(shí)推理決策能力,重新定義自動駕駛的邊界。6名員工,半年用AI實(shí)現(xiàn)財(cái)富自由
一個(gè)連續(xù)創(chuàng)業(yè)者在半年內(nèi)通過AI實(shí)現(xiàn)財(cái)富自由的故事。深庭紀(jì)完成數(shù)千萬元種子+輪融資,吳恩達(dá)學(xué)生自研AI大腦
由黑芝麻智能,軟通高科、粒子未來基金等機(jī)構(gòu)參投。