作者?|??李水青
編輯?|??心緣
僅創(chuàng)立兩年員工62人,這家AI創(chuàng)企什么來(lái)路?
生成式AI領(lǐng)域的最大并購(gòu)案已經(jīng)誕生!
智東西6月27日?qǐng)?bào)道,據(jù)華爾街日?qǐng)?bào)今日消息,大數(shù)據(jù)超級(jí)獨(dú)角獸Databricks近日已同意以13億美元(約合94億元人民幣),收購(gòu)生成式AI初創(chuàng)公司MosaicML,引起了國(guó)內(nèi)外資本和智能圈的關(guān)注。
MosaicML是一家2021年創(chuàng)立于美國(guó)舊金山的AI軟件公司,截至目前公司總?cè)藬?shù)62人,此前僅獲得了6400萬(wàn)美元融資。這樣一家小AI公司為何能賣出百億元人民幣身價(jià)?從消息面上看,MosaicML的創(chuàng)業(yè)團(tuán)隊(duì)由英特爾負(fù)責(zé)AI的前高管掌舵,剛剛在今年6月開源了一個(gè)300億參數(shù)規(guī)模的大語(yǔ)言模型MPT-30B,這些動(dòng)向都為其成為“OpenAI挑戰(zhàn)者”埋下伏筆。同樣位于舊金山的Databricks是一家知名數(shù)據(jù)存儲(chǔ)和管理公司,本次收購(gòu)MosaicML,按照其說(shuō)法,是要助企業(yè)客戶利用專有數(shù)據(jù),以更低成本構(gòu)建語(yǔ)言模型,趕超GPT等大模型。
當(dāng)下正值A(chǔ)I掀起新浪潮,微軟、OpenAI、谷歌等科技大廠的聲勢(shì)浩大,國(guó)內(nèi)的“百模大戰(zhàn)”也進(jìn)入深水區(qū)。當(dāng)下,一些國(guó)內(nèi)投資者對(duì)AI大模型創(chuàng)業(yè)的前景產(chǎn)生了懷疑,比如知名投資人、金沙江創(chuàng)投董事總經(jīng)理朱嘯虎就直言,ChatGPT對(duì)創(chuàng)業(yè)公司很不友好,未來(lái)兩三年內(nèi)請(qǐng)大家放棄。MosaicML收購(gòu)案或許能為當(dāng)下的產(chǎn)業(yè)圈提供新的參考。
在OpenAI及科技大廠當(dāng)?shù)赖拇竽P蜁r(shí)代,AI創(chuàng)企的發(fā)展空間在哪里?MosaicML這樣創(chuàng)立僅兩年的公司為何能賣出高價(jià)?這對(duì)國(guó)內(nèi)市場(chǎng)有什么參考意義?本文對(duì)此進(jìn)行了深入探討。
01.MosaicML是誰(shuí)??jī)H15名研究員,英特爾AI大佬創(chuàng)業(yè),已開源大模型
首先來(lái)看看MosaicML公司是什么來(lái)路。從規(guī)模上看,MosaicML并不大。根據(jù)外媒援引官方披露消息,MosaicML目前擁有62名員工,其中研究人員僅為15名,在舊金山、紐約、帕洛阿爾托和圣迭戈設(shè)有辦事處,迄今為止主要是從Lux Capital和DCVC等投資者那里籌集了6400萬(wàn)美元。但MosaicML的創(chuàng)業(yè)團(tuán)隊(duì)不簡(jiǎn)單。MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao曾任英特爾副總裁兼AI產(chǎn)品事業(yè)部總經(jīng)理。Rao之前創(chuàng)辦了AI芯片公司Nervana,于2016年以4.08億美元被英特爾收購(gòu)。MosaicML的CTO Hanling Tang是前英特爾AI實(shí)驗(yàn)室高級(jí)總監(jiān),可以說(shuō)MosaicML是妥妥的大佬創(chuàng)業(yè)。
▲MosaicML聯(lián)合創(chuàng)始人兼首席執(zhí)行官Naveen Rao(左)和CTO Hanling Tang(右)
MosaicML已經(jīng)開源了大語(yǔ)言模型,接受市場(chǎng)檢閱。今年5月,其開源了70億參數(shù)規(guī)模的大語(yǔ)言模型MPT-7B,緊接著在6月開源了第二個(gè)開源大型語(yǔ)言模型MPT-30B。該公司稱,盡管其參數(shù)量?jī)H為300億,是GPT-3的1750億參數(shù)的1/6,但在推理任務(wù)表現(xiàn)超過(guò)GPT-3,且能更容易在本地硬件上運(yùn)行,部署推理成本更低。Rao承認(rèn),GPT-4在大多數(shù)方面的功能都更為優(yōu)越,不過(guò),MosaicML的模型提供了更長(zhǎng)的上下文長(zhǎng)度,這允許獨(dú)特的用例,例如讓其生成著名小說(shuō)《了不起的蓋茨比》的尾聲,且成本更低。按照MosaicML的說(shuō)法,300億的參數(shù)規(guī)模是其精心選擇的結(jié)果,可以更好地針對(duì)GPU進(jìn)行優(yōu)化:其能夠輕松部署在單個(gè)GPU上,在16位精度對(duì)應(yīng)一塊80GB內(nèi)存的A100 GPU,也可以在8位精度對(duì)應(yīng)一塊40GB的A100GPU。據(jù)稱該模型在眾多任務(wù)中實(shí)際效果優(yōu)于更費(fèi)算力的LLaMA、Falcon。Rao在采訪中提到,MosaicML使用了一種名為“FlashAttention”的技術(shù),使用戶能更快地進(jìn)行推理和訓(xùn)練。
同時(shí),MPT-30B接受了比其他模型更長(zhǎng)的序列的訓(xùn)練,最多達(dá)8000個(gè)標(biāo)記;但包括GPT-3、LLaMA和 Falcon每個(gè)模型僅為2000個(gè)標(biāo)記。簡(jiǎn)單說(shuō),這意味著用戶可以輸入更長(zhǎng)的提示,可能更適合數(shù)據(jù)密集型企業(yè)應(yīng)用程序。醫(yī)療保健和銀行等行業(yè)可以受益于MosaicML解釋和匯總大量數(shù)據(jù)的能力。例如,在醫(yī)學(xué)領(lǐng)域,該模型可以解釋實(shí)驗(yàn)室結(jié)果,并通過(guò)分析各種輸入來(lái)深入了解患者的病史。開源模型更有利于保障醫(yī)療數(shù)據(jù)安全,通過(guò)API將其發(fā)送給OpenAI則威脅數(shù)據(jù)安全。
Rao說(shuō),其可以助一個(gè)模型的構(gòu)建成本從數(shù)千萬(wàn)美元降至數(shù)十萬(wàn)美元。不過(guò),很難完全獨(dú)立驗(yàn)證MosaicML的說(shuō)法,因?yàn)镽ao談到的三個(gè)開源大語(yǔ)言模型項(xiàng)目(MosaicML、LLaMA和Falcon)尚未使用斯坦福大學(xué)的HELM措施等權(quán)威方式進(jìn)行測(cè)試。但可以肯定的是,MosaicML在這幫英特爾系A(chǔ)I大牛的帶領(lǐng)下,正通過(guò)對(duì)準(zhǔn)GPT模型的局限之處,試圖越過(guò)OpenAI實(shí)現(xiàn)彎道超車。
02.超級(jí)獨(dú)角獸出手,加碼開源大模型與OpenAI掰腕子
不僅MosaicML是開源大語(yǔ)言模型的代表,其收購(gòu)方Databricks也是開源模型的重要倡導(dǎo)者。Databricks創(chuàng)立于2013年,是一家由美國(guó)伯克利大學(xué)AMP實(shí)驗(yàn)室著名的Spark大數(shù)據(jù)處理系統(tǒng)多位創(chuàng)始人聯(lián)合創(chuàng)立的Spark商業(yè)化公司。相比于微軟、谷歌等大廠,Databricks實(shí)際上也只能算一家創(chuàng)企。但其在2021年8月完成了一輪16億美元融資,當(dāng)年已成為估值達(dá)380億美元的超級(jí)獨(dú)角獸,趕超了OpenAI當(dāng)下的估值。營(yíng)收方面,根據(jù)Databricks公布數(shù)據(jù),其在2022年年收入超過(guò)10億美元,這都為公司收購(gòu)MosaicML提供了經(jīng)濟(jì)基礎(chǔ)。
在AI方面,Databricks主張開源模型可以與OpenAI等公司提供的模型相媲美。今年4月,Databricks公布了其更新之后的開源Dolly大語(yǔ)言模型,它能夠響應(yīng)客戶查詢,根據(jù)Databricks智能湖倉(cāng)內(nèi)的數(shù)據(jù)給出答案。隨著ChatGPT卷起新浪潮,Databricks也憑借其湖倉(cāng)一體平臺(tái)允許數(shù)據(jù)團(tuán)隊(duì)存儲(chǔ)和保護(hù)數(shù)據(jù),支持機(jī)器學(xué)習(xí)工具的開發(fā);Databricks同時(shí)也提供TensorFlow等流行AI框架集成,降低企業(yè)構(gòu)建和部署AI模型的門檻。并不是每個(gè)人、每個(gè)應(yīng)用程序都需要GPT-4。Databricks的首席執(zhí)行官Ali Ghodsi說(shuō),現(xiàn)成的模型接受過(guò)互聯(lián)網(wǎng)數(shù)據(jù)的訓(xùn)練,雖然已經(jīng)可用,但它們充滿了可能扭曲結(jié)果的無(wú)關(guān)信息,外部供應(yīng)商構(gòu)建的模型中的數(shù)據(jù)隱私安全問(wèn)題也值得警惕。
Databricks的一大核心技術(shù)被稱為L(zhǎng)akehouse(湖倉(cāng)一體),可以為AI應(yīng)用管理數(shù)據(jù),并將數(shù)據(jù)、分析和AI編程工具統(tǒng)一在一個(gè)系統(tǒng)中。MosaicML并入Databricks后將成為旗下的一項(xiàng)獨(dú)立服務(wù),助企業(yè)利用專有數(shù)據(jù)構(gòu)建低成本語(yǔ)言模型。比如,Replit這樣提供編程工具的公司已在使用Databricks作為數(shù)據(jù)管道,進(jìn)而將信息傳輸?shù)組osaicML來(lái)訓(xùn)練代碼生成模型,進(jìn)而服務(wù)其客戶??梢钥吹?,數(shù)據(jù)智能獨(dú)角獸Databricks正試圖通過(guò)并入AI大模型能力,挑戰(zhàn)微軟、OpenAI、谷歌等大公司的市場(chǎng)統(tǒng)治力,為產(chǎn)業(yè)提供了新的參考。不過(guò),也有人將MosaicML收購(gòu)案看作借大模型熱度炒作,因?yàn)镈atabricks主營(yíng)Lakehouse,主要是用Spark來(lái)處理大規(guī)模集群數(shù)據(jù),因此其整合大語(yǔ)言的價(jià)值并不明確。尚不清楚Databricks通過(guò)何等方式支付收購(gòu)項(xiàng)目。因此,這一并購(gòu)案能否真正證明MosaicML的商業(yè)價(jià)值,仍需要等待時(shí)間的驗(yàn)證。
03.AI大模型創(chuàng)業(yè)的機(jī)遇點(diǎn):垂直行業(yè)、數(shù)據(jù)安全、更低成本
當(dāng)下正值國(guó)內(nèi)“百模大戰(zhàn)”進(jìn)入深水區(qū),MosaicML并購(gòu)案或許對(duì)國(guó)內(nèi)產(chǎn)業(yè)也能帶來(lái)一些新參考。且不論Databrick豪擲千金的真實(shí)意圖,這一案例體現(xiàn)了國(guó)外市場(chǎng)對(duì)AI大模型創(chuàng)業(yè)的積極態(tài)度。本次被收購(gòu)的MosaicML公司創(chuàng)立僅兩年,公司僅62人,但收購(gòu)價(jià)格達(dá)到了近100億元人民幣的高價(jià),給國(guó)內(nèi)AI大模型創(chuàng)業(yè)增添了一定信心。近日,國(guó)內(nèi)投資圈出現(xiàn)了對(duì)生成式AI及大模型投資的懷疑。美團(tuán)聯(lián)合創(chuàng)始人王慧文因病離職引起人們對(duì)AI創(chuàng)業(yè)難度的擔(dān)憂,昨日獵豹移動(dòng)CEO傅盛與金沙江創(chuàng)投董事總經(jīng)理朱嘯虎在朋友圈就ChatGPT的爭(zhēng)論也引起關(guān)注。朱哮虎認(rèn)為ChatGPT對(duì)創(chuàng)業(yè)公司很不友好,未來(lái)兩三年內(nèi)請(qǐng)大家放棄,傅盛吐槽說(shuō)“硅谷一半的創(chuàng)業(yè)企業(yè)都圍繞chatgpt開始了,我們的投資人還能這么無(wú)知者無(wú)畏”,朱嘯虎在評(píng)論區(qū)說(shuō)傅盛是抬杠。
市場(chǎng)分析公司PitchBook Data數(shù)據(jù)顯示,全球生成式AI市場(chǎng)的支出到今年底預(yù)計(jì)將達(dá)到426億美元,到2026年將達(dá)到981億美元。報(bào)告稱,生成式AI初創(chuàng)公司的風(fēng)險(xiǎn)投資從2022年全年的48億美元增至2023年前5個(gè)月的127億美元。值得一提的是,垂直行業(yè)大模型市場(chǎng)正成為重要的機(jī)會(huì)點(diǎn),密集數(shù)據(jù)成為AI大模型創(chuàng)業(yè)成功的關(guān)鍵要素。生物制藥服務(wù)公司Syneos Health的首席信息兼數(shù)字官Larry Pickett在近期談道,目前根據(jù)專業(yè)健康數(shù)據(jù)訓(xùn)練模型的成本,大約為100萬(wàn)至200萬(wàn)美元。通過(guò)使用較小的開源預(yù)訓(xùn)練模型,而不是在OpenAI擁有的整個(gè)數(shù)據(jù)集之上構(gòu)建,花費(fèi)會(huì)大大減少。企業(yè)技術(shù)領(lǐng)導(dǎo)者面臨著為AI模型準(zhǔn)備數(shù)據(jù)的壓力,數(shù)據(jù)和數(shù)據(jù)智能平臺(tái)成為痛點(diǎn)也成為創(chuàng)業(yè)者的機(jī)會(huì)點(diǎn)。可以看到,垂直行業(yè)、數(shù)據(jù)安全、更低成本,這些要素或許都是AI創(chuàng)企避開巨獸腳印,謀求商業(yè)化成功的重要機(jī)會(huì)點(diǎn)。
04.結(jié)語(yǔ):生成式AI創(chuàng)業(yè)“吸金” 創(chuàng)企要避開巨獸的腳印
13億美元的大額生成式AI并購(gòu)案為AI創(chuàng)業(yè)帶來(lái)了新參考。盡管MosaicML公司的創(chuàng)立時(shí)間、規(guī)模、人才實(shí)力看起來(lái)都十分有限,且其大模型效果仍未趕超GPT-4,MosaicML仍被收購(gòu)方Databricks給予了較高認(rèn)可,從而階段性地驗(yàn)證了其價(jià)值。實(shí)際上,也有人認(rèn)為Databricks整合大語(yǔ)言模型的價(jià)值不夠明確,可能是借大模型熱度炒作,這一案例參考性還需要時(shí)間驗(yàn)證。不過(guò)無(wú)論如何,MosaicML案例也確實(shí)點(diǎn)明了垂直行業(yè)、數(shù)據(jù)安全、更低成本這些AI創(chuàng)業(yè)的關(guān)鍵要素,值得產(chǎn)業(yè)參考。