作者 |??程茜,編輯?|??漠影
百模大戰(zhàn)靠數(shù)據(jù),數(shù)據(jù)是行業(yè)場景落地的制勝關鍵。
智東西11月28日報道,就在昨天,獵戶星空正式發(fā)布開源Orion-MoE 8x7B參數(shù)MoE模型,并與聚云科技共同發(fā)布大模型數(shù)據(jù)服務——AI數(shù)據(jù)寶。
獵戶星空首席科學家韓堃介紹道,AI數(shù)據(jù)寶AirDS(AI-Ready Data Service)可以為企業(yè)提供全方位的大模型數(shù)據(jù)服務,涵蓋數(shù)據(jù)收集、清洗、標注、提示詞工程以及評估等全方位環(huán)節(jié)。AI數(shù)據(jù)寶是底層模型和上層應用之間的重要橋梁。
一直以來,數(shù)據(jù)、算法、算力作為大模型發(fā)展的三駕馬車缺一不可,如今算法、算力的差距明顯縮小,數(shù)據(jù)的重要性愈發(fā)凸顯。相比于算法和算力,數(shù)量充足、高質量的數(shù)據(jù)是大模型效果、應用開發(fā)的關鍵,也是AI應用效果能拉開更大差距的核心。在大模型商業(yè)閉環(huán)中,數(shù)據(jù)明顯成為最直接影響其在垂直行業(yè)落地效果的關鍵。
因此,在AI數(shù)據(jù)寶發(fā)布之際,獵豹移動董事長兼CEO、獵戶星空董事長傅盛在接受智東西等媒體采訪時提到,捅破AI行業(yè)窗戶紙,百模大戰(zhàn)靠數(shù)據(jù),數(shù)據(jù)是行業(yè)場景落地的制勝關鍵。
在此背景下,依托獵戶星空的大模型能力、對數(shù)據(jù)收集、標注以及提示詞工程等全方位能力以及聚云科技對中國出海企業(yè)場景需求的理解,成為當下業(yè)內唯一一家既做大模型,又將大模型數(shù)據(jù)服務開放出來的公司。
這在當下對于大模型產業(yè)發(fā)展,在技術、生態(tài)等諸多布局方面都有重要意義。
01.“煉丹”容易“修仙”難數(shù)據(jù)是場景落地的制勝關鍵
從去年至今,基于革命性神經網絡Transformer架構的ChatGPT引爆AI產業(yè),再到得算力者得天下的算力時代來臨,英偉達GPU被瘋搶……算法和算力的激烈競爭已經放緩。
伴隨著大模型產業(yè)競爭升級,應用落地加速,算力層面大家選擇的都是同樣的卡,算法層面企業(yè)大都會選擇成熟的Transformer架構,這兩架馬車已經無法成為企業(yè)拉開差距的關鍵,其重要性已不可同日而語,反觀數(shù)據(jù)則成為了當下各路諸侯的制勝關鍵。
這背后的一大關鍵話題就是:“煉丹”容易“修仙”難。
更加多元的AI應用涌現(xiàn),并已經展現(xiàn)出在各行各業(yè)落地的價值,但這只是大模型發(fā)展的冰山一角。能真正讓大模型在各行各業(yè)發(fā)揮最大價值,真正讓企業(yè)用好大模型實現(xiàn)降本增效并不容易,數(shù)據(jù)的多少、質量如何,是企業(yè)能否構建一個好的AI應用的關鍵。
不過,僅僅擁有數(shù)據(jù)就夠了嗎?答案是否定的。企業(yè)在選擇AI應用時,最關鍵的就是其不出錯且在此基礎上能大幅提高業(yè)務效率。但正如獵豹移動副總裁童寧所說,早期企業(yè)進行大模型應用開發(fā)時,并沒有找到合適的路徑,其只能看到模型的排名高、口碑好,無法洞察到冰山之下應用開發(fā)過程中的諸多難題。
而這些難題往往事關大模型深入企業(yè)業(yè)務的具體效果,如數(shù)據(jù)是否準確、真實,數(shù)據(jù)的多樣性是否足夠,是否進行了提示詞優(yōu)化。
冰山之下的“修仙”之路任重道遠,企業(yè)需要對數(shù)據(jù)進行清洗、標注,模型微調、強化,以及對大量文字、圖片、視頻、音頻甚至3D等多模態(tài)數(shù)據(jù)進行快速處理,這都與避免大模型幻覺,突破大模型識別、理解的正確率強相關。傅盛認為,大模型數(shù)據(jù)服務正是產業(yè)鏈中決定大模型基礎能力的關鍵,需要和應用高度結合,將高質量數(shù)據(jù)找出來。
這對于企業(yè)而言是必須要解決的難題,但諸多企業(yè)當下在數(shù)據(jù)處理方面有門檻,目前市面上的數(shù)據(jù)處理工具也各有利弊,因此,什么樣的數(shù)據(jù)服務才能將大模型的基座能力與好用的應用承接起來,是擺在進行大模型應用開發(fā)的企業(yè)面前的一大難題。
02.既做大模型、又做應用開發(fā)讓模型、數(shù)據(jù)、業(yè)務形成閉環(huán)
今年以來,百模大戰(zhàn)落下帷幕,AI應用成各家必爭之地。
那么,在這之中誰來提供數(shù)據(jù)服務才是最優(yōu)解?什么樣的企業(yè)才能將模型、業(yè)務和數(shù)據(jù)串聯(lián)起來?
我們可以先從今天獵戶星空的新發(fā)布說起。
獵戶星空與聚云科技聯(lián)合發(fā)布AI數(shù)據(jù)寶AirDS,其提供了圍繞著數(shù)據(jù)的一整套服務,包括數(shù)據(jù)清洗、數(shù)據(jù)標注、提示詞工程、如何評測模型等,讓企業(yè)基于大模型快速構建好用的應用。
事實上,數(shù)據(jù)服務這一賽道并不是新興領域,目前行業(yè)中已經形成科技巨頭公司、專業(yè)基礎數(shù)據(jù)服務商、初創(chuàng)科技企業(yè)三足鼎立的局面。但對于目前企業(yè)的數(shù)據(jù)服務而言,這三類企業(yè)各有利弊。
此前,知名市研機構德勤咨詢發(fā)布的《AI基礎數(shù)據(jù)服務白皮書》就提到,傳統(tǒng)的專業(yè)型基礎數(shù)據(jù)服務商是行業(yè)重要組成部分,科技巨頭企業(yè)依托其科技實力和強大資源,逐漸占據(jù)了競爭優(yōu)勢。
其中,科技巨頭公司擁有自動化標注、專業(yè)數(shù)據(jù)采標及全棧式服務能力,其綜合能力最強,但這些服務并沒有完全開放,部分僅限于這些巨頭企業(yè)的客戶;專業(yè)型基礎數(shù)據(jù)服務商布局早,服務經驗積累深,在市場中占有較大份額,其最大優(yōu)勢是低成本人力服務,但相比于AI標注工具,目前人力服務在成本和效率方面已經不占優(yōu)勢;科技初創(chuàng)公司專注于通過自動化標注、AI標注工具切入市場降低人力成本,但相比于巨頭玩家其客戶資源并不充足。
這背后,獵戶星空與聚云科技的結合,就很好將兩者的優(yōu)勢相聯(lián)動,并規(guī)避了不同類型企業(yè)的缺點。
相比于大模型公司和傳統(tǒng)數(shù)據(jù)標注公司,AI數(shù)據(jù)寶AirDS擁有大模型研發(fā)、大模型數(shù)據(jù)服務、行業(yè)服務、AI應用開發(fā)成體系的能力。童寧談道,獵戶星空既做大模型研發(fā),提供大模型數(shù)據(jù)服務,同時去年以來已經在行業(yè)內進行了AI應用開發(fā)、交付等,并且聚云科技長期以來服務于中國品牌企業(yè)出海,因此擁有全鏈條端到端能力,因此其既擁有結合AI和人工的數(shù)據(jù)標注服務,還有一定量的客戶資源。
這樣一來,模型、數(shù)據(jù)、業(yè)務形成閉環(huán),獵戶星空的AI數(shù)據(jù)寶商業(yè)化已經跑通了。
目前,AI數(shù)據(jù)寶AirDS已經應用到了移動通信終端、互聯(lián)網娛樂、新能源汽車、互聯(lián)網金額、消費零售等領域企業(yè)中,其可以服務于多元化類型的中國品牌出海企業(yè)。
如某全球化移動終端客戶基于AI數(shù)據(jù)寶AirDS+多語種,解決了本地化場景語言適配的難題,AirDS通過收集多場景、覆蓋20多種語言的數(shù)據(jù)完成開發(fā)測試平臺,優(yōu)化提示詞工程后,使得該公司的相關評測指標結果的準確率超過95%
可以看到,大模型如何實現(xiàn)商業(yè)價值,是當下產業(yè)發(fā)展的關鍵命題,獵戶星空已經率先找到了一條可行路徑。
03.聚合AI技術+出海服務優(yōu)勢獵豹移動整合優(yōu)勢凸顯
此次獵戶星空發(fā)布AI數(shù)據(jù)寶并率先跑通商業(yè)化背后,隱含著兩個問題,那就是為什么獵戶星空能做,以及為什么獵戶星空先做成了。
歸結起來,就是獵戶星空對于AI產業(yè)的專注與堅持以及聚云科技對客戶出海需求的深刻洞察。
一方面,獵戶星空自2016年成立就堅定自研全鏈條AI技術,獵戶星空首席科學家韓堃談道,從最初豹小秘的智能語音交互系統(tǒng)、激光和視覺多模態(tài)系統(tǒng),再到招財豹智能室內導航系統(tǒng),目前,獵戶星空還在進行具身智能方面研究。
這之后,2021年底ChatGPT爆火,獵戶星空基于其多年的AI技術儲備快速切入,為客戶提供了AI應用、模型微調等服務。隨后,2023年中期,該公司走上了自研大模型的道路,從頭開始訓練了今年年初發(fā)布的“為企業(yè)應用而生”的開源百億參數(shù)模型Orion-14B。
今年,為了滿足客戶對模型速度快和效果好的需求,獵戶星空選擇了MoE路線,并于今天推出Orion-MoE 8x7B-Base模型。
Orion-MoE 8x7B模型的總參數(shù)為48B,每次執(zhí)行任務的激活參數(shù)為14B。主要中英文測評集效果對比顯示,Orion-MoE 8x7B模型效果,日語、韓語、西班牙語等多語種能力方面表現(xiàn)整體優(yōu)于Mixtral-8x7B等同級別參數(shù)模型。
推理速度方面,與類似效果的稠密模型進行對比,Orion-MoE 8x7B不同GPU不同并發(fā)數(shù)速度對比同級別參數(shù)模型提升可20%-30%。同時,這一模型已經完全開源,已上線GitHub、Hugging Face等平臺。
另一方面,聚云科技成立于2020年,其前身是獵豹移動出海1.0時期的IT運維服務部門,擁有超過10年的出海運維經驗,目前已服務出海中國品牌企業(yè)有上百家,是亞馬遜云科技在中國首批獲得生成式AI能力認證的高級咨詢合作伙伴,同時在今年以滿分成績通過亞馬遜云科技MSP認證Renewal。
此外,在大模型數(shù)據(jù)服務能力層面,獵豹移動控股的獵戶星空對通過提升數(shù)據(jù)質量來改善大模型效果有著充分的實踐經驗。
而這些都得益于獵豹移動的業(yè)務基因以及整合優(yōu)勢,近年來,獵豹移動戰(zhàn)略轉型從傳統(tǒng)的ToC業(yè)務轉向以AI和大模型為核心的ToB業(yè)務,并通過控股獵戶星空,進一步加強在AI服務機器人和AI大模型領域的布局。此次獵戶星空和聚云科技聯(lián)手打造的AI數(shù)據(jù)寶,正是這一布局的集中體現(xiàn)。
在這一背景下,模型、業(yè)務、數(shù)據(jù)通過AI數(shù)據(jù)寶將模型和企業(yè)真正串聯(lián)起來,實現(xiàn)大模型商業(yè)化閉環(huán),加速大模型的應用落地。
此外,獵戶星空還宣布與香港大學計算與數(shù)據(jù)科學學院簽訂了合作協(xié)議,雙方將聯(lián)合研發(fā)用于課程教學場景的AI應用教育工具,并開展“專注具身智能相關的課程項目”,共同推動AI技術在應用領域的普及與應用。
綜上可以看出,AI應用創(chuàng)新探索進入關鍵期,數(shù)據(jù)這類基礎設施的作用愈發(fā)重要,讓企業(yè)用好數(shù)據(jù)更為關鍵,這正是獵戶星空當下在做的事。
04.結語:8年積淀搭建大模型發(fā)展與企業(yè)需求互通之橋
數(shù)據(jù)在大模型發(fā)展中愈發(fā)重要,豐富的數(shù)據(jù)資源可以讓模型及時學習和適應新變化,滿足用戶在不同場景下的需求,AI數(shù)據(jù)服務就成為模型和上層應用之間的重要橋梁。
將數(shù)據(jù)更好利用起來,是大模型實現(xiàn)商業(yè)閉環(huán)的重要一步。獵戶星空正依托自己在AI領域8年的探索,聯(lián)動聚云科技對于出海企業(yè)核心需求的洞察,轉化為架起企業(yè)需求與大模型發(fā)展的橋梁。