加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • Sora、Gemini大秀超能力,英偉達(dá)版GPT深入PC本地
    • 大模型加速演進(jìn),算力需求倍增
    • 深挖異構(gòu)“富礦”,持續(xù)優(yōu)化算力效率
    • 離線大模型,有望觸達(dá)AIGC毛細(xì)血管
    • 重視中文數(shù)據(jù)開源生態(tài)建設(shè)
    • 寫在最后
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

海外滅霸打響指,中國AI可以做好這三件事!

02/23 07:15
2593
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近來,全球AI頻放大招。OpenAI和谷歌展示了大模型沒有上限的潛力,英偉達(dá)則展示了模型應(yīng)用可以下探的邊界。

這其實(shí)也是大模型未來的兩大方向,一種是在線的大模型,能力頂級(jí),成為一部分專業(yè)人士不可或缺的工具;另一種則是本地AI算力的輕型化和垂直化,離線利用本地?cái)?shù)據(jù)訓(xùn)練垂直模型,構(gòu)建本地的AI知識(shí)庫。

對(duì)于中國的AI市場來說,哪種更香?如何更貼近現(xiàn)實(shí)?

Sora、Gemini大秀超能力,英偉達(dá)版GPT深入PC本地

OpenAI Sora橫空出世,被業(yè)界認(rèn)為“可以付諸商業(yè)或工業(yè)化生產(chǎn)的水平,是視頻創(chuàng)作領(lǐng)域里程碑式的產(chǎn)品”。CEO Altman透露,OpenAI已經(jīng)在和安全測試機(jī)構(gòu)、電影和視頻創(chuàng)作者合作,以改進(jìn)產(chǎn)品。這也進(jìn)一步印證其商業(yè)化步伐在加快,屆時(shí),“商業(yè)可用”又將掀起一場疾風(fēng)驟雨。

谷歌也同步宣布了Gemini1.5大模型,最大的亮點(diǎn)是百萬級(jí)別的上下文長度。Gemini 1.0 Pro模型能夠處理3.2 萬個(gè)token(約2萬個(gè)單詞),相比之下,Gemini 1.5 Pro 每次可以處理100萬個(gè)token,結(jié)合原生多模態(tài)能力,可以一次性處理大量信息,例如1小時(shí)的視頻、11小時(shí)的音頻、超過3 萬行(或70萬個(gè)單詞)的代碼。Gemini1.5具備更強(qiáng)的推理能力、更強(qiáng)的多模態(tài)理解能力和編程能力,被認(rèn)為已經(jīng)有了寫高質(zhì)量深度研究報(bào)告和論文的潛力。

除了這兩個(gè)大模型,英偉達(dá)近期也推出了自家的GPT——Chat with RTX,用戶可在搭載 NVIDIA GeForce RTX 30系列或更高版本的GPU(至少8GB顯存)進(jìn)行本地部署,使用 Mistral、 Llama 2 等開源模型,幫助用戶閱讀文檔/視頻并通過檢索增強(qiáng)生成(RAG)總結(jié)文件內(nèi)容,全程由本地RTX進(jìn)行推理。與依賴云端環(huán)境的LLM服務(wù)不同,Chat with RTX讓用戶能夠在 PC桌面端處理敏感資料,無需分享給第三方或是連接到網(wǎng)絡(luò),這是本地AI助手的一小步,也是邊緣推理的一大步。

大模型加速演進(jìn),算力需求倍增

以當(dāng)紅的Sora為例,由于OpenAI透露的信息并不多,因此技術(shù)細(xì)節(jié)方面的依據(jù)主要是業(yè)界的一些推算。目前多數(shù)都認(rèn)為它與傳統(tǒng)大語言模型(LLM) Transformer在架構(gòu)訓(xùn)練時(shí)的算力需求,幾乎呈幾何倍數(shù)遞增。

作為一款劃時(shí)代的文生視頻大模型,Sora與Transformer模型本質(zhì)上的不同在于訓(xùn)練數(shù)據(jù)分別是patch與token,分別代表圖片與文字。圖像的輸入數(shù)據(jù)不是一個(gè)一個(gè)字符,而是一個(gè)一個(gè)像素。比如GPT-4被訓(xùn)練以處理一串token,并預(yù)測出下一個(gè)token;而Sora不是預(yù)測序列中的下一個(gè)文本,是預(yù)測序列中的下一個(gè)“patch”。顯然,圖片涉及的時(shí)空間數(shù)據(jù)相較于語言文字呈現(xiàn)的數(shù)據(jù)維度有著幾何維度的差異。

由谷歌支持的人工智能初創(chuàng)公司 Runway去年發(fā)布了文生視頻模型 Gen-2,這是首批商業(yè)化的文本轉(zhuǎn)視頻模型之一。數(shù)據(jù)顯示,GEN-2模型是由2.4億張圖片和640萬個(gè)視頻片段組成的內(nèi)部數(shù)據(jù)集進(jìn)行訓(xùn)練的。

判斷Sora架構(gòu)的參數(shù)只會(huì)比GEN-2更大,目前有券商測算,假定Sora與Runway GEN-2所訓(xùn)練的數(shù)據(jù)量相同,以每張圖片分別為1920 x 1080分辨率,每個(gè)視頻分別為30秒30FPS,那么patch大小為[(2.4 x 108)+ (6.4 x 107 x 30 x 30)] x 1920 x 1080 x3= 3.73 x 1016,再將Patch大小轉(zhuǎn)換成token大小為(3.73 x 1016) ÷ (16 x 16 x 3)= 4.86 x 1013,這是指數(shù)級(jí)別的差距。再對(duì)應(yīng)到大語言模型與Sora架構(gòu)訓(xùn)練時(shí)的算力需求,也幾乎是幾何倍數(shù)的遞增。

原有的AI算力焦慮尚且無解,而Sora進(jìn)一步抬升了需求天花板,也難怪Altman在醞釀7萬億美元的“造芯大計(jì)”,這似乎就是個(gè)無底洞。那么,在更多的GPU或加速硬件能滿足需求前,特別是對(duì)于中國市場來說,還可以關(guān)注哪些方向?

深挖異構(gòu)“富礦”,持續(xù)優(yōu)化算力效率

過去一年間,我們目睹了“百模大戰(zhàn)”,而算力基礎(chǔ)設(shè)施的壁壘始終比較堅(jiān)挺,這其中既包括可用的芯片,也包括穩(wěn)定的基礎(chǔ)設(shè)施軟件。

大模型參數(shù)規(guī)模給訓(xùn)練系統(tǒng)不斷帶來挑戰(zhàn),主要包括:內(nèi)存瓶頸、運(yùn)行效率、較高的模型開發(fā)成本等,迫使業(yè)界一方面尋求新的解決方式,另一方面繼續(xù)優(yōu)化已有的解決方案和基礎(chǔ)設(shè)施。既然算力遲早會(huì)跟不上模型的擴(kuò)展速度,那是不是首先要充分挖掘已有資源,讓它最大化發(fā)揮效能?

這其中有一個(gè)非常關(guān)鍵的方向就是異構(gòu)算力平臺(tái)的搭建、調(diào)度和管理,比如CPU、GPU、FPGA等異構(gòu)算力節(jié)點(diǎn)的協(xié)同,來支持上層的智算應(yīng)用。

事實(shí)上,跨異構(gòu)計(jì)算節(jié)點(diǎn)支撐統(tǒng)一智算應(yīng)用的調(diào)度,目前依然面臨技術(shù)挑戰(zhàn)。由于不同 GPU 等異構(gòu)硬件在支撐智算應(yīng)用時(shí),依賴不同的技術(shù)棧,包括底層的CUDA、編譯器、前端AI框架等,例如運(yùn)行在英偉達(dá)GPU上的應(yīng)用并不能調(diào)度到國產(chǎn)化的GPU上無縫運(yùn)行,也無法將一個(gè)運(yùn)行在GPU上的程序不經(jīng)過適配改動(dòng)直接運(yùn)行在FPGA上。

技術(shù)棧的問題導(dǎo)致一個(gè)智算應(yīng)用目前仍然很難在不同的異構(gòu)算力節(jié)點(diǎn)上無縫遷移,或者同步運(yùn)行,往往需要對(duì)應(yīng)用本身進(jìn)行適配和改造,才能具備在不同異構(gòu)算力節(jié)點(diǎn)上進(jìn)行任務(wù)調(diào)度的前提。

另一方面,業(yè)界當(dāng)前的另一研究熱點(diǎn)是節(jié)點(diǎn)內(nèi)混合異構(gòu)計(jì)算系統(tǒng)內(nèi)異構(gòu)算力的協(xié)同。主流的混合異構(gòu)系統(tǒng)包括:CPU+GPU,解決深度學(xué)習(xí)模型訓(xùn)練在CPU上耗時(shí)長的問題,提升深度學(xué)習(xí)模型的訓(xùn)練效率;CPU+GPU+DPU,DPU的核心是將任務(wù)從 CPU“卸載”,使得更多CPU核心可用于處理應(yīng)用程序,從而提高數(shù)據(jù)中心的效率;此外還有CPU+TPU架構(gòu)等混合異構(gòu)系統(tǒng)等。

由于不同應(yīng)用對(duì)算力的需求不同,異構(gòu)算力支撐同一應(yīng)用也具有較大的性能表現(xiàn)差異性。只有實(shí)現(xiàn)異構(gòu)AI算力的管理和調(diào)度,兼容適配多種智能AI硬件,實(shí)現(xiàn)硬件與計(jì)算要求有效對(duì)接、異構(gòu)算力在節(jié)點(diǎn)間靈活調(diào)度、同時(shí)協(xié)同提供智算相關(guān)處理流程,將各類異構(gòu)算力協(xié)同處理,才能真正發(fā)揮最大的計(jì)算效力,為多樣化AI的應(yīng)用場景提供高性能、高可靠的算力支 撐。

目前這個(gè)方向以中國移動(dòng)、浪潮、新華三的方案比較有代表性。比如中國移動(dòng)是基于移動(dòng)云底座的IaaS能力,實(shí)現(xiàn)異構(gòu)資源池化;浪潮是打造了一個(gè)統(tǒng)一的主流深度學(xué)習(xí)框架(Tensorflow、 Pytorch、Caffe、Mxnet、PaddlePaddle)開發(fā)訓(xùn)練平臺(tái)以及計(jì)算資源(CPU、GPU、內(nèi)存、存儲(chǔ))管理的平臺(tái),叫AIStation;新華三是建立了AI和HPC資源一體化管理的集群管理平臺(tái),支持異構(gòu)計(jì)算資源管理、容器管理等,實(shí)現(xiàn)AI和HPC資源的靈活調(diào)配管理。

面向指數(shù)級(jí)增長的算力需求,中國AI業(yè)界不妨先盤盤家底,繼續(xù)深挖底層問題,持續(xù)進(jìn)行優(yōu)化,畢竟基礎(chǔ)設(shè)施是AI發(fā)展的先決條件,也是現(xiàn)實(shí)當(dāng)前的一個(gè)主動(dòng)選擇。

離線大模型,有望觸達(dá)AIGC毛細(xì)血管

對(duì)于中國本土AIGC產(chǎn)業(yè)的發(fā)展,這一年的討論聲不絕于耳。其中,離線大模型是一個(gè)熱點(diǎn)方向,甚至有觀點(diǎn)認(rèn)為,中國市場更大的機(jī)會(huì)可能在于此。

世界經(jīng)濟(jì)論壇最近的一份報(bào)告預(yù)測,能夠離線運(yùn)行生成式AI模型的設(shè)備將大幅增長,其中包括個(gè)人電腦、智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等。原因在于本地模型不僅更私密,與云托管模型相比,本地模型的延遲更低,成本效益更高。根據(jù)這些預(yù)測,能在本地部署、進(jìn)行AI推理的大模型,才能觸及廣大潛在用戶的“毛細(xì)血管”。

中國市場更大的機(jī)會(huì)是否在離線大模型?

從算力的角度來看,離線大模型可能更適合中國市場現(xiàn)狀。由于大模型的訓(xùn)練需要巨大的算力,而中國在算力水平方面與美國還存在較大差距。發(fā)展離線大模型可以在一定程度上減輕對(duì)算力的需求,降低研發(fā)成本,使得更多的企業(yè)和機(jī)構(gòu)能夠參與到大模型的研發(fā)和應(yīng)用中。

從數(shù)據(jù)隱私和安全性角度來看,離線大模型也更具優(yōu)勢。由于離線大模型不需要將數(shù)據(jù)傳輸到云端進(jìn)行訓(xùn)練,因此可以更好地保護(hù)用戶數(shù)據(jù)的安全和隱私,符合中國市場的需求和法規(guī)要求。

此外,在某些特定場景下,如自動(dòng)駕駛、智能制造等領(lǐng)域,需要實(shí)時(shí)處理和分析大量數(shù)據(jù),對(duì)模型的響應(yīng)速度和準(zhǔn)確性要求極高。離線大模型可以在本地進(jìn)行訓(xùn)練和推理,能夠更好地滿足這些場景的需求。

比如PC產(chǎn)業(yè)就已看準(zhǔn)了AIGC帶來的新契機(jī),英特爾高通、聯(lián)想、英偉達(dá)等已經(jīng)紛紛入局。從需求端來看,AI PC作為承載AI大模型的設(shè)備,能有效提高生產(chǎn)力,從傳統(tǒng)PC向AI PC升級(jí)將變得十分必要。且在AI普及之后,出于隱私、成本等方面的考慮,AI本地化的重要性也愈發(fā)凸顯,這就需要離線大模型發(fā)揮作用。芯片層面,需要專用的GPU、NPU、以及大容量的DRAM等執(zhí)行大模型離線推理,支持實(shí)時(shí)的AI應(yīng)用,

當(dāng)然,除了個(gè)別場景,在線大模型也有其不可替代的優(yōu)勢。例如,可以通過不斷從海量數(shù)據(jù)中學(xué)習(xí)來提高自身性能,具有更強(qiáng)的泛化能力和適應(yīng)性;還可以利用云端強(qiáng)大的算力資源進(jìn)行訓(xùn)練,加速模型的優(yōu)化和迭代。

對(duì)于在線和離線大模型,有一個(gè)比喻很形象:在線大模型就像是大食堂的大鍋飯,提供統(tǒng)一的口味,所能滿足的量很大,不過吃飯都要涌去排隊(duì);部署在本地設(shè)備中的離線大模型,就像是個(gè)人私廚,可以自己開小灶,滿足自己的口味需求,相應(yīng)地也不能和大食堂比供應(yīng)量。

對(duì)于中國市場來說,離線大模型和在線大模型各有優(yōu)勢和適用場景。具體選擇哪種模型取決于具體的應(yīng)用場景、數(shù)據(jù)規(guī)模、算力資源等多個(gè)因素的綜合考慮。同時(shí),也需要注意到不同模型之間的互補(bǔ)性,可以結(jié)合實(shí)際需求進(jìn)行靈活選擇和組合。

重視中文數(shù)據(jù)開源生態(tài)建設(shè)

“訓(xùn)練大模型需要的是知識(shí),對(duì)知識(shí)的純度要求很高,含量和質(zhì)量要求很高,這樣訓(xùn)練出來的大模型才越聰明。如果拿網(wǎng)上無聊的杠精聊天記錄做訓(xùn)練,最后只會(huì)訓(xùn)練出來一個(gè)杠精”,這是360創(chuàng)始人周鴻祎近期談到大模型訓(xùn)練時(shí)的一個(gè)觀點(diǎn)。

他同時(shí)認(rèn)為,要加大開源分享的力度,而不是各家關(guān)起門來自己閉門造車。國外AI發(fā)展非??欤粋€(gè)關(guān)鍵是開源生態(tài)的各種論文交流,如果每個(gè)人都從零到一做研發(fā),都要把別人走過的坑再走一遍,實(shí)際速度就會(huì)很慢。

當(dāng)前,全球大模型開源已然形成三巨頭局面:谷歌Gemma、Meta LLama和歐洲Mistral。

自從以O(shè)penAI為代表的閉源模型廠商開放對(duì)外技術(shù)服務(wù)后,開源模型廠商一直在加緊發(fā)力。以Meta為例,2023年2月,發(fā)布了開源大模型LLM的第一個(gè)版本Llama,授予“可研究”用途;2023年7月,進(jìn)一步發(fā)布“可商用”的Llama2版本。這其實(shí)在預(yù)示著大模型競爭已經(jīng)進(jìn)入白熱化的態(tài)勢。因?yàn)殚_源不僅能吸引大批開發(fā)者,更能建立生態(tài)系統(tǒng),從而建立自己的技術(shù)壁壘。

雖然Llama2基本不支持中文,對(duì)中國的大模型商用生態(tài)暫時(shí)不會(huì)產(chǎn)生實(shí)質(zhì)性變化,但中國仍需要開發(fā)培育適配于中文數(shù)據(jù)土壤的開源生態(tài)。通過開源社區(qū)的建設(shè),可以吸納更多的開發(fā)者及擁有定義用戶的主導(dǎo)權(quán),以AI開源創(chuàng)新平臺(tái)為杠桿,帶動(dòng)支撐底層AI芯片、智算中心云服務(wù)等基礎(chǔ)設(shè)施發(fā)展。

根據(jù)《2023年中國AIGC產(chǎn)業(yè)全景報(bào)告》,從供給側(cè)邏輯來看,大模型開源早期由高校和機(jī)構(gòu)推動(dòng),如清華大學(xué)的ChatGLM-6B、復(fù)旦大學(xué)的MOSS,陸續(xù)有頭部云廠商加入,如百度的文心系列與阿里的通義系列,共同為中國AIGC開源社區(qū)的建設(shè)“增磚添瓦”,以阿里云魔塔社區(qū)、百度云飛槳社區(qū)為代表的開源社區(qū)建設(shè)成果初現(xiàn),而千億級(jí)模型暫以閉源路徑開展,憑借穩(wěn)定、優(yōu)質(zhì)效、完整工具鏈等產(chǎn)品特點(diǎn)定位應(yīng)用市場。

從商業(yè)化路徑來看,參考海外明星開源社區(qū)Hugging Face的商業(yè)模式,中國AI開源社區(qū)同樣會(huì)先免費(fèi)提供基礎(chǔ)算力,為客戶提供免費(fèi)的社區(qū)體驗(yàn)、demo部署及測試,并進(jìn)一步通過付費(fèi)服務(wù)推送輕量級(jí)遷移的微調(diào)推理服務(wù)或深度開發(fā)的訓(xùn)練調(diào)優(yōu)平臺(tái),提升模型產(chǎn)品性能,通過開源社區(qū)吸引開發(fā)者、企業(yè)客戶完成更多部署應(yīng)用資源的引流變現(xiàn)。

未來,開源和閉源的大模型有望并存和互補(bǔ),閉源大模型可為B端用戶和C端消費(fèi)者持續(xù)提供優(yōu)質(zhì)的模型開發(fā)及應(yīng)用服務(wù);開源大模型則可從研究角度促進(jìn)廣大開發(fā)者和研究者的探索創(chuàng)新,從商用角度加速大模型的商業(yè)化進(jìn)程與落地效果。

寫在最后

OpenAI正在堅(jiān)定不移地?fù)肀GI信仰,不斷探索AI能力的天花板。對(duì)于全球AI玩家來說,“比肩OpenAI”成為了一個(gè)目標(biāo)甚至信仰。

不過,客觀存在的差距意味著,中國的AIGC發(fā)展必須筑牢底層,找到適合自己的獨(dú)特化路徑,才能實(shí)現(xiàn)發(fā)展和超越。在通往AGI的道路上,目前比較公認(rèn)的方向還是更大規(guī)模的模型和更多的數(shù)據(jù),因此,大算力集群、數(shù)據(jù)的需求將會(huì)繼續(xù)提升,同時(shí)找到廣泛的、多樣的應(yīng)用場景,才能最終實(shí)現(xiàn)商業(yè)閉環(huán)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32H743XIH6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無數(shù)據(jù) 查看
PIC32MX795F512LT-80I/PF 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 14 X 14 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$12.72 查看
STM32F207IGH6TR 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下載ECAD模型
$69.82 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費(fèi)電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~