編者按智算中心算力租賃業(yè)務如火如荼,原因在于智算算力的“供不應求”。這是一個比較特殊的局面,一方面受美國芯片禁令影響,一方面受大模型快速興起影響。隨著國產(chǎn)算力芯片逐漸跟上,也隨著大模型市場逐漸成熟,智算算力也會像傳統(tǒng)通算一樣,變成供大于求(據(jù)了解,智算中心供大于求的局面,在今年已經(jīng)開始顯現(xiàn))。智算中心,未來該如何發(fā)展?這篇文章,我們一起探討。
1、智算中心行業(yè)現(xiàn)狀
1.1 推理成本決定大模型最終的勝利
AI大模型如火如荼,國內(nèi)目前的現(xiàn)狀可以總結如下:
- AI大模型訓練相對較少,僅有屈指可數(shù)的幾個大廠可以做(訓練)自己的模型。而更多的公司則主要是基于開源大模型來完成自有AI推理和應用。大模型應用,沒有技術門檻。目前,大模型應用還沒有規(guī)模化落地的案例,但可以確定的是,一旦有爆款的應用落地,必將有無數(shù)個類似的應用迅速出現(xiàn)。應用創(chuàng)新不是決定大模型成功的核心因素。大模型時代,跟之前的移動互聯(lián)網(wǎng)時代最大的不同在于:
-
- 移動互聯(lián)網(wǎng)時代,誰獲得用戶和流量,誰就能獲得成功。底層邏輯是移動互聯(lián)網(wǎng)的系統(tǒng)邊際成本很低。因此,“通過免費吸引客戶,然后再獲取收益”,成為了最典型的商業(yè)模式。而大模型時代,底層邏輯發(fā)生了很大的變化。大模型時代,系統(tǒng)的成本幾乎和客戶使用量成線性關系,也即是每次服務都有不菲的成本,邊際成本依然很高。這里的成本絕大部分來源是推理的算力消耗。在大模型時代,誰能把推理成本降到極致,誰就能獲得最終的勝利。
1.2 國產(chǎn)算力產(chǎn)業(yè)鏈耦合性高,落地難
目前,國產(chǎn)GPU/AI算力芯片公司的落地難度非常高,國產(chǎn)芯片想進智算中心,就必須幫智算中心找到最終買單此芯片和設備的最終客戶公司。從芯片公司、智算中心、模型公司,再到最終的業(yè)務客戶,整個鏈條緊密耦合。只有把鏈條打通,才能開始一個智算中心項目建設?!跋胍試a(chǎn)面包,就必須從種小麥開始”,需要國產(chǎn)算力的時候,通常需要從0-1建設智算中心。這是目前整個行業(yè)的困境。從成熟產(chǎn)業(yè)鏈來說,整個產(chǎn)業(yè)鏈需要解耦,每個鏈條需要標準化交付。智算算力,需要像傳統(tǒng)公有云一樣,實現(xiàn)算力的標準化、服務化,達到隨用隨取。像通算一樣,智算也會云化,智算算力隨時隨地可獲取。
1.3 投入大,利潤低,風險高
目前,一個典型的2000P的智算項目,投資大約10億左右,其中絕大部分是硬件設備的投入。智算中心是重資產(chǎn)行業(yè),雖然智算中心投入巨大,但僅能獲取非常微薄的利潤。核心原因在于智算中心距離最終的業(yè)務場景非常遠,在產(chǎn)業(yè)鏈里話語權較低。智算中心,要想獲得更多的收益,則需要深耕算力行業(yè)。為客戶提供更多的附加價值,才能獲取更多的市場份額和行業(yè)利潤。智算中心,需要從算力租賃模式,轉型到算力服務模式。
1.4 大客戶壓價嚴重,小客戶不確定性高
一方面,大客戶壓價嚴重,巨量投入利潤微薄。另一方面,小客戶不確定性高,可能導致算力閑置率高。從而使得智算行業(yè)利潤微薄,不確定性高,投資風險大。
從健康的業(yè)務模式來說,智算中心需要:
- 需要實現(xiàn)算力服務化,既能服務大客戶,也能服務長尾小客戶。提供更多的能幫助業(yè)務落地的服務和解決方案。算力需要接入更多的算力(運營)網(wǎng)絡,拓展更多的市場渠道。等等。
1.5 算力租賃模式,不是長久之計
目前,智算行業(yè)的業(yè)務模式主要是裸機租賃。租賃模式發(fā)展的核心原因是算力供不應求。而供不應求的大背景是:美國芯片禁令和大模型“剛剛”興起。從行業(yè)發(fā)展情況來看,普遍的觀點是:智算算力供不應求局面持續(xù)時間不超過3年。隨著大模型逐漸成熟,也隨著智算算力價格持續(xù)回歸,智算的算力供應會逐漸供大于求。當然,大模型仍在快速發(fā)展,大的行業(yè)背景仍然是算力需求快速增長,這和算力“供大于求”的情況并不矛盾。行業(yè)規(guī)模持續(xù)快速擴大,與此同時行業(yè)競爭會進一步加劇。行業(yè)需要從粗獷式發(fā)展模式走向精細化發(fā)展模式,智算中心需要算力服務化,需要像公有云一樣,把智算算力封裝成標準服務,隨用隨取。挑戰(zhàn)與機遇并存!
2、充分優(yōu)化算力的成本
充分優(yōu)化算力成本,主要是通過三種方式:
- 方式一,是通過虛擬化容器等機制,實現(xiàn)算力資源的充分共享,從而達到分攤成本的目的。方式二,把計算任務,從CPU、GPU進一步卸載到更高效單位算力成本更低的專用加速單元完成。方式三,更大規(guī)模的資源池。通過算力調(diào)度,實現(xiàn)更高效的資源共享。
2.1 虛擬化實現(xiàn)算力資源共享
我們假設一個12核CPU(C)和一個12G帶寬的網(wǎng)卡(N)組成的物理服務器,如上圖,我們通過四種方式實現(xiàn)多種規(guī)格的算力:
- 第一種,傳統(tǒng)算力租賃方式。完全物理的服務器,可售賣的僅為一個資源量為12的計算實例。最極端的情況,客戶僅需要1個資源的情況下,另外11個資源都是浪費。第二種,基本虛擬化??梢詫崿F(xiàn)算力切分,這樣,我們可以把一臺物理的機器切分成四臺虛擬的機器,可售賣4臺計算實例,資源量分別為4-4-2-2。第三種,精細虛擬化。不同的計算對各類資源的需求并不是完全對等的,可以針對需求分配多一些的某種資源,其他需求少的資源可以少分配一些。這樣,我們可以把一臺物理的機器切分成6臺虛擬的機器,可售賣的機器實例變成6個,其資源量分別為4-4-3-3-2-2。? ?第四種,軟硬件協(xié)同優(yōu)化。通過硬件級的性能隔離、更高效的遷移調(diào)度,能夠?qū)崿F(xiàn)用戶業(yè)務無感情況下的超賣,這樣可售賣的機器數(shù)量會繼續(xù)增加。
通過精細虛擬化和軟硬件協(xié)同的方式,可以實現(xiàn)更高效的資源分配和更低的算力成本。
2.2 硬件加速降低單位算力成本
隨著CPU逐漸性能瓶頸,GPU也越來越難以扛起算力提升的大旗,勢必需要更多的加速計算處理器來實現(xiàn)算力的提升。計算架構從同構到異構,再從異構到多異構和異構融合。一般來說,在同等算力條件下,CPU成本最高,GPU次之,專用的各類專用加速器(DSA)成本最低。因此,針對各類計算任務,需要盡可能的計算堆棧調(diào)優(yōu),以及專用算力優(yōu)先調(diào)度(DSA>GPU>CPU),從而實現(xiàn)更多計算任務的更低成本計算。
2.3 算力網(wǎng)絡和云邊端融合,實現(xiàn)更大規(guī)模資源池化
通過算力網(wǎng)絡,把更多的算力中心的算力資源整合到一個更大的資源池。大規(guī)模、超大規(guī)模的云算力中心,中小規(guī)模的邊緣算力中心,以及海量的終端算力設備,都是算力的組成部分。通過算力網(wǎng)絡把云邊端整合成一個超級巨大的算力資源池。通過云邊端算力調(diào)度,客戶的業(yè)務應用,可以方便的獲取到最合適的算力資源,實現(xiàn)最優(yōu)資源匹配。實現(xiàn)更高層次的算力共享,進一步優(yōu)化算力成本。
3、行業(yè)深耕,從算力租賃到算力服務
計算,已經(jīng)相當復雜。不再是傳統(tǒng)單體的計算機,而是由云計算、邊緣計算以及終端計算所組成的超大規(guī)模計算體系。也因此,算力產(chǎn)業(yè),是上下游企業(yè)(或業(yè)務)組成的龐大的產(chǎn)業(yè)鏈。
如圖所示,這個鏈條上包含的典型企業(yè)業(yè)務類型主要有:
- IDC所屬的機房或機架租賃;智算中心所屬的服務器裸機租賃;傳統(tǒng)公有云所屬的IaaS級的計算、網(wǎng)絡、存儲等基礎云服務;? ?傳統(tǒng)公有云所屬的PaaS級的服務,典型的如AI訓練、推理服務,以及AI算法服務等;傳統(tǒng)公有云所屬的行業(yè)和場景解決方案,針對大中型客戶的復雜計算場景,提供的一整套云解決方案。
在這個產(chǎn)業(yè)鏈條里,距離最終的業(yè)務客戶越近,越能體現(xiàn)價值,越能賺取更多的利潤。與之矛盾的是,越是靠前的產(chǎn)業(yè)鏈條,需要更多的硬件等各類基礎設施的投入,投入的資金量反而更大。對智算中心投資者來說,投資風險比較高:一方面是大量的資金投入,一方面是較少的價值和利潤,還有一方面是智算中心硬件的快速折舊(硬件生命周期通常為5年)。如何來解決問題?我們給出的答案是:從租賃到服務,智算中心需要從當前相對粗獷的資源租賃模式逐步轉向更加精細化的算力服務模式。
如上圖表格所示,我們對智算中心的業(yè)務(服務)類型以及相關的資金投入進行了一個定性的分析(注意:此表格數(shù)據(jù)非定量分析,不作為算力中心投資和運營參考),相對硬件投入的資金量,IaaS、PaaS等軟件的投入量僅占5%左右,幾乎可以忽略不計。但這5%的投入產(chǎn)出比很高,因此,智算中心的業(yè)務模式需要從租賃模式轉型成服務模式,從而使得傳統(tǒng)智算中心從產(chǎn)業(yè)鏈上游逐步往下游延伸,實現(xiàn)更多的價值貢獻,以及獲取更多的產(chǎn)業(yè)鏈利潤。
4、給業(yè)務客戶更多的價值
4.1 極低的算力成本
性能、成本和能耗,是評價算力成本最關鍵的三個要素:
- 智算產(chǎn)業(yè),最核心的參數(shù)是算力,也即微觀的性能。通過多異構/異構融合計算,實現(xiàn)計算架構的極致優(yōu)化。在通過融合計算(異構融合 x 軟硬件融合 x 云邊端融合),實現(xiàn)超大規(guī)模的高效協(xié)同計算,從而實現(xiàn)更高的算力,更強的智能。算力和成本是反比的關系,同等成本下更高的算力,反過來說,就是單位算力更低的成本。通過融合計算的綜合優(yōu)化,算力高效利用,算力價值充分挖掘。與此同時,通過開放架構和生態(tài)體系的方式,實現(xiàn)客戶無平臺和生態(tài)依賴,客戶僅需要為價值付費。還有一個關鍵的因素,就是智算中心的能耗。綠色智算中心大家最關注的是PUE,PUE優(yōu)化0.01都非常困難。而實際上,能耗大頭其實是在IT設備自身,也就是PUE數(shù)值中小數(shù)點前的那個“1”。通過融合計算的計算調(diào)度優(yōu)化,優(yōu)選最低能耗的計算平臺(DSA>GPU>CPU),從而實現(xiàn)同等算力情況下更低的計算能耗。與此同時,通過異構的協(xié)同和融合,實現(xiàn)更高效的加速計算,進一步實現(xiàn)極低的綜合算力的平均能耗。
4.2綜合完善的算力服務
智算,不僅僅是智算。如果把智能計算比作“主菜”,那么綜合計算則是一桌“宴席”。從計算的形態(tài)來看,計算實際上是云計算、邊緣計算和終端計算,而AI計算則是業(yè)務層次的計算,它可以存在于云端,也可以存在于邊緣端和終端。AI很重要,但圍繞著AI,還有很多其他類型的計算。雖然以AI為主要計算的AI+業(yè)務場景越來越多,但也有部分計算任務,不需要AI參與,或AI計算占比較低。因此,相對AI計算,我們給出“綜合計算”的概念:以云計算、邊緣計算、終端計算為承載,包括AI計算任務也包括其他計算任務,這些任務并行不悖的混合運行在云、邊或端。
我們通過云計算的IaaS和PaaS服務體系,并且針對AI智算的一些特點,定向優(yōu)化一些已有的服務,以及開發(fā)一些新型的面向AI的服務,實現(xiàn)新型智能計算“算力服務”體系。
4.3 加速客戶業(yè)務落地
算力核心的三方,跟電商行業(yè)類似:
算力供應方(賣家),聚焦算力建設,核心競爭力在于給用戶提供更低成本的算力。
算力運營方(平臺),輕型云計算公司,自身沒有算力,但可以從全國甚至全球獲取海量低成本算力接入。價值點在于幫助算力客戶復雜計算場景的業(yè)務落地。
算力需求方(買家),一方面需要海量、優(yōu)質(zhì)、多樣、低成本的算力。另一方面,隨著AI大模型以及多樣性云邊端算力的發(fā)展,業(yè)務復雜度進一步,需要算力的提供方(供應方或運營方)提供更多的業(yè)務落地解決方案。
為了更好的幫助最終的業(yè)務客戶智算業(yè)務落地,不但要提供計算的硬件設備和計算集群,還要提供面向智算大模型場景的IaaS和PaaS服務。并且,在此基礎上,還要提供更加豐富的行業(yè)解決方案。
這些解決方案可以分為四類:
- (傳統(tǒng)的)技術解決方案。如海量計算、安全、高可用、大數(shù)據(jù)、云備份、物聯(lián)網(wǎng)、視頻云、混合云、智能化運維節(jié)約等解決方案。(傳統(tǒng)的)行業(yè)解決方案。如面向零售、政府、出海、金融、教育、工業(yè)、汽車、園區(qū)和物業(yè)、云游戲、云桌面、農(nóng)業(yè)、能源、醫(yī)療等行業(yè)的相關解決方案。(創(chuàng)新的)AI大模型解決方案。如基于萬卡GPU集群的大模型訓練平臺、基于多樣性算力的異構云邊端協(xié)同推理平臺,以及更上層的面向短視頻、AI-Agent等方向的AI平臺服務等。(創(chuàng)新的)軟硬件結合類解決方案。如高階智駕、人形機器人、工業(yè)自動化、MEC接入等跟終端硬件深度整合的各類解決方案。
4.4 持續(xù)優(yōu)化的產(chǎn)品和服務
云主機,是最核心的服務,也是其他服務的承載之所在。我們以云主機為例,當前大家能夠?qū)崿F(xiàn)的通常是最傳統(tǒng)的物理機和虛擬機服務。通過軟硬件協(xié)同的優(yōu)化,能夠把云基礎設施層任務進一步卸載到DPU或更加綜合的異構融合處理器,可以進一步降低成本提升系統(tǒng)的性能。此外,還可以統(tǒng)一物理機和虛擬機,讓兩者完全統(tǒng)一,客戶的業(yè)務更流暢,算力供應商的運維管理更順暢。
網(wǎng)絡,是大模型時代,最大的技術瓶頸。在傳統(tǒng)的云計算,僅關注數(shù)據(jù)中心網(wǎng)絡。未來,隨著云邊端進一步深度協(xié)同,網(wǎng)絡優(yōu)化方案,需要考慮跨云邊端的高性能網(wǎng)絡解決方案。整體的網(wǎng)絡架構,需要從傳統(tǒng)云網(wǎng)絡架構,向云邊端網(wǎng)絡架構持續(xù)轉變。
在云邊端網(wǎng)絡架構下,需要實現(xiàn)四類網(wǎng)絡連接:
- 云-云連接:這和目前公有云跨區(qū)域(Region)和可用區(qū)(Zone)的網(wǎng)絡連接方案一致。同一區(qū)域下所有可用區(qū)為全相聯(lián)(所有數(shù)據(jù)中心均和其他數(shù)據(jù)中心有直接連接),然后所有的區(qū)域為全相聯(lián)。云-邊連接:就近接入物理距離最短的云數(shù)據(jù)中心,跟其他云數(shù)據(jù)中心或邊緣數(shù)據(jù)中心的鏈接,通過接入的云數(shù)據(jù)中心中轉。云-端連接:端側和云端的鏈接,均提供就近的接入點,快速接入算力供應商的全球高速數(shù)據(jù)網(wǎng)絡。邊-端連接:邊緣作為端側的高速網(wǎng)絡接入點,既接入邊緣算力服務,又接入算力提供商的全球高速數(shù)據(jù)網(wǎng)絡。