云計算已經(jīng)發(fā)展了20年,是到了變革的時候了。
但變革成什么樣子,目前還在混沌中。
未來將形成的新的業(yè)態(tài),我們姑且稱之為“算力網(wǎng)絡(luò)”吧!
趁著AI大模型的東風(fēng),智算基礎(chǔ)設(shè)施建設(shè)如火如荼。以智算(智算”力”,是算力的一個子集)為重心,更綜合更全面的算力網(wǎng)絡(luò)和算力中心建設(shè),24-26這幾年會是一個高潮。
目前,行業(yè)發(fā)展過程中還存在不少問題。最核心的一個問題是,目前許多算力中心的業(yè)務(wù)模本本質(zhì)上是“租賃”,而不是類似云計算的產(chǎn)品和服務(wù)。
雖說行業(yè)發(fā)展循環(huán)往復(fù),但循環(huán)往復(fù)并不意味著倒退,而應(yīng)是螺旋式上升。
那么算力網(wǎng)絡(luò)的發(fā)展,一定是在基于云計算的整個分層服務(wù)體系的基礎(chǔ)上的持續(xù)升級和演進。
1 云服務(wù)的價值在哪里??
云計算服務(wù)有一些非常關(guān)鍵、強大的能力,是裸機無法提供的。比如:
資源彈性。資源彈性是云計算最核心的能力。例如,用戶可以根據(jù)自己業(yè)務(wù)的動態(tài)需求,非常方便的增加或降低主機資源需求。云主機支持非常強大的Scale up/down(增加或減少處理器核心、內(nèi)存、存儲和網(wǎng)絡(luò)等能力)和Scale Out/In(增加或減少主機的數(shù)量)能力。
高可用性。云計算最初的訴求,就是基于成本低廉、可靠性較差的通用服務(wù)器,構(gòu)建完全高可用的產(chǎn)品和服務(wù)。包括云主機在內(nèi)的很多云服務(wù),對外提供的都是完全高可用的服務(wù)。
多租戶攤薄成本。通過虛擬化實現(xiàn)硬件資源共享,通過VPC實現(xiàn)不同租戶、不同系統(tǒng)的網(wǎng)絡(luò)域隔離,讓不同用戶不同系統(tǒng)共存于同一個物理數(shù)據(jù)中心。既保證了成本的均攤,又保證了業(yè)務(wù)的安全隔離,還保證了業(yè)務(wù)性能的穩(wěn)定(不同業(yè)務(wù)所需資源隔離,相互不干擾)。
存儲的性能和安全。通過分布式存儲,實現(xiàn)高性能存儲,以及存儲的持久化,再通過各類數(shù)據(jù)冗余機制,保證了存儲數(shù)據(jù)的安全。
以應(yīng)用為中心。此外,隨著容器虛擬化的廣泛流行,云服務(wù)逐漸從以資源為中心過渡到以應(yīng)用為中心。這進一步實現(xiàn)了業(yè)務(wù)軟件和硬件資源的解耦,完全沒有了硬件約束,業(yè)務(wù)客戶可以更加專注于業(yè)務(wù)應(yīng)用的創(chuàng)新。
2 云計算分層服務(wù)體系
2.1 傳統(tǒng)的云計算分層服務(wù)體系
云計算是由各類硬件基礎(chǔ)設(shè)施和基于硬件基礎(chǔ)設(shè)施構(gòu)建的軟件產(chǎn)品和服務(wù)組成的分層服務(wù)體系,具體如下表所示。
2.2 以AWS為代表的全產(chǎn)業(yè)鏈模式
亞馬遜AWS是全球最大的云計算公司,不僅對外提供各類IaaS、PaaS、SaaS服務(wù),還持續(xù)向底層擴展。AWS大部分?jǐn)?shù)據(jù)中心是自主建設(shè),并且還自主定制服務(wù)器和交換機等計算設(shè)備。
此外,AWS還自研用于數(shù)據(jù)中心的各類芯片,包括:
CPU芯片 Graviton系列;
AI加速芯片Trainium和Inferenia;
DPU芯片Nitro系統(tǒng);
Nitro SSD控制器芯片。
亞馬遜基于自研芯片,把底層軟硬件深度結(jié)合,給用戶提供更加具有競爭力的云服務(wù)。
2.3 算力網(wǎng)絡(luò),產(chǎn)業(yè)鏈分工的新模式
當(dāng)行業(yè)處于變革期,行業(yè)中各大公司的業(yè)務(wù)模式傾向于向產(chǎn)業(yè)鏈上下游拓展;反過來,當(dāng)行業(yè)逐漸趨向于成熟,則更傾向于專業(yè)分工。在分工模式下,產(chǎn)業(yè)鏈條的每個階段都可能成就一批公司,通過專業(yè)分工實現(xiàn)更高效率更低成本,從而推動產(chǎn)業(yè)鏈再一次“創(chuàng)新”。云計算產(chǎn)業(yè)鏈也不例外:經(jīng)過20年的發(fā)展,云計算到了行業(yè)變革的時候了。
接下來,是我們對云計算分層服務(wù)體系,或者也可以說是云計算產(chǎn)業(yè)鏈,變革的分析(一家之言,供探討):
IDC公司。仍然專注于數(shù)據(jù)中心或算力中心的基礎(chǔ)設(shè)施建設(shè),通過優(yōu)化土地、能耗、散熱、電力、網(wǎng)絡(luò)等方面的成本,給上層的客戶提供更優(yōu)質(zhì)的基礎(chǔ)設(shè)施。同時,通過規(guī)?;姆绞竭M一步優(yōu)化成本。
新型算力芯片公司。2009年,NVIDIA黃仁勛說NVIDIA是一家軟件公司,此時,NVIDIA已經(jīng)把更多的資源投入到CUDA的研發(fā),如今,NVIDIA是全球市值最高的芯片公司,并且超過Intel、AMD以及高通等知名公司的市值之和。未來,芯片公司需要進一步進化,從軟件公司進化成云計算公司,芯片公司要更加懂云,更加懂宏觀計算(數(shù)以萬計計算節(jié)點的超大規(guī)模計算,以及跨云邊端的融合計算)。
計算和網(wǎng)絡(luò)設(shè)備廠家。一方面,是AI大模型等業(yè)務(wù)的強需求;另一方面,隨著AI芯片、DPU以及異構(gòu)融合處理器HCU等新形態(tài)、新架構(gòu)的處理器出現(xiàn);還有一方面,就是隨著算力網(wǎng)絡(luò)、超大規(guī)模大模型訓(xùn)練等業(yè)務(wù)的發(fā)展,對高性能網(wǎng)絡(luò)、可編程網(wǎng)絡(luò)、確定性網(wǎng)絡(luò)等方面的要求越來越高;未來一定時期,會是底層軟硬件協(xié)同創(chuàng)新爆發(fā)的時間。計算和網(wǎng)絡(luò)設(shè)備廠家,需要緊跟客戶和供應(yīng)商,共同推動創(chuàng)新形態(tài)的服務(wù)器和網(wǎng)絡(luò)設(shè)備的發(fā)展和落地。
算力中心。算力中心可能會涵蓋IDC的業(yè)務(wù),但算力中心的核心競爭力不在數(shù)據(jù)中心基礎(chǔ)設(shè)施方面(如果核心競爭力在基礎(chǔ)設(shè)施,那本質(zhì)上仍是IDC公司)。算力中心的核心競爭力在于通過軟硬件整合的能力,給用戶提供更低成本的算力。因此,算力中心會涉及到計算硬件和軟件的協(xié)同優(yōu)化,以及部分IaaS服務(wù)。
算力運營公司或新型云計算公司。輕量化運營,會涉及另一部分IaaS服務(wù),以及PaaS和SaaS服務(wù)。并且聚焦在更上層的服務(wù)和各種場景的解決方案,幫助客戶業(yè)務(wù)落地。隨著客戶業(yè)務(wù)越來越復(fù)雜,不僅僅涉及傳統(tǒng)云的業(yè)務(wù),還包括邊緣和終端的一些服務(wù)支持。需要給客戶提供云邊端一攬子業(yè)務(wù)場景的整體解決方案。
2.4 算力網(wǎng)絡(luò)三方分析
如同電商的平臺、賣家和買家三方一樣,算力網(wǎng)絡(luò)相關(guān)方也可以分為三個:
算力供應(yīng)方,算力中心??紤]的是如何從內(nèi)在的軟硬件方面做成本優(yōu)化,同條件下把算力的成本降到最低。其次,需要考慮市場和銷售,需要積極對接各大算力網(wǎng)絡(luò)運營公司,以及直接對接大客戶。
算力需求方,業(yè)務(wù)客戶。首先,考慮的是能夠拿到優(yōu)質(zhì)且低成本的算力資源,其次要考慮有服務(wù)商能夠幫助自己做好各項業(yè)務(wù)的支撐,特別是云邊端打通、軟硬件結(jié)合,以及AI大算力場景的落地等。
算力運營商,算力平臺。最大限度的利用算力資源,實現(xiàn)算力價值的最大化。以及對行業(yè)和業(yè)務(wù)更深層次的理解,幫助業(yè)務(wù)客戶場景落地。
3 以云為中心的邊緣計算
作者個人,在2015年IoT創(chuàng)業(yè)的時候,就設(shè)計了一套邊緣計算(那個時候還沒有邊緣計算的概念)系統(tǒng),在這系統(tǒng)里,有云、邊緣和終端,各自有明確的分工和功能劃分。但這個時候的分工是靜態(tài)的,隨著業(yè)務(wù)的發(fā)展,后期勢必需要升級調(diào)整,這樣就需要對云、邊緣和終端的功能同時進行調(diào)整,非常復(fù)雜,成本很高,而且滯后。
如果通過云邊端融合,把三者的運行和開發(fā)環(huán)境統(tǒng)一,再通過微服務(wù)的方式構(gòu)建整個系統(tǒng),那么就可以動態(tài)的構(gòu)建云邊端一體化系統(tǒng)。終端如果需要啟動更高優(yōu)先級的服務(wù)(比如自動駕駛服務(wù)),那么一些低優(yōu)先級的服務(wù)(如游戲、音樂等)就可以動態(tài)的調(diào)度到邊緣甚至云端。
靜態(tài)的云邊端,是協(xié)同,分彼此,你做什么,我做什么,大家分工明確,形成協(xié)同效應(yīng)。動態(tài)的云邊端,是融合,不分彼此,你可能做任何事情,我也可能做任何事情,大家是一個整體,在運行的過程中動態(tài)調(diào)整云邊端每個節(jié)點具體做的事情。
此外,還需要注意的是,云邊端需要以云為中心。像CDN一樣,所有的服務(wù)端在云端,邊緣端是云端的代理,代理云端為終端提供服務(wù)。所有的服務(wù)端最開始都在云端,然后根據(jù)需要,動態(tài)的服務(wù)端的副本會通過調(diào)度,運行在云端、邊緣端甚至終端。
4 AI智算 or 綜合計算?
如果把AI比做“主菜”,那么綜合計算則是一桌“宴席”。
云計算、邊緣計算和終端計算是計算的位置。而AI計算是計算的業(yè)務(wù)類型。
AI很重要,但圍繞著AI,還有很多其他類型的計算。雖然,以AI為主要計算的AI+業(yè)務(wù)場景越來越多,但仍然有很多計算任務(wù),不需要AI的參與,或者AI計算量占比較低。
因此,我們給出綜合計算的概念:通過云計算、邊緣計算、終端計算的方式,為所有的計算任務(wù)提供承載;這里的計算,既包括AI的計算,也包括其他任務(wù)的計算。這些計算任務(wù)并行不悖的混合運行在云、邊或端。
5 租賃模式 or 產(chǎn)品和服務(wù)模式?
今年(2024年),隨著AI大模型的火熱,國內(nèi)智算中心的建設(shè)如火如荼。深入的了解了行業(yè)情況后發(fā)現(xiàn),目前的智算中心,大部分采用的是非常傳統(tǒng)的業(yè)務(wù)模式:租賃。這是一種非常低層次的業(yè)務(wù)模式。
在目前,GPU算力非常緊俏的情況下,誰掌握了硬件資源,誰就有客戶、有市場。這種情況下,租賃模式有一定可行性,但并不長久。
租賃模式無法解決如下一些典型問題(問題還有很多,無法一一列舉):
問題一,拿到GPU服務(wù)器只是第一步,需要針對訓(xùn)練/推理場景,把GPU服務(wù)器整合成更適合訓(xùn)練/推理的AI計算集群。如果是訓(xùn)練,需要有高性能網(wǎng)絡(luò),能夠讓GPU發(fā)揮最大的性能效率;如果是推理,則需要考慮成本優(yōu)化。因為一方面,推理是成本的大頭,另一方面推理面向最終用戶,而用戶對成本敏感。推理需要通過虛擬化、容器和Serverless,以及其他各種方法來進行成本優(yōu)化。
問題二,綜合計算。上一個章節(jié),我們探討了綜合計算的話題。如果以為客戶提供完整服務(wù)為目標(biāo),那么智算就不僅僅只是智算,還需要通用計算的其他能力,如存儲、網(wǎng)絡(luò)、安全、數(shù)據(jù)庫、大數(shù)據(jù)分析等等其他類型的產(chǎn)品或服務(wù)。
問題三,訓(xùn)練和推理服務(wù)??尚械那闆r下,需要給客戶提供一站式AI大模型訓(xùn)練服務(wù),并且具有豐富的數(shù)據(jù)集接入資源,使得用戶的模型訓(xùn)練更加便利。此外,還要跟場景結(jié)合,為不同的場景提供預(yù)訓(xùn)練好的基礎(chǔ)模型,客戶僅需要針對場景預(yù)訓(xùn)練模型進行微調(diào)即可。推理,則需要更進一步封裝,底層需要考慮如何通過非NV平臺進一步給客戶降成本,但客戶無需關(guān)心底層硬件。
智算中心,需要盡可能的幫助最終服務(wù)的大模型客戶解決底層的技術(shù)、模型、數(shù)據(jù)等方面的通用問題,讓客戶可以不關(guān)注底層,從而把更多的精力聚焦在自身大模型算法和業(yè)務(wù)創(chuàng)新。
總而言之,智算中心,不能僅提供服務(wù)器硬件,更應(yīng)深入行業(yè)底層,長期深耕,為客戶提供更加完善的產(chǎn)品和服務(wù)。