作者:豐寧
在 2024 年的今天,人工智能已經(jīng)滲透到各個領(lǐng)域,從醫(yī)療診斷到智能交通,從金融分析到智能家居,AI 技術(shù)的發(fā)展正以前所未有的速度改變著我們的生活和工作方式。
這一背景下,算力和存力成為了支撐人工智能發(fā)展的兩大關(guān)鍵要素。究竟算力與存力誰更重要,成為了一個備受關(guān)注的問題。
?01何為算力與存力?
算力,顧名思義,是指計算能力。
算力是數(shù)字時代的核心驅(qū)動力之一。隨著人工智能、大數(shù)據(jù)等技術(shù)的不斷進步,算力的需求呈現(xiàn)出爆炸式增長。從云端的大規(guī)模數(shù)據(jù)處理到邊緣設(shè)備的實時計算,算力的提升使得我們能夠更快地處理數(shù)據(jù)、更準確地模擬復(fù)雜現(xiàn)象。
存力即數(shù)據(jù)存儲能力。海量的數(shù)據(jù)需要安全、可靠的存儲空間,而存力就是提供這一空間的關(guān)鍵。大數(shù)據(jù)、云存儲、區(qū)塊鏈等技術(shù)的發(fā)展,使得數(shù)據(jù)的存儲和管理變得更加高效。同時,隨著數(shù)據(jù)價值的不斷提升,存力的重要性也日益凸顯。強大的存力不僅可以保證數(shù)據(jù)的安全性和可靠性,還能夠為數(shù)據(jù)分析和挖掘提供堅實的基礎(chǔ)。除了算力與存力,還有“一力”與這二者并稱為“數(shù)據(jù)時代的三把利劍”,即運載力,簡稱運力。
運力是信息傳遞的關(guān)鍵。在數(shù)字世界中,數(shù)據(jù)的快速傳輸和高效共享至關(guān)重要。高速的網(wǎng)絡(luò)連接、穩(wěn)定的帶寬以及低延遲的通信,這些都是運力的體現(xiàn)。去年,工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動計劃》,提出到2025年,計算力方面,算力規(guī)模超過300EFLOPS,智能算力占比達到35%,東西部算力平衡協(xié)調(diào)發(fā)展。
運載力方面,國家樞紐節(jié)點數(shù)據(jù)中心集群間基本實現(xiàn)不高于理論時延1.5倍的直連網(wǎng)絡(luò)傳輸,重點應(yīng)用場所光傳送網(wǎng)(OTN)覆蓋率達到80%,骨干網(wǎng)、城域網(wǎng)全面支持IPv6,SRv6等創(chuàng)新技術(shù)使用占比達到40%。
存儲力方面,存儲總量超過1800EB,先進存儲容量占比達到30%以上,重點行業(yè)核心數(shù)據(jù)、重要數(shù)據(jù)災(zāi)備覆蓋率達到100%。算力、存力與運力皆舉足輕重,而要論誰最重要,恐怕多數(shù)人都會覺得是算力。畢竟,“算力緊缺”的氣氛常常被渲染起來。
?02爭搶GPU,以期獲得更多算力
那么,如何獲取更多的算力呢?當下,主流的途徑是通過堆積算力芯片來實現(xiàn),包括 CPU、GPU、FPGA、ASIC 等,其中GPU的應(yīng)用最為廣泛。在 AI 大火之際,科技巨頭們紛紛投身于一場激烈的 GPU 爭奪戰(zhàn)中。值得注意的是,由于單卡算力相對有限,為了縮短訓練時間,通常采用分布式訓練技術(shù),通過多臺節(jié)點構(gòu)建出一個計算能力和顯存能力超大的集群。從建設(shè)進度上看海外頭部廠商在2022年、2023年已經(jīng)完成萬卡集群搭建,國內(nèi)頭部互聯(lián)網(wǎng)廠商和電信運營商也加速萬卡集群建設(shè)布局。2023年5月,谷歌推出的AI超級計算機A3,搭載了約26000塊英偉達H100 GPU。
在2022年,META宣布了一個由1.6萬塊英偉達A100 GPU組成的集群。到了2024年初,META進一步擴大規(guī)模,建成了兩個各含24576塊GPU的集群,并設(shè)定了宏偉目標:到2024年底,構(gòu)建一個包含35萬塊英偉達H100 GPU的龐大基礎(chǔ)設(shè)施。2023年8月,特斯拉上線了一個集成1萬塊英偉達H100 GPU的集群。亞馬遜的Amazon EC2 Ultra集群采用了2萬個H100 TensorCore GPU。騰訊推出的星脈高性能網(wǎng)絡(luò),能夠支持高達10萬卡GPU的超大規(guī)模計算,網(wǎng)絡(luò)帶寬高達3.2T。字節(jié)跳動提出的MegaScale生產(chǎn)系統(tǒng),支撐12288卡Ampere架構(gòu)訓練集群。中國移動計劃今年商用哈爾濱、呼和浩特、貴陽三個自主可控的萬卡集群,總規(guī)模接近6萬張GPU卡。
中國電信計劃在2024年上半年在上海規(guī)劃建設(shè)一個達到15000卡、總計算力超過4500P的國產(chǎn)萬卡算力池,這將是國內(nèi)首個超大規(guī)模國產(chǎn)算力液冷集群。2024年3月,天翼云上海臨港國產(chǎn)萬卡算力池已正式啟用。中國聯(lián)通計劃在今年內(nèi),在上海臨港國際云數(shù)據(jù)中心建成中國聯(lián)通首個萬卡集群,這一集群的建成,將為中國聯(lián)通在數(shù)據(jù)中心和云計算市場提供新的競爭優(yōu)勢。
可以看到,萬卡集群的建設(shè)正如火如荼地進行著。然而,當擁有如此眾多的算力芯片時,它們是否已充分發(fā)揮出最大潛力呢?
就目前狀況而言,答案似乎是否定的。因為算力的釋放并非僅僅關(guān)乎 GPU 等算力芯片,而是需要全面考慮數(shù)據(jù)存儲、處理速度、網(wǎng)絡(luò)傳輸?shù)榷鄠€環(huán)節(jié)的協(xié)同作用。
在此背景下,存力作為算力釋放過程中的重要一環(huán),其潛力和價值逐漸受到重視。這時候,或許會有讀者發(fā)問:存力是否能成為提升算力水平、優(yōu)化算力利用的關(guān)鍵因素?存力究竟能在哪些方面為算力提供助力?以及,為了更有效地支持算力的提升,存力又該如何發(fā)展?
?03存力,如何助力算力?
如今隨著大模型進一步演進,不同要素的資源配置情況逐步發(fā)生了改變。其中,數(shù)據(jù)的重要性正提到了前所未有的高度,由此也正在帶來對存儲越來越嚴苛的要求。在一個全新的視角下,數(shù)據(jù)與其背后的“存力”,正在成為影響大模型創(chuàng)新整體過程的關(guān)鍵因素。存力給算力帶來的助力主要有以下幾點:
首先,高效的存儲能力直接促進了數(shù)據(jù)處理速度的飛躍。隨著大模型訓練過程中數(shù)據(jù)量的爆炸性增長,快速、穩(wěn)定的數(shù)據(jù)讀取與寫入成為提升模型訓練效率的關(guān)鍵。存力通過優(yōu)化存儲架構(gòu)、采用高性能存儲介質(zhì)以及智能數(shù)據(jù)管理技術(shù),實現(xiàn)了數(shù)據(jù)訪問的低延遲與高并發(fā),極大地縮短了數(shù)據(jù)處理周期,使得模型能夠更快地從海量數(shù)據(jù)中汲取知識,加速迭代與優(yōu)化。
其次,存力增強了數(shù)據(jù)的安全性與可靠性。在大數(shù)據(jù)時代,數(shù)據(jù)泄露與丟失的風險日益增加,而強大的存力體系通過加密存儲、多副本冗余、容災(zāi)備份等機制,確保了數(shù)據(jù)的完整性和安全性,為模型的持續(xù)運行提供了堅實后盾。
再者,存力還促進了數(shù)據(jù)的高效共享與協(xié)同。在大模型研發(fā)過程中,跨團隊、跨領(lǐng)域的數(shù)據(jù)合作日益頻繁,高效的存力系統(tǒng)能夠支持數(shù)據(jù)的快速傳輸與無縫對接,打破信息孤島,促進知識融合與創(chuàng)新。通過構(gòu)建統(tǒng)一的數(shù)據(jù)管理平臺,實現(xiàn)數(shù)據(jù)的集中管理、按需分配與權(quán)限控制,不僅提高了數(shù)據(jù)資源的利用效率,也加速了科研成果的轉(zhuǎn)化與應(yīng)用。
最后,存力的發(fā)展還推動了智能化存儲解決方案的誕生,為大模型提供了更加靈活、智能的數(shù)據(jù)支撐。借助AI算法與機器學習技術(shù),智能存儲系統(tǒng)能夠自動識別數(shù)據(jù)特征、優(yōu)化存儲布局、預(yù)測并滿足數(shù)據(jù)訪問需求,從而進一步提升數(shù)據(jù)處理的智能化水平。這種智能化存儲與大模型的深度融合,將為未來的科技創(chuàng)新帶來無限可能。
通俗來講,在人工智能的蓬勃發(fā)展進程中,僅僅擁有強大的 GPU 還遠遠不夠。畢竟數(shù)據(jù)在處理之前,需要先“搬過來”。有數(shù)據(jù)顯示,一個規(guī)模達 20 億的數(shù)據(jù)集,拷貝準備大約整整 30 天。這就意味著倘若沒有出色的存儲系統(tǒng)作為支撐,GPU也“巧婦難為無米之炊”。再者,在后續(xù)的加密存儲以及數(shù)據(jù)共享等方面,存力皆為算力帶來諸多強大助力。
倘若用建造高樓大廈舉例子,算力便是高聳入云的建筑主體,而存力則是堅實的地基,只有地基穩(wěn)固,大廈才能拔地而起。因此,倪光南院士也曾表示,算力中心的計算能力由存力、算力、運力三個因素決定。倪光南院士認為,用廣義算力去定義一個算力中心,才更準確。
?04、需要什么樣的存儲?
利用SSD來取代HDD
從存儲方式來看,近些年中國數(shù)據(jù)量的發(fā)展十分迅猛,每年的復(fù)合增長率約是30%左右。主要采用機械硬盤HDD,先進半導體存儲技術(shù)滯后。閃存和SSD都屬于半導體存儲范疇,前者指存儲介質(zhì)(閃存顆粒)后者指存儲設(shè)備(固態(tài)硬盤) 。從存儲領(lǐng)域的閃存市場占比情況來審視,在全球范圍內(nèi),閃存平均水平達到了 41.3%。而美國在這一領(lǐng)域表現(xiàn)突出,閃存占比高達 56.4%。
相比之下,中國的閃存市場占比僅為 20.3%,與全球平均水平和美國相比仍存在一定差距。海量數(shù)據(jù)的增長,對我國存儲提出了更高的需求,先進存力成為了存力的重要發(fā)展方向。先進存力主要是指企業(yè)級存儲中更加先進的存力,其以“大容量、高性能”為基礎(chǔ),以“先進介質(zhì)、高效架構(gòu)”為支撐,以“開放生態(tài)、綠色低碳、安全可靠”為關(guān)鍵,可應(yīng)用于更廣泛的關(guān)鍵場景的存儲能力。
針對這一現(xiàn)象,中國存儲可以做出的改進之一便是利用SSD來取代HDD。當前SSD的演進主要通過兩方面:一方面是容量,另一方面是性能和功耗。在容量方面,AI時代對于高容量的SSD需求正在快速上升。需要SSD不僅有更大的存儲容量,還要能夠在不犧牲性能的前提下,通過技術(shù)的改進等提高NAND密度。另外,隨著 TLC 閃存架構(gòu)開始達到原始存儲容量的極限,QLC 代表了希望不斷突破主流消費 SSD 容量極限的 SSD 制造商的未來。
目前,諸多存儲廠商都已經(jīng)發(fā)布QLC閃存。在性能和功耗方面,隨著數(shù)據(jù)中心對于存儲設(shè)備速度要求的不斷提升,SSD需要提供更高的IOPS(每秒輸入輸出操作次數(shù))和帶寬(GBPS),在保證高性能的同時必須有效控制功率消耗,實現(xiàn)單位性能所需的能耗降低??上驳氖?,中國已經(jīng)有一些主流的存儲芯片公司可以提供達到一線的水平和生產(chǎn)能力的存儲產(chǎn)品,在SSD主控芯片方面,國內(nèi)也已經(jīng)有十幾家廠商的產(chǎn)品得到商用。隨著SSD成本的不斷下探,有望為存力市場作出更大貢獻。
采用先進的存儲介質(zhì)和技術(shù)
一些先進的存儲介質(zhì)和技術(shù)也可給算力帶來一些助力,比如通過研究和開發(fā)如相變存儲器(PCM)、阻變存儲器(RRAM)和磁性存儲器(MRAM)等新型 NVM 技術(shù)。這些存儲器具有高速讀寫、低功耗、高耐用性和非易失性等優(yōu)點,可以作為傳統(tǒng)存儲設(shè)備的補充或替代,提高存力和算力。
探索基于新型材料的存儲技術(shù),如二維材料(如石墨烯)。這些材料具有獨特的物理和電子特性,有望實現(xiàn)更高的存儲密度和性能,為未來的存力和算力提升提供新的途徑。
發(fā)展大容量的光存儲技術(shù)也是一個不錯的想法,光存儲具有長期保存數(shù)據(jù)、高容量和低成本等優(yōu)點,可以作為離線存儲或歸檔存儲的選擇,釋放其他存儲設(shè)備的空間,提高存力并為算力提供更多的可用存儲資源。通過以上多種方法的綜合應(yīng)用,可以有效地提升存力,進而為算力的提升提供堅實的基礎(chǔ)和強大的支持。
?05存力中心建設(shè),如火如荼
眼下算力中心興起的同時,還要建設(shè)先進的存力中心。
數(shù)與算、存與算存在失衡現(xiàn)象,也導致了數(shù)據(jù)割裂在不同數(shù)據(jù)中心中,數(shù)據(jù)歸集難、融合匯聚難、有效治理難、使用加工難、共享流通難,導致算力和應(yīng)用缺乏有效的高質(zhì)量數(shù)據(jù)供給,算力的潛能被抑制,對算力和產(chǎn)業(yè)的賦能價值沒有充分發(fā)揮,數(shù)據(jù)中心的商業(yè)和產(chǎn)業(yè)持續(xù)正向閉環(huán)存在巨大挑戰(zhàn)。
基于此,華為作為全球領(lǐng)先的信息與通信技術(shù)(ICT)解決方案供應(yīng)商,致力于建設(shè)高性能、高可靠的存力中心,以滿足企業(yè)數(shù)字化轉(zhuǎn)型和智能世界建設(shè)的需求。華為通過整合自身在存儲技術(shù)、云計算、人工智能等領(lǐng)域的優(yōu)勢,為客戶提供全方位的存力解決方案,包括數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)保護等服務(wù)。
隨著云計算業(yè)務(wù)的不斷發(fā)展,阿里巴巴也在積極建設(shè)大規(guī)模的存力中心。通過采用先進的存儲技術(shù)和架構(gòu),如分布式存儲、軟件定義存儲等,阿里巴巴能夠為客戶提供高可用、高可靠、高擴展性的存儲服務(wù)。同時,阿里巴巴還在不斷探索新的存儲技術(shù)和應(yīng)用場景,如邊緣存儲、云原生存儲等,以滿足不同客戶的需求。
騰訊在云計算、大數(shù)據(jù)、人工智能等領(lǐng)域擁有強大的技術(shù)實力和豐富的經(jīng)驗,也在積極建設(shè)存力中心。騰訊通過優(yōu)化存儲架構(gòu)、提高存儲效率、加強數(shù)據(jù)安全等措施,為客戶提供高效、穩(wěn)定、安全的存儲服務(wù)。同時,騰訊還在積極探索新的存儲技術(shù)和應(yīng)用模式,如智能存儲、區(qū)塊鏈存儲等,以推動存儲行業(yè)的創(chuàng)新發(fā)展。
中國科學院計算技術(shù)研究所作為國內(nèi)頂尖的科研機構(gòu),其在存儲技術(shù)領(lǐng)域擁有深厚的技術(shù)積累和強大的研發(fā)實力。該研究所致力于建設(shè)先進的存力中心,開展存儲技術(shù)的研究和開發(fā),包括新型存儲介質(zhì)、存儲系統(tǒng)架構(gòu)、存儲算法等方面的研究。通過與企業(yè)合作,將科研成果轉(zhuǎn)化為實際應(yīng)用,為我國存儲產(chǎn)業(yè)的發(fā)展提供技術(shù)支持。
清華大學計算機科學與技術(shù)系在存儲技術(shù)領(lǐng)域也有著卓越的研究成果和豐富的教學經(jīng)驗。該系積極參與存力中心的建設(shè),開展存儲技術(shù)的研究和教學工作,培養(yǎng)存儲技術(shù)領(lǐng)域的專業(yè)人才。同時,清華大學還與企業(yè)合作,開展產(chǎn)學研合作項目,推動存儲技術(shù)的創(chuàng)新和應(yīng)用。
算、存、運在數(shù)據(jù)時代至關(guān)重要。如果說存力已經(jīng)開始逐漸受到重視,那么國產(chǎn)運力相對來說可能還是一個“小透明”。在大力發(fā)展算力、支持存力的過程中,請同步關(guān)注“運力”的重要性。