加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 提筆:憑什么是中國?
    • 落筆:為什么是云計(jì)算?
    • 入木:CIPU怎么解開算力桎梏?
    • 風(fēng)雷:CIPU畫出的跑道通向何方?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

阿里云CIPU下筆驚雷,方寸間書寫中國算力故事

2022/06/25
732
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

“當(dāng)其下筆風(fēng)雷快,筆所未到氣已吞”,看到阿里云CIPU發(fā)布的消息,我腦海里第一時間冒出了蘇軾的這句詩。

開啟工業(yè)革命序幕,讓蒸汽機(jī)、鐵路和煤炭成為主要能源的是英國發(fā)明家瓦特;讓燈泡和電力走入所有人生活的,是美國發(fā)明家愛迪生;現(xiàn)代計(jì)算機(jī)互聯(lián)網(wǎng)成為信息時代的基礎(chǔ)設(shè)施,變革誕生在美國西海岸。今天,所有人都將算力看作第四次工業(yè)革命的基本能源,將與千行百業(yè)、社會經(jīng)濟(jì)產(chǎn)生深刻而綿長的化學(xué)反應(yīng),那么這一次,算力基礎(chǔ)設(shè)施可以由中國來定義嗎?

顯然,阿里云想嘗試一下,并且已經(jīng)邁出了關(guān)鍵的一步——正式發(fā)布為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器CIPU,展現(xiàn)出取CPU而代之的氣勢。

CPU制霸計(jì)算產(chǎn)業(yè)半個世紀(jì)之久,CIPU要另起爐灶何其難也。作為讀者或許會疑問三連:憑什么?為什么?怎么做?我們不想直接給答案,從大家感興趣的問題出來進(jìn)行邏輯推演,讀者自然會思考并得出自己的答案。

提筆:憑什么是中國?

有一句流行歌詞:沒有人能在我的BGM里打敗我。聽起來十分自信,不過,這份自信很長一段時間是屬于美國的。1971年,英特爾生產(chǎn)的4004微處理器標(biāo)志著CPU的誕生,隨后與微軟的Windows系統(tǒng)一起組成了著名的“Wintel”聯(lián)盟,成為計(jì)算產(chǎn)業(yè)的現(xiàn)實(shí)標(biāo)準(zhǔn),被廣泛應(yīng)用于PC、高性能服務(wù)器以及云服務(wù)器中。而眾所周知,獲取算力的方式,無外乎本地硬件(數(shù)據(jù)中心)、云計(jì)算兩種。也就是說,以CPU為中心的計(jì)算架構(gòu)主宰了信息時代,支撐了云計(jì)算的崛起。

在這種局面下,中國廠商打算寫一段全新的旋律,讓別人主動走進(jìn)自己的BGM里,憑什么?

首先,CPU這張舊船票,可能登不上算力時代的船。英特爾CEO早在幾年前就表示過“摩爾定律已死”,CPU性能提升的速度早已放緩,而隨著數(shù)字化的推進(jìn),數(shù)據(jù)規(guī)模、結(jié)構(gòu)和來源越來越廣,單一CPU為中心的計(jì)算架構(gòu),無法滿足激增的算力需求,計(jì)算架構(gòu)的創(chuàng)新是現(xiàn)實(shí)所需。

其次,圍繞CPU形成的服務(wù)器、操作系統(tǒng)、中間件、數(shù)據(jù)庫和基礎(chǔ)軟件等應(yīng)用及相關(guān)服務(wù),很長一段時間內(nèi)都掌握在歐美主流云廠商手中,中國數(shù)字經(jīng)濟(jì)要長期可持續(xù)發(fā)展,對于算力基礎(chǔ)設(shè)施自然希望有更多選擇,這給中國廠商創(chuàng)造了新的機(jī)會。

當(dāng)然,頭部云廠商從業(yè)務(wù)、戰(zhàn)略等維度也早就意識到了以CPU為中心的隱患,紛紛開始探索新的算力硬件解決方案。近年來多樣性計(jì)算架構(gòu)不斷涌現(xiàn),比如谷歌發(fā)布了TPU,AWS發(fā)布Arm架構(gòu)的云服務(wù)器,英偉達(dá)嘗試收購ARM以擴(kuò)展數(shù)據(jù)中心業(yè)務(wù)。圖靈獎得主大衛(wèi)·帕特森與約翰·漢尼斯認(rèn)為,接下來將是計(jì)算架構(gòu)更新的黃金十年。如果不想在第四次工業(yè)革命中依然重復(fù)別人的故事,那么,中國就必須在計(jì)算架構(gòu)上落下屬于自己的一筆。

落筆:為什么是云計(jì)算?

如前所說,CPU在本地和云都有應(yīng)用,為什么架構(gòu)創(chuàng)新會率先從云開始呢?答案其實(shí)也很簡單,更新的圖紙有更大自由發(fā)揮的空間。

第四次工業(yè)革命從云開始,對于中國千行百業(yè)的數(shù)字化來說,直接調(diào)用彈性、高并發(fā)、異構(gòu)的云端算力是更理想的選擇;中國云廠商在技術(shù)能力、市場規(guī)模、生態(tài)方面與全球巨頭在相同起跑線,像阿里云已經(jīng)成長為與AWS、微軟Azure等同象限的頭部云廠商;更重要的是,方興未艾的數(shù)字經(jīng)濟(jì)催生了新的算力需求和技術(shù)挑戰(zhàn),以CPU為中心的云計(jì)算架構(gòu)越來越力不從心,中國云廠商有著更大的創(chuàng)新空間。

簡單來說,云計(jì)算架構(gòu)的創(chuàng)新方向主要有幾個:

1.性能升級。云計(jì)算一定是性能先行,才能成為千行百業(yè)數(shù)字化的算力底座,尤其是第四次工業(yè)革命中智能技術(shù)的大量應(yīng)用,深度學(xué)習(xí)對于算力資源的消耗是極大的,要求云處理器提供更強(qiáng)的算力,實(shí)現(xiàn)每比特性能最優(yōu)。不僅需要硬件升級,創(chuàng)新傳統(tǒng)計(jì)算架構(gòu),提升單位算力的效率;還需要軟件升級,解決軟件定義虛擬化中出現(xiàn)的資源損耗。

2.業(yè)務(wù)效益。各行各業(yè)使用云服務(wù),不單單是降低服務(wù)器成本還希望通過云為管道引入新技術(shù),對大量業(yè)務(wù)數(shù)據(jù)進(jìn)行分析處理,釋放數(shù)據(jù)價值,也就是說單位算力所能貢獻(xiàn)的GDP要提高。數(shù)據(jù)密集型的計(jì)算越來越多,算力分布在邊、端、云、網(wǎng)等多個維度,數(shù)據(jù)的遷移量和吞吐率也增多,解決超大規(guī)模分布式集群之間網(wǎng)絡(luò)傳輸、管理的問題,才能滿足客戶對低時延、高帶寬的需求。

3.綠色低碳。上云用數(shù)賦智成為趨勢,計(jì)算無處不在,算力基礎(chǔ)設(shè)施的能耗問題也引發(fā)社會關(guān)注,計(jì)算產(chǎn)業(yè)的可持續(xù)發(fā)展,需要低功耗、高性能的并發(fā)處理能力,減少虛擬化中的損耗,以達(dá)到單位比特的能效比最優(yōu),滿足各行各業(yè)綠色低碳、節(jié)能減排的發(fā)展需求。

方興未艾的云計(jì)算,相當(dāng)于一張更新的圖紙,等待著人來書寫底層計(jì)算架構(gòu)范式轉(zhuǎn)換的新篇章,而阿里云用CIPU率先落下了遒勁的一筆。

入木:CIPU怎么解開算力桎梏?

計(jì)算架構(gòu)更新,是必然的未來,對于中國云廠商來說,怎樣在自己擅長的技術(shù)賽道上建立起差異化優(yōu)勢,就成了當(dāng)務(wù)之急。縱覽全球領(lǐng)先的計(jì)算廠商,谷歌專門發(fā)布了應(yīng)對AI任務(wù)的TPU,亞馬遜在云服務(wù)器、云端AI推理芯片上也有所突破,以GPU為主營業(yè)務(wù)的英偉達(dá)也嘗試進(jìn)入數(shù)據(jù)中心業(yè)務(wù)推出DPU,老牌廠商英特爾也推出IPU,國內(nèi)也有云廠商推出了自己的計(jì)算硬件。

需要注意的是,云端算力實(shí)際上受非常多的條件影響,除了芯片的比拼,還有網(wǎng)絡(luò)、算法優(yōu)化、集群性能、部署環(huán)境、數(shù)據(jù)處理能力、框架等一系列要素,整體決定了云計(jì)算的優(yōu)越性。阿里云為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器CIPU,正是考慮到云時代的算力所需,從三個層面進(jìn)行管控并加速,來解開算力桎梏。

·網(wǎng)絡(luò)加速。云和硬件的結(jié)合,必須依靠網(wǎng)絡(luò),管理阿里云全球上百萬臺服務(wù)器并非易事。試想一下,將不同地區(qū)數(shù)據(jù)中心的算力進(jìn)行調(diào)配傳輸,如果網(wǎng)絡(luò)不給力,必然會導(dǎo)致數(shù)據(jù)傳輸慢、計(jì)算慢,大量實(shí)時性要求高的任務(wù)如自動駕駛、遠(yuǎn)程醫(yī)療、在線教育等,體驗(yàn)就會受到影響。傳統(tǒng)以CPU為中心的架構(gòu)可沒辦法把手伸到網(wǎng)絡(luò)層,而CIPU因?yàn)榻尤腼w天云操作系統(tǒng),可以直接通過飛天上的洛神云網(wǎng)絡(luò)管控物理網(wǎng)絡(luò),進(jìn)行硬件加速,構(gòu)建大規(guī)模的分布式RDMA高性能網(wǎng)絡(luò),基礎(chǔ)帶寬從100G升級至200G,網(wǎng)絡(luò)時延從22us降低至16us,因此AI任務(wù)、科學(xué)計(jì)算等上云之后,比自建物理機(jī)的集群吞吐量提升了30%,延遲自然也就大大下降了。

·存儲加速。大量云上客戶希望充分釋放數(shù)據(jù)價值,高吞吐、高并發(fā)的數(shù)據(jù)存算,如果存儲系統(tǒng)跟不上,相當(dāng)于一臺跑車的油箱只有摩托車那么大,發(fā)動機(jī)再強(qiáng)勁也跑不快。傳統(tǒng)CPU以計(jì)算為中心的設(shè)計(jì),數(shù)據(jù)搬運(yùn)中往往會產(chǎn)生“存儲墻”和“功耗墻”,一定程度上影響了并行計(jì)算效率。同樣的,CIPU與飛天操作系統(tǒng)相結(jié)合,能夠接入存算分離架構(gòu)的塊存儲,并進(jìn)行硬件加速,讓云端存儲可以做到比本地存儲還快,并擁有極大規(guī)模的資源池。通過全硬件虛擬化和轉(zhuǎn)發(fā)加速,時延最低可至30us(PLX),IOPS高達(dá)300萬,存儲時延存儲帶寬可達(dá)200 Gbps,全面超越市面上的云產(chǎn)品。

·計(jì)算加速。算得快意味著什么?1750 億參數(shù)的 AI 大模型 GPT-3 訓(xùn)練成本約為 1200 萬美元,如果算得夠快、損耗夠小,訓(xùn)練成本就能大大下降。而眾所周知,云服務(wù)將物理機(jī)虛擬池化,過程中或多或少都會產(chǎn)生一定的損耗,CIPU的出現(xiàn)就解決了算力虛擬化的損耗問題。通過與神龍計(jì)算平臺相結(jié)合,將虛擬化轉(zhuǎn)移到專用硬件中進(jìn)行加速,損耗幾乎為零,讓云服務(wù)器的性能表現(xiàn)超越了傳統(tǒng)物理機(jī),還提供硬件級安全的加固隔離,兼具云端彈性擴(kuò)容的優(yōu)點(diǎn)。對于云上客戶來說,無疑是更低成本、靈活性的選擇。

在多種計(jì)算架構(gòu)方案中,“飛天操作系統(tǒng)+CIPU”為中心的新一代計(jì)算體系架構(gòu),從最底層的核心硬件到最上層的云原生軟件進(jìn)行革新,替代CPU成為云計(jì)算的管控和加速中心,無疑是云端算力生產(chǎn)和服務(wù)單位價值更高、技術(shù)變革更大、基礎(chǔ)底座更強(qiáng)韌的一次探索。

風(fēng)雷:CIPU畫出的跑道通向何方?

中國工程院院士、清華大學(xué)高性能計(jì)算研究所所長鄭緯民曾說,過去這些年,我國在云計(jì)算領(lǐng)域主要在軟件層面有創(chuàng)新,發(fā)展了一些開源生態(tài),但還是在傳統(tǒng)IT的格局下追趕。

顯然,CIPU的出現(xiàn),下筆如有風(fēng)雷,撕開由西方主導(dǎo)的計(jì)算產(chǎn)業(yè)天空,露出未來的一抹天光。乍一看石破天驚,實(shí)則是一場醞釀已久的春雨。

前面提到的飛天操作系統(tǒng)、洛神網(wǎng)絡(luò)、盤古存儲,都是阿里云多年不斷突破的云計(jì)算底層技術(shù),經(jīng)過深入垂直整合,才最終演進(jìn)出以CIPU為中心的全新架構(gòu)形態(tài),解決傳統(tǒng)計(jì)算架構(gòu)無法解決的問題。以虛擬化零損耗為例,阿里云相關(guān)研發(fā)團(tuán)隊(duì)早在2015年就開始技術(shù)攻關(guān),2017年神龍?jiān)品?wù)器的推出,就已經(jīng)攻克了這一技術(shù)難題。目前,阿里云已經(jīng)建立了芯片、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫等自研技術(shù)底座,在Gartner發(fā)布的年度報(bào)告里躋身IaaS整體基礎(chǔ)設(shè)施能力的全球最高分。同時,阿里云也是國內(nèi)最早實(shí)踐綠色數(shù)據(jù)中心的廠商之一。

那么,這場終于降落在華夏大地上的春雨,會帶來怎樣的變化呢?

首先感受到雨露潤澤的必然是各行各業(yè)的數(shù)字化,CIPU+飛天體系下,云端算力的單位成本更低、性能更優(yōu)、能耗更低,產(chǎn)業(yè)客戶會直接受益,用上更加普惠、高效、綠色的算力。

其次,大地滋潤后會生長出更多創(chuàng)新,讓中國在數(shù)字經(jīng)濟(jì)占據(jù)領(lǐng)先身位。算力正在許多行業(yè)中釋放潛力,比如云電腦無影,就將高算力工作從本地轉(zhuǎn)移到云端,無需高性能終端,依然可以在云端流暢地打造8K畫質(zhì)體驗(yàn),對于創(chuàng)作者來說是極大的生產(chǎn)力解放。

更進(jìn)一步,各行各業(yè)的創(chuàng)新和計(jì)算軟硬件迭代,共同組成蓬勃的新計(jì)算生態(tài)。就如阿里云智能總裁張建鋒在2022年阿里云峰會上所說的那樣,“現(xiàn)在是重新定義云的窗口期,如果我們定義好了,中國就可以在下一個技術(shù)時代有自己的一席之地”。

回到底層,回到源頭,去做最基礎(chǔ)的計(jì)算架構(gòu)創(chuàng)新,阿里云用行動“Back to Basic”,踐行“B2B”策略。這也是為什么云計(jì)算的范式轉(zhuǎn)化應(yīng)該發(fā)生在中國,發(fā)生在此刻。

英國科普作家馬特·里德利在《創(chuàng)新的起源:一部科學(xué)技術(shù)進(jìn)步史》一書中列舉大量事實(shí)表明,正如6個世紀(jì)以前,歐洲從日益僵化的中國手中奪過創(chuàng)新接力棒一樣,中國或許即將再次奪回接力棒。

在CIPU如驚雷般地書寫中,中國云計(jì)算的新樂章已經(jīng)寫下了開頭。何其有幸,我們正見證未來。

阿里巴巴

阿里巴巴

阿里巴巴集團(tuán)經(jīng)營多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國際交易市場、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。

阿里巴巴集團(tuán)經(jīng)營多項(xiàng)業(yè)務(wù),另外也從關(guān)聯(lián)公司的業(yè)務(wù)和服務(wù)中取得經(jīng)營商業(yè)生態(tài)系統(tǒng)上的支援。業(yè)務(wù)和關(guān)聯(lián)公司的業(yè)務(wù)包括:淘寶網(wǎng)、天貓、聚劃算、全球速賣通、阿里巴巴國際交易市場、1688、阿里媽媽、阿里云、螞蟻金服、菜鳥網(wǎng)絡(luò)等。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜