云基礎(chǔ)設(shè)施處理器CIPU(Cloud infrastructure Processing Units ),是阿里云為新型云數(shù)據(jù)中心設(shè)計的專用處理器,用于加速和管控計算資源,將替代CPU成為云時代IDC的處理核心。在這個全新體系架構(gòu)下,CIPU向下對數(shù)據(jù)中心的計算、存儲、網(wǎng)絡(luò)資源快速云化并進行硬件加速,向上接入飛天云操作系統(tǒng),管控阿里云全球上百萬臺服務(wù)器。
1、CIPU的三大特性:
- 網(wǎng)絡(luò):對高帶寬物理網(wǎng)絡(luò)進行硬件加速,通過建設(shè)大規(guī)模的eRDMA分布式高性能網(wǎng)絡(luò),實現(xiàn)RDMA技術(shù)的普惠化;
- 存儲:對存算分離架構(gòu)的塊存儲接入進行硬件加速,提供超高性能的云盤;
- 計算:快速接入不同類型資源的神龍計算平臺,帶來算力的“0”損耗,以及硬件級安全的加固隔離。
2、為什么要有CIPU?
過去十多年,云計算技術(shù)發(fā)展經(jīng)歷了兩個階段:
- 第一階段是分布式技術(shù),推動互聯(lián)網(wǎng)企業(yè)從大機向分布式系統(tǒng)整個遷移;
- 第二階段誕生了資源池化技術(shù),通過計算存儲分離的架構(gòu),對資源統(tǒng)一的調(diào)度編排,提高云計算的可靠性和可用性。
這兩個階段都是以CPU為中心的計算體系架構(gòu),解決了部分計算的需求。但云上客戶的需求發(fā)生了巨大的變化,就像內(nèi)燃機發(fā)明之后,人類對載具速度的想象力從馬車時代進入了汽車時代。
隨著數(shù)據(jù)密集型計算越來越多,傳統(tǒng)以CPU為中心的計算體系架構(gòu)無法適應(yīng)這一趨勢:
第一,以CPU為中心的架構(gòu)導(dǎo)致了計算和網(wǎng)絡(luò)傳輸?shù)臅r延大;
第二,大數(shù)據(jù)應(yīng)用增多,導(dǎo)致數(shù)據(jù)中心內(nèi)部數(shù)據(jù)遷移量增多,以CPU為中心的架構(gòu)無法提供高帶寬;
第三,管理的基礎(chǔ)設(shè)施規(guī)模越來越大,阿里云在全球27個國家和地區(qū)、84個可用區(qū)管理著超過上百萬臺服務(wù)器,基于CPU為中心的架構(gòu)無法解決超大規(guī)模的復(fù)雜管理問題。
為了解決以上問題,需要對數(shù)據(jù)中心內(nèi)部的云計算體系架構(gòu)進行改革創(chuàng)新,從以CPU為中心的體系架構(gòu)進入以飛天操作系統(tǒng)+CIPU為中心的體系架構(gòu)。
3、CIPU帶來哪些改變?
基于CIPU和飛天操作系統(tǒng)的新一代云計算架構(gòu)體系,無論是在分布式應(yīng)用還是人工智能的場景測試中,都展現(xiàn)了優(yōu)越的性能。
存儲方面,通過全硬件虛擬化和轉(zhuǎn)發(fā)加速,存儲時延最低可至30us(PLX),IOPS高達300萬,存儲帶寬可達200 Gbps,全面超越市面上所有云產(chǎn)品,云端能提供比本地更安全可靠且高性能的存儲能力。
網(wǎng)絡(luò)方面,基礎(chǔ)帶寬從100G升級至200G,VPC的PPS轉(zhuǎn)發(fā)性能從2000萬提升至4000萬,網(wǎng)絡(luò)時延從22us降低至16us,RDMA協(xié)議下更可低至5.5us。應(yīng)用上云之后,比自建物理機的集群吞吐量提升了30%,業(yè)務(wù)高峰期延遲下降了90%。
計算方面,單容器虛擬化消耗減少50%,虛擬化容器啟動速度快350%。主流通用計算場景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大數(shù)據(jù)和AI 場景下,AI深度學(xué)習場景訓(xùn)練性能提升30%,Spark計算性能提升30%。同時,神龍計算平臺可以提前預(yù)測80%的硬件故障,并進行無感熱遷移規(guī)避,從而實現(xiàn)了業(yè)界領(lǐng)先的高可用SLA。
4、一圖看懂阿里云CIPU
附:阿里云的自研技術(shù)體系介紹
過去13年,阿里云自主研發(fā)了飛天云操作系統(tǒng),并構(gòu)建出自研芯片、服務(wù)器、計算、存儲、網(wǎng)絡(luò)等軟硬一體的新型計算體系架構(gòu)。
飛天是中國唯一自研云操作系統(tǒng),將遍布全球的上百萬臺服務(wù)器連接成一臺超級計算機,單集群可達10萬臺規(guī)模,千億級文件數(shù),EB級別存儲空間。2018年,飛天獲得中國電子學(xué)會15年來第一個科技進步特等獎。
在2021年11月發(fā)布的Gartner IaaS + PaaS 綜合解決方案記分卡中,阿里云被認為是所有被評估的全球供應(yīng)商中得分第三高的解決方案,在計算、存儲、網(wǎng)絡(luò)、安全等核心能力中,阿里云也均獲得最高分。
- 一云多芯,發(fā)布第一顆CPU芯片倚天710
傳統(tǒng)IT時代圍繞芯片建立IT生態(tài),但云計算從根本上改變了這一模式,云操作系統(tǒng)可以將服務(wù)器芯片、專用芯片等硬件封裝成標準算力,無論底層芯片是X86、ARM、RISC-V還是硬件加速,給客戶提供的都是標準的、高質(zhì)量的云計算服務(wù)。
2021年9月,阿里云在云棲大會上發(fā)布了首款通用芯片倚天710。作為一款為云而生的芯片,倚天710針對云計算特點做了大量優(yōu)化,性能超過業(yè)界標桿20%,能效比提升50%以上。
架構(gòu)層面,倚天710采用最新ARMv9架構(gòu),多達128核,主頻最高3.2GHz,可同時兼顧性能和功耗。同時,集成了業(yè)界最領(lǐng)先的DDR5、PCIE5.0等技術(shù),能有效提升芯片的傳輸速率,并且可適配云的不同應(yīng)用場景。
目前,倚天710已在阿里云數(shù)據(jù)中心內(nèi)部規(guī)?;渴穑㈨樌?021年雙11等多個核心業(yè)務(wù)。今年4月,基于倚天710的公共云 ECS實例已上線邀測。
- 自研服務(wù)器&操作系統(tǒng)
阿里云在去年9月發(fā)布了自研的磐久服務(wù)器和龍蜥服務(wù)器操作系統(tǒng)。磐久服務(wù)器采用了最新型的模塊化設(shè)計,可實現(xiàn)計算存儲分離,包括了高性能計算系列、大容量存儲系列、高性能存儲系列等,擁有風冷、液冷等不同散熱模式,服務(wù)器交付效率提升50%。
針對云原生時代容器化、微服務(wù)、持續(xù)交付等特點,磐久系列采用軟硬件融合方式實現(xiàn)極致性能,結(jié)合自研的MOC、FIC、AliFPGA、神盾卡等,滿足云原生的創(chuàng)新開發(fā)對性能和穩(wěn)定性的機制要求。在多核技術(shù)加持下,磐久系列的計算性能、IO吞吐、能效比的表現(xiàn)都居于業(yè)界領(lǐng)先水平。
龍蜥定位于服務(wù)器端操作系統(tǒng),支持 X86、ARM、龍芯(LoongArch)等多種芯片架構(gòu)和計算場景,性能和穩(wěn)定性經(jīng)受住了歷年雙11的嚴苛考驗,為云上典型場景帶來40%的綜合性能提升,故障率降低50%,兼容CentOS生態(tài),支持一鍵遷移,并提供全棧國密能力。
- 計算層:神龍
為了解決服務(wù)器長久以來的虛擬化性能損耗的問題,阿里云自主研發(fā)了神龍架構(gòu)。神龍與CIPU結(jié)合,可將虛擬化轉(zhuǎn)移到專用硬件中進行加速,可將物理機的高性能與虛擬機的靈活性融為一體,虛擬化損耗幾乎為零,性能比傳統(tǒng)物理機更強勁,還可隨時擴容,極大降低了客戶的成本。神龍不僅解決了云上虛擬化性能損耗的痛點,更讓云服務(wù)器的性能表現(xiàn)超越了傳統(tǒng)物理機。
基于神龍彈性計算集群,無論是在分布式應(yīng)用還是人工智能的場景測試中,都展現(xiàn)了優(yōu)越的性能,例如Redis性能提升了68%、MySQL提升了60%。在應(yīng)用上云之后,比自建物理機的集群吞吐量提升了30%,業(yè)務(wù)高峰期延遲下降了90%。高穩(wěn)定性是算力作為基礎(chǔ)服務(wù)設(shè)施的一個關(guān)鍵,在GPU服務(wù)器、CPU服務(wù)器和其他的異構(gòu)服務(wù)器這些關(guān)鍵計算服務(wù)中,阿里云服務(wù)器的各項性能始終處于業(yè)界領(lǐng)先的水平。除此之外,神龍計算平臺可以提前預(yù)測80%的硬件故障,并進行無感熱遷移規(guī)避,從而實現(xiàn)了業(yè)界領(lǐng)先的高可用SLA。
- 存儲層:盤古
盤古是阿里云自研的分布式存儲系統(tǒng),是阿里云底層的統(tǒng)一存儲架構(gòu),采用了分布式系統(tǒng)先進的容錯架構(gòu)和柔性平臺設(shè)計,具備彈性伸縮、自動負載均衡等能力,大幅提高了存儲系統(tǒng)的可靠性和安全性,可支持塊存儲、對象存儲、表格存儲、文件存儲、離線大數(shù)據(jù)處理等多種存儲模式。
在云存儲技術(shù)演進的過程中,盤古引領(lǐng)行業(yè)從毫秒級存儲向微秒存儲的時代演進,推動面向數(shù)據(jù)中心ZNSSSD國際標準的發(fā)展,與WD共同提出NVMeZNS國際技術(shù)標準(NVMe2.0),是目前云計算業(yè)內(nèi)最為先進的軟硬一體深度融合的分布式存儲系統(tǒng)。目前已經(jīng)圍繞盤古系統(tǒng)獲得發(fā)明專利超過190件。
今天,基于盤古系統(tǒng),阿里云已建起全球最豐富的云存儲產(chǎn)品家族,從公共云存儲到混合云存儲,從數(shù)據(jù)遷移到云上豐富的數(shù)據(jù)管理服務(wù),為客戶提供99.9999999999%的數(shù)據(jù)可靠性。全球部署規(guī)模已超100EB,憑借多層次防護、跨區(qū)域容災(zāi)等能力連續(xù)三年入選Gartner全球云存儲魔力象限,被列為全球領(lǐng)導(dǎo)者地位。9月26日,盤古還入選了2021烏鎮(zhèn)世界互聯(lián)網(wǎng)大會·世界互聯(lián)網(wǎng)領(lǐng)先科技成果。
洛神云網(wǎng)絡(luò)是阿里云飛天云操作系統(tǒng)的核心技術(shù)平臺,支撐起百萬級的用戶業(yè)務(wù)部署,讓更多能夠人體驗到云計算帶來的高效便捷服務(wù);秉承“讓網(wǎng)絡(luò)更簡單”的理念,提供了從萬物上云網(wǎng)絡(luò)、全球化網(wǎng)絡(luò)到數(shù)據(jù)中心組網(wǎng)、應(yīng)用交付網(wǎng)絡(luò)覆蓋用戶云上網(wǎng)絡(luò)全場景的產(chǎn)品和服務(wù)。
洛神云網(wǎng)絡(luò)經(jīng)歷12年的快速發(fā)展,從1.0時代發(fā)布國內(nèi)首個VPC,再到2.0時代打造了全球領(lǐng)先的“三位一體“(軟硬一體,超強性能;伸縮一體,無限彈性;云網(wǎng)一體,極致服務(wù))創(chuàng)新型云網(wǎng)絡(luò)架構(gòu)。
2021云棲大會上,阿里云重磅推出洛神云網(wǎng)絡(luò)3.0新平臺架構(gòu),主要特點包括:讓中心云到本地云和邊緣云都有一致性的云網(wǎng)絡(luò)體驗;通過全新的物聯(lián)網(wǎng)云連接器和智能接入網(wǎng)關(guān)讓萬物都能上阿里云;全新升級的各類網(wǎng)元產(chǎn)品提升應(yīng)用在云上的安全性和靈活性;全新發(fā)布的網(wǎng)絡(luò)智能服務(wù),為用戶提供從規(guī)劃到使用的智能助手;同時洛神云網(wǎng)絡(luò)3.0也通過開放合作來賦能產(chǎn)業(yè)。
阿里自研的數(shù)據(jù)庫起源于“去IOE”浪潮。2013年7月10日,淘寶核心系統(tǒng)中的最后一臺Oracle數(shù)據(jù)庫下線。這是“去IOE”非常重要的一個節(jié)點。經(jīng)過三年的研發(fā),阿里云于2017年9月發(fā)布了自主研發(fā)的云原生數(shù)據(jù)庫PolarDB,并于2018年4月正式商用。
阿里云提供了國內(nèi)最豐富的數(shù)據(jù)庫產(chǎn)品,除了智能化的企業(yè)級云數(shù)據(jù)服務(wù)RDS之外,阿里云自研了面向不同核心應(yīng)用場景的云數(shù)據(jù)庫產(chǎn)品,形成了以PolarDB、AnalyticDB、Lindorm為核心的面向在線交易處理、分析與多模、HTAP、物聯(lián)網(wǎng)等不同場景的云數(shù)據(jù)庫產(chǎn)品矩陣,滿足客戶不同業(yè)務(wù)場景的需求。
作為阿里云自研數(shù)據(jù)庫的明星產(chǎn)品,2021年,自研數(shù)據(jù)庫PolarDB首次實現(xiàn)了內(nèi)存與計算、存儲的解耦,內(nèi)存進一步池化,形成三層池化,使得彈性能力有數(shù)量級的提升。同時PolarDB還首次實現(xiàn)了多主架構(gòu),進一步提升可用性、并發(fā)處理、彈性能力,高效應(yīng)對“雙11”般的流量洪峰。
- 綠色數(shù)據(jù)中心
阿里云是國內(nèi)最早實踐綠色數(shù)據(jù)中心的廠商之一,目前阿里云自建的數(shù)據(jù)中心都已達到國家綠色數(shù)據(jù)中心標準,全年平均PUE小于1.3。
從阿里巴巴自身減碳實踐看,近年來已經(jīng)有一系列成果。2020年9月,阿里仁和數(shù)據(jù)中心落地杭州,成為國內(nèi)首座綠色5A級液冷數(shù)據(jù)中心,同時也成為了全球規(guī)模最大的全浸沒式液冷數(shù)據(jù)中心。相比傳統(tǒng)數(shù)據(jù)中心,其PUE最低可以達到1.09,每年可省電7000萬度,足夠西湖周邊所有路燈連續(xù)點亮8年;而阿里巴巴張北數(shù)據(jù)中心則成為行業(yè)首個碳普惠試點項目,獲評“2020年國家綠色數(shù)據(jù)中心”。
?