近日,清華大學(xué)集成電路學(xué)院在2024 ACM/IEEE第51屆年度計(jì)算機(jī)體系結(jié)構(gòu)國(guó)際研討會(huì)(ISCA)上發(fā)表了國(guó)際首款面向視覺AI大模型的三維DRAM存算一體架構(gòu),可大幅突破存儲(chǔ)墻瓶頸,并基于三維集成架構(gòu)特點(diǎn),實(shí)現(xiàn)相似性感知計(jì)算,進(jìn)一步提高AI大模型的計(jì)算效率。
存算一體作為新一代計(jì)算技術(shù),在數(shù)據(jù)運(yùn)算和存儲(chǔ)過(guò)程中實(shí)現(xiàn)了一體化設(shè)計(jì),被認(rèn)為是后摩爾時(shí)代最重要的發(fā)展方向之一,將為人工智能的大規(guī)模應(yīng)用提供不竭的算力支撐。在更早之前,中科院和清華大學(xué)就在該領(lǐng)域不斷鉆研,逐步突破。
一、老問(wèn)題:內(nèi)存墻和IO墻的桎梏
理解該文前,需要對(duì)內(nèi)存墻和IO墻現(xiàn)象進(jìn)行基礎(chǔ)理解,這兩類現(xiàn)象來(lái)源于當(dāng)前計(jì)算架構(gòu)中的多級(jí)存儲(chǔ)。如圖所示,當(dāng)前的主流計(jì)算系統(tǒng)所使用的數(shù)據(jù)處理方案,依賴于數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)處理分離的體系結(jié)構(gòu)(馮諾依曼架構(gòu)),為了滿足速度和容量的需求,現(xiàn)代計(jì)算系統(tǒng)通常采取高速緩存(SRAM)、主存(DRAM)、外部存儲(chǔ)(NAND Flash)的三級(jí)存儲(chǔ)結(jié)構(gòu)。
常見的存儲(chǔ)系統(tǒng)架構(gòu)及存儲(chǔ)墻(全球半導(dǎo)體觀察制圖)
每當(dāng)應(yīng)用開始工作時(shí),就需要不斷地在內(nèi)存中來(lái)回傳輸信息,這在時(shí)間和精力上都有著較大的性能消耗。越靠近運(yùn)算單元的存儲(chǔ)器速度越快,但受功耗、散熱、芯片面積的制約,其相應(yīng)的容量也越小。如SRAM響應(yīng)時(shí)間通常在納秒級(jí),DRAM則一般為100納秒量級(jí),NAND Flash更是高達(dá)100微秒級(jí),當(dāng)數(shù)據(jù)在這三級(jí)存儲(chǔ)間傳輸時(shí),后級(jí)的響應(yīng)時(shí)間及傳輸帶寬都將拖累整體的性能,形成“存儲(chǔ)墻”。
IO墻則產(chǎn)生于外部存儲(chǔ)中,因?yàn)閿?shù)據(jù)量過(guò)于龐大,內(nèi)存里放不下就需要借助外部存儲(chǔ),并用網(wǎng)絡(luò)IO來(lái)訪問(wèn)數(shù)據(jù)。IO方式的訪問(wèn)會(huì)使得訪問(wèn)速度下降幾個(gè)數(shù)量級(jí),嚴(yán)重拖累著整體性能,這即是IO墻。
現(xiàn)代處理器性能的不斷提升,而內(nèi)存與算力之間的技術(shù)發(fā)展差距卻不斷增大。業(yè)界數(shù)據(jù)顯示,在過(guò)去的20多年中,處理器的性能以每年大約55%速度快速提升,而內(nèi)存性能的提升速度則只有每年10%左右。并且,當(dāng)代內(nèi)存容量擴(kuò)展面臨著摩爾定律的壓力,速度在逐年減緩的同時(shí),帶來(lái)的則是成本的愈發(fā)高昂。隨著大數(shù)據(jù)AI/ML等應(yīng)用爆發(fā),以上問(wèn)題已經(jīng)成為制約計(jì)算系統(tǒng)性能的主要因素。
二、新問(wèn)題:近存計(jì)算與“灘前問(wèn)題”
據(jù)悉,岳志恒該論文題目為Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture,尹首一教授,胡楊副教授為本文通信作者,岳志恒為論文第一作者,論文合作者還包括香港科技大學(xué)涂鋒斌助理教授,上海交通大學(xué)李超教授等。
更早以前,岳志恒就發(fā)表了題為Understanding Hybrid Bonding and Designing a Hybrid Bonding Accelerator《理解混合鍵合和設(shè)計(jì)混合鍵合加速器》的論文,可視為上文的前身。該文在3D DRAM基礎(chǔ)上,提出了一種利用CSE加速視覺AI模型的混合鍵合設(shè)計(jì),并提供了混合鍵合設(shè)計(jì)的全面分析,在多種基準(zhǔn)工作負(fù)載和數(shù)據(jù)集上評(píng)估,該項(xiàng)工作平均提高了5.69×~28.13×的能效和3.82×~10.98×的面積效率??傮w而言,該文涉及了混合鍵合DRAM技術(shù)發(fā)展、I/O密度的限制和擴(kuò)展的難題、2.5D TSV先進(jìn)封裝的作用等內(nèi)容。
存儲(chǔ)計(jì)算隨著時(shí)代的發(fā)展已出現(xiàn)各種新的問(wèn)題和限制。在岳志恒的論文中,提到了近存計(jì)算與“灘前問(wèn)題”兩個(gè)概念。近存計(jì)算則是近年行業(yè)廣泛采用HBM作為解決方案后,再輔以先進(jìn)封裝方式將HBM芯片與計(jì)算芯片在silicon interposer上集成,以此計(jì)算芯片與存儲(chǔ)芯片近距離集成封裝,實(shí)現(xiàn)了計(jì)算單元與存儲(chǔ)單元之間數(shù)據(jù)的較短距離傳輸,通過(guò)“近存計(jì)算”提高處理性能。
在此突破下,此種高帶寬近存方案仍受到“灘前問(wèn)題”制約。灘前問(wèn)題是指,假設(shè)計(jì)算芯片是一個(gè)海島,則可以放置數(shù)據(jù)I/O通道的位置為島的沙灘位置,而沙灘的長(zhǎng)度則是可以放置I/O的總長(zhǎng)度。當(dāng)受到信號(hào)串?dāng)_等因素約束時(shí),相鄰的I/O位置受限,從而導(dǎo)致2.5D近存集成方案下I/O數(shù)量無(wú)法進(jìn)一步提升,從而難以提升帶寬。
為了解決灘前問(wèn)題,目前業(yè)界正逐步提高計(jì)算單元可用帶寬,如二維存內(nèi)計(jì)算,就是基于DRAM的存內(nèi)計(jì)算進(jìn)一步將計(jì)算單元集成在存儲(chǔ)陣列內(nèi)部,具體而言,在每個(gè)存儲(chǔ)Bank周圍集成計(jì)算單元,Bank數(shù)據(jù)讀出后,被相鄰計(jì)算單元立即處理,實(shí)現(xiàn)了Bank級(jí)別的存內(nèi)計(jì)算,有效解決了二維近存方案的灘前問(wèn)題。
二維存內(nèi)計(jì)算也有著缺陷,論文提到,與先進(jìn)邏輯工藝相比,集成于DRAM陣列內(nèi)的計(jì)算電路性能有差距、面積代價(jià)高。同時(shí),引入的計(jì)算單元將擠占DRAM存儲(chǔ)陣列面積,造成DRAM自身的存儲(chǔ)容量下降。例如,Samsung HBM-PIM在引入存內(nèi)計(jì)算單元后,存儲(chǔ)容量減少了50%。
三、清華突破:創(chuàng)新三維存算融合架構(gòu)
針對(duì)近存架構(gòu)的帶寬瓶頸和二維存內(nèi)計(jì)算架構(gòu)的工藝瓶頸問(wèn)題,研究團(tuán)隊(duì)首次探索了三維立體存算一體架構(gòu)方案。此方案通過(guò)將計(jì)算單元與DRAM存儲(chǔ)單元在垂直方向堆疊,單元間以金屬銅柱作為數(shù)據(jù)通道互聯(lián),有效解決了“灘前問(wèn)題”,能任意位置放置數(shù)據(jù)I/O,大幅提高數(shù)據(jù)通路密度。DRAM陣列與計(jì)算邏輯可獨(dú)立制造,邏輯電路不受DRAM工藝限制,不影響存儲(chǔ)容量。
在本架構(gòu)中,DRAM陣列由基本DRAM Bank組成,每個(gè)DRAM Bank與對(duì)應(yīng)的計(jì)算Bank通過(guò)hybrid bonding工藝在垂直方向堆疊,二者通過(guò)高密度銅柱交互數(shù)據(jù)?;ミB銅柱距離短、寄生容抗小,數(shù)據(jù)通路等效于互連線直連,每個(gè)DRAM Bank與對(duì)應(yīng)的計(jì)算Bank構(gòu)成了Bank級(jí)存算一體單元(如圖1所示)。
團(tuán)隊(duì)同時(shí)探索了Bank級(jí)存算一體架構(gòu)下的設(shè)計(jì)空間,包括DRAM Bank適配的計(jì)算Bank算力,計(jì)算Bank的片上緩存大小,三維集成引入的面積開銷等;并深入分析了三維架構(gòu)的硬件可靠性及散熱問(wèn)題,實(shí)現(xiàn)了完整的存算一體架構(gòu)設(shè)計(jì),大幅突破了存儲(chǔ)墻瓶頸,對(duì)AI大模型運(yùn)算,提供了有力的支持。
四、相似性感知的三維存算一體架構(gòu)
為進(jìn)一步提升系統(tǒng)性能,設(shè)計(jì)團(tuán)隊(duì)提出了相似性感知三維存算一體架構(gòu)。實(shí)驗(yàn)發(fā)現(xiàn),激活數(shù)據(jù)在存儲(chǔ)陣列內(nèi)連續(xù)存儲(chǔ)時(shí),局部區(qū)域數(shù)據(jù)具有相似性,本文歸結(jié)為存儲(chǔ)數(shù)據(jù)的簇相似效應(yīng)。利用此特性,設(shè)計(jì)團(tuán)隊(duì)提出在三維存算一體架構(gòu)內(nèi),每個(gè)計(jì)算Bank能夠獨(dú)立且并行地挖掘?qū)?yīng)DRAM Bank內(nèi)數(shù)據(jù)的相似性,并利用相似數(shù)據(jù)完成計(jì)算加速,提升系統(tǒng)性能。
該存算一體設(shè)計(jì)克服了三個(gè)關(guān)鍵技術(shù)難點(diǎn):1.如何尋找相似數(shù)據(jù)。由于DRAM Bank空間大,遍歷搜索相似數(shù)據(jù)將引入極大的功耗和時(shí)間開銷;2.如何利用相似數(shù)據(jù)。先前存算一體單元并未針對(duì)數(shù)據(jù)相似性特點(diǎn)設(shè)計(jì),無(wú)法充分挖掘其帶來(lái)的性能增益;3.如何平衡相似數(shù)據(jù)。由于在三維存算一體架構(gòu)內(nèi),不同的計(jì)算Bank獨(dú)立并行,因此系統(tǒng)性能受制于負(fù)載最重的計(jì)算Bank。本存算一體架構(gòu)為解決以上困難,提出了三項(xiàng)關(guān)鍵技術(shù):
1、基于熱點(diǎn)機(jī)制的DRAM Bank相似數(shù)據(jù)搜索方案
研究團(tuán)隊(duì)提出采用熱點(diǎn)機(jī)制完成快速的相似數(shù)據(jù)搜索。熱點(diǎn)數(shù)據(jù)為具有區(qū)域信息代表性的數(shù)據(jù),即其與區(qū)域內(nèi)多數(shù)數(shù)據(jù)有高相似性。本設(shè)計(jì)采用內(nèi)容可尋址單元收集不同區(qū)域的熱點(diǎn)數(shù)據(jù),新數(shù)據(jù)從DRAM Bank讀出時(shí)先在該單元內(nèi)快速搜索匹配區(qū)域熱點(diǎn)數(shù)據(jù),此熱點(diǎn)數(shù)據(jù)作為參考值與后續(xù)讀出數(shù)據(jù)執(zhí)行差分操作(如圖2所示)。由于數(shù)據(jù)之間存在相似性,因此差分結(jié)果往往具有高稀疏特性,可被用于計(jì)算加速。
2、針對(duì)相似數(shù)據(jù)特性的漸進(jìn)式稀疏計(jì)算單元
當(dāng)DRAM Bank數(shù)據(jù)讀出并經(jīng)預(yù)處理單元差分操作后,由于熱點(diǎn)數(shù)據(jù)與DRAM Bank內(nèi)區(qū)域數(shù)據(jù)具有相似性,異或結(jié)果往往在高比特位存在大量0值。針對(duì)這一稀疏特性,存算一體架構(gòu)設(shè)計(jì)了漸進(jìn)式稀疏檢測(cè)機(jī)構(gòu)。先將完整數(shù)據(jù)按權(quán)重位置分塊,判斷數(shù)據(jù)比特塊是否全為0,若全0則直接跳過(guò)對(duì)應(yīng)數(shù)據(jù)塊計(jì)算,非0部分由計(jì)分牌硬件單元迅速定位有效數(shù)據(jù)。完成稀疏檢測(cè)后,計(jì)分牌單元選擇將非冗余數(shù)據(jù)塊送入PE陣列進(jìn)行計(jì)算,從而跳過(guò)了稀疏比特,提高了計(jì)算效率(如圖3所示)。
3、針對(duì)數(shù)據(jù)相似性差異的負(fù)載均衡機(jī)制
本存算一體架構(gòu)采用Bank級(jí)并行,不同計(jì)算單元對(duì)應(yīng)的DRAM Bank內(nèi)數(shù)據(jù)相似性可能存在較大差別(如圖4所示)。這是因?yàn)閿?shù)據(jù)相似性由硬件單元在運(yùn)行時(shí)動(dòng)態(tài)檢測(cè),無(wú)法在任務(wù)映射時(shí)提前判別。針對(duì)不同計(jì)算Bank任務(wù)不均衡的問(wèn)題,本方案借助DRAM Bank間的數(shù)據(jù)相似性,對(duì)任務(wù)負(fù)載進(jìn)行壓縮處理,并在不同計(jì)算Bank間重分配任務(wù),減少對(duì)片間路由網(wǎng)絡(luò)帶寬的擠占,實(shí)現(xiàn)Bank級(jí)別的負(fù)載均衡和性能提升。
本工作完成了存算一體架構(gòu)設(shè)計(jì)、單元電路實(shí)現(xiàn)及性能功耗面積分析。實(shí)驗(yàn)結(jié)果顯示在系統(tǒng)性的AI任務(wù)負(fù)載上,本架構(gòu)相比公開報(bào)道的高算力AI芯片,如Wormhole和TPUv3,3D基線實(shí)現(xiàn)了6.72倍和2.34倍的吞吐量提升。相似性技術(shù)進(jìn)一步將吞吐量提高了1.21倍。(如圖5所示)在能效方面,3D基線相較于Wormhol和TPU實(shí)現(xiàn)了3.49倍和2.89倍的提升。數(shù)據(jù)相似性進(jìn)一步提升了1.97倍的能效。
五、存算一體新突破,中科院、清華齊發(fā)力
在存算一體領(lǐng)域,我國(guó)科學(xué)院、高校堅(jiān)持研發(fā)鉆研。今年2月,中國(guó)科學(xué)院微電子研究所劉明院士團(tuán)隊(duì)研發(fā)出基于外積運(yùn)算的數(shù)?;旌洗嫠阋惑w宏芯片,設(shè)計(jì)了一種數(shù)?;旌细↑c(diǎn)SRAM存內(nèi)計(jì)算方案,提出了模擬與數(shù)字存算宏的混合方法,結(jié)合了使用模擬存算方案進(jìn)行高效陣列內(nèi)位乘法和使用數(shù)字存算方案進(jìn)行高效陣列外多位移位累加的優(yōu)點(diǎn),達(dá)到整體上高能量效率與面積效率。通過(guò)殘差式數(shù)模轉(zhuǎn)換器架構(gòu),使數(shù)模轉(zhuǎn)換器所需分辨率僅為輸入位精度的對(duì)數(shù),實(shí)現(xiàn)了高吞吐率和低開銷。通過(guò)基于矩陣外積計(jì)算數(shù)學(xué)原理的浮點(diǎn)/定點(diǎn)存算塊架構(gòu),矩陣-矩陣-向量計(jì)算可通過(guò)累加器元件完成。
該突破以“A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC”為題發(fā)表在ISSCC 2024國(guó)際會(huì)議上,微電子所博士生袁易揚(yáng)為第一作者,張鋒研究員與北京理工大學(xué)王興華教授為通訊作者。該研究得到了科技部重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、中國(guó)科學(xué)院戰(zhàn)略先導(dǎo)專項(xiàng)等項(xiàng)目的支持。
據(jù)悉,同之前的數(shù)字存算方案使用矩陣內(nèi)積原理的大扇入、多級(jí)加法器樹相比,吞吐率更高。該架構(gòu)還支持細(xì)粒度的非結(jié)構(gòu)激活稀疏性以進(jìn)一步提升總體能效。該存算一體宏芯片在28nm CMOS工藝下流片,可支持BF16浮點(diǎn)精度運(yùn)算以及INT8定點(diǎn)精度運(yùn)算,BF16浮點(diǎn)矩陣-矩陣-向量計(jì)算峰值能效達(dá)到了72.12TFLOP/W,INT8定點(diǎn)矩陣-矩陣-向量計(jì)算峰值能效達(dá)到了111.17TFLOP/W。這一研究結(jié)果為采用數(shù)模混合方案的存算一體架構(gòu)芯片提供了新思路。
此外,去年10月,清華大學(xué)集成電路學(xué)院教授吳華強(qiáng)、副教授高濱團(tuán)隊(duì)基于存算一體計(jì)算范式,研制出全球首顆全系統(tǒng)集成的、支持高效片上學(xué)習(xí)的憶阻器存算一體芯片,在支持片上學(xué)習(xí)的憶阻器存算一體芯片領(lǐng)域取得重大突破。該研究成果以“面向邊緣學(xué)習(xí)的全集成類腦憶阻器芯片”(Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip)為題在線發(fā)表在《科學(xué)》(Science)上。
相同任務(wù)下,該芯片實(shí)現(xiàn)片上學(xué)習(xí)的能耗僅為先進(jìn)工藝下專用集成電路(ASIC)系統(tǒng)的3%,展現(xiàn)出卓越的能效優(yōu)勢(shì),極具滿足人工智能時(shí)代高算力需求的應(yīng)用潛力,為突破馮·諾依曼傳統(tǒng)計(jì)算架構(gòu)下的能效瓶頸提供了一種創(chuàng)新發(fā)展路徑。
吳華強(qiáng)介紹,存算一體片上學(xué)習(xí)在實(shí)現(xiàn)更低延遲和更低能耗的同時(shí),能夠有效保護(hù)用戶隱私和數(shù)據(jù)。該芯片參照仿生類腦處理方式,可實(shí)現(xiàn)不同任務(wù)的快速“片上訓(xùn)練”與“片上識(shí)別”,能夠有效完成邊緣計(jì)算場(chǎng)景下的增量學(xué)習(xí)任務(wù),以極低的耗電適應(yīng)新場(chǎng)景、學(xué)習(xí)新知識(shí),滿足用戶的個(gè)性化需求。