加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • ?01、存算一體加速AI運(yùn)算
    • ?02、巨頭的存內(nèi)計(jì)算布局
    • ?03、PIM技術(shù)需要標(biāo)準(zhǔn)化推動(dòng)
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

下一代存儲(chǔ)器趨勢(shì):存內(nèi)處理(PIM),商業(yè)化迎來(lái)新進(jìn)展

2024/12/31 來(lái)源:wechat
791
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:鵬程

存儲(chǔ)器,包括DRAM(動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)和NAND閃存),一直是半導(dǎo)體行業(yè)的重要組成部分,存儲(chǔ)器市場(chǎng)的增長(zhǎng)為半導(dǎo)體產(chǎn)業(yè)帶來(lái)了新的增長(zhǎng)點(diǎn),推動(dòng)了半導(dǎo)體產(chǎn)業(yè)的進(jìn)一步發(fā)展。特別是近年來(lái)隨著以ChatGPT為代表的生成式人工智能AI)技術(shù)的不斷發(fā)展和普及,也推動(dòng)了存儲(chǔ)器市場(chǎng)的發(fā)展,尤其是新型存儲(chǔ)技術(shù),如HBM、QLC SSD等。

眾所周知,計(jì)算能力是AI時(shí)代至關(guān)重要的一環(huán),但實(shí)際上很多人都會(huì)忽略存儲(chǔ)在AI生命周期中發(fā)揮的重要作用,特別是隨著生成式AI的爆火,包括圖像、視頻、音頻在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)都會(huì)呈現(xiàn)出指數(shù)級(jí)增長(zhǎng)的態(tài)勢(shì),也自然會(huì)激發(fā)出新的存儲(chǔ)需求。根據(jù)IDC的調(diào)研結(jié)果,預(yù)計(jì)到2028年,全球?qū)a(chǎn)出394ZB的數(shù)據(jù),其中AIGC領(lǐng)域的數(shù)據(jù)產(chǎn)出尤為突出,屆時(shí),AI圖像和視頻生成將增長(zhǎng)167倍。在此基礎(chǔ)上,存儲(chǔ)逐漸成為了AI發(fā)展的瓶頸。

近年來(lái),存內(nèi)計(jì)算被業(yè)界廣為關(guān)注,但卻始終卡在商業(yè)化上。而就在近日,三星電子和 SK 海力士正在合作標(biāo)準(zhǔn)化 LPDDR6-PIM 內(nèi)存產(chǎn)品。該合作伙伴關(guān)系旨在加快專(zhuān)門(mén)用于人工智能(AI)的低功耗存儲(chǔ)器標(biāo)準(zhǔn)化。而這也有望推動(dòng)存內(nèi)計(jì)算的商業(yè)化。

?01、存算一體加速AI運(yùn)算

眾所周知,算法、數(shù)據(jù)和算力芯片)是人工智能發(fā)展的三大核心要素,其中芯片是決定人工智能是否能夠最終落地的根基。隨著ChatGPT,GPT-4等大模型研究的不斷深入,模型結(jié)構(gòu)日趨復(fù)雜,數(shù)據(jù)量與計(jì)算量大幅增長(zhǎng)。

與此同時(shí),隨著摩爾定律的逐漸失效,芯片制造工藝演進(jìn)相對(duì)放緩。算法發(fā)展與硬件發(fā)展之間存在矛盾,如何高效地利用復(fù)雜算法處理海量數(shù)據(jù)成為當(dāng)前人工智能領(lǐng)域的重要挑戰(zhàn)。

究其原因,芯片作為人工智能的基石,正遭遇著嚴(yán)重的“馮·諾依曼架構(gòu)瓶頸”。在馮·諾伊曼架構(gòu)中,計(jì)算與內(nèi)存是分離的,計(jì)算單元從內(nèi)存中讀取數(shù)據(jù),計(jì)算完成后再存回內(nèi)存。特別是隨著人工智能等對(duì)性能要求極高的場(chǎng)景爆發(fā),傳統(tǒng)的馮·諾依曼架構(gòu)的短板開(kāi)始凸顯,例如功耗墻、性能墻、內(nèi)存墻的問(wèn)題。同時(shí),由于器件尺寸微縮逐漸逼近物理極限,單純通過(guò)工藝來(lái)進(jìn)一步提升芯片性能的技術(shù)路徑逐漸受阻,芯片發(fā)展面臨著“工藝墻”問(wèn)題。

為了解決上述問(wèn)題,國(guó)內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界從架構(gòu)、工藝、集成等多個(gè)維度展開(kāi)了諸多研究,探索后摩爾時(shí)代新一代芯片技術(shù)。例如,數(shù)據(jù)流架構(gòu)芯片實(shí)現(xiàn)流式計(jì)算,在處理AI類(lèi)大規(guī)模數(shù)據(jù)時(shí)可以實(shí)現(xiàn)遠(yuǎn)高于馮·諾依曼架構(gòu)的吞吐率;可重構(gòu)芯片技術(shù)通過(guò)軟件定義硬件電路結(jié)構(gòu),從而實(shí)現(xiàn)高靈活性與高能效計(jì)算;晶圓級(jí)芯片通過(guò)先進(jìn)工藝技術(shù)擴(kuò)展芯片面積來(lái)提高算力;三維芯片通過(guò)3D集成封裝技術(shù),將多個(gè)芯片在垂直方向上進(jìn)行堆疊來(lái)實(shí)現(xiàn)高帶寬與高算力;存算一體芯片則通過(guò)器件–架構(gòu)–電路–工藝的協(xié)同創(chuàng)新,實(shí)現(xiàn)存儲(chǔ)與計(jì)算的融合一體化,從根源上突破馮·諾依曼架構(gòu)瓶頸。

基于存算一體芯片的架構(gòu)特點(diǎn),一方面可以大幅降低數(shù)據(jù)搬運(yùn)開(kāi)銷(xiāo),突破“存儲(chǔ)墻”與“功耗墻”;另一方面,基于其大規(guī)模并行運(yùn)算特點(diǎn),可以在相對(duì)落后的工藝節(jié)點(diǎn)下實(shí)現(xiàn)比肩先進(jìn)工藝的性能,從而在一定程度上緩解工藝微縮壓力。此外,存算一體技術(shù)也可以方便地與其他技術(shù)進(jìn)行結(jié)合,如可重構(gòu)芯片技術(shù)、晶圓級(jí)芯片技術(shù)、三維集成技術(shù)等。因此,存算一體芯片被認(rèn)為是后摩爾時(shí)代最重要的芯片技術(shù)方向之一。

存算一體有三種主流技術(shù)路徑:近存計(jì)算(PNM)、存內(nèi)處理(PIM)、存內(nèi)計(jì)算(CIM)。近存計(jì)算的優(yōu)勢(shì)在于減少數(shù)據(jù)移動(dòng)和提高緩存效率,適合于需要大規(guī)模并行處理和優(yōu)化內(nèi)存帶寬的應(yīng)用。存內(nèi)處理的優(yōu)勢(shì)在于數(shù)據(jù)密集型應(yīng)用和能效優(yōu)化,適合于需要快速數(shù)據(jù)處理和減少能耗的應(yīng)用。存內(nèi)計(jì)算的優(yōu)勢(shì)在于特定領(lǐng)域的高并行性計(jì)算和定制硬件優(yōu)化,適合于需要高度專(zhuān)業(yè)化和定制化解決方案的應(yīng)用。

?02、巨頭的存內(nèi)計(jì)算布局

存算一體的概念最早可以追溯到1969年,斯坦福研究所的Kautz等人首次將存儲(chǔ)和邏輯整合,提出“l(fā)ogic-in-memory”方案。后續(xù)研究人員在芯片電路結(jié)構(gòu)、計(jì)算架構(gòu)與系統(tǒng)應(yīng)用等方面開(kāi)展了一系列研究。但受限于電路設(shè)計(jì)復(fù)雜度與工藝難度,后續(xù)的大部分研究本質(zhì)上實(shí)現(xiàn)的是“近存計(jì)算”,仍然需要把數(shù)據(jù)從內(nèi)存中讀取出來(lái)之后再就近進(jìn)行計(jì)算。目前業(yè)界比較典型的方案是通過(guò)3D封裝和高帶寬內(nèi)存等技術(shù)來(lái)縮短存儲(chǔ)器和處理器之前的距離,并提高數(shù)據(jù)帶寬。

目前,近存計(jì)算技術(shù)相對(duì)比較成熟,已經(jīng)實(shí)現(xiàn)了規(guī)?;慨a(chǎn)。以AMD、Intel、三星、海力士等企業(yè)為代表的半導(dǎo)體龍頭企業(yè)均已發(fā)布基于高帶寬內(nèi)存技術(shù)(HBM)和2.5D/3D封裝技術(shù)的近存計(jì)算芯片。例如,三星最新發(fā)布的HBM3 Icebolt 技術(shù)采用近存計(jì)算架構(gòu), 通過(guò) 12層10 nm級(jí)DRAM堆疊,實(shí)現(xiàn)了高達(dá)6.4 Gbps處理速度和高達(dá)819 GB/s的帶寬。但本質(zhì)上,近存計(jì)算技術(shù)仍然是存算分離的馮·諾依曼架構(gòu)。

近年來(lái),大數(shù)據(jù)驅(qū)動(dòng)應(yīng)用發(fā)展迅猛,數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)暴增。研究者們考慮賦予內(nèi)存一定的計(jì)算能力,從而減少數(shù)據(jù)移動(dòng),降低計(jì)算機(jī)系統(tǒng)運(yùn)行能耗,實(shí)現(xiàn)存儲(chǔ)和計(jì)算融合一體化的“存內(nèi)計(jì)算”架構(gòu)成為了產(chǎn)業(yè)界的研究熱點(diǎn)。2021年開(kāi)始,存內(nèi)計(jì)算相關(guān)產(chǎn)品逐步落地,包括三星、海力士、TSMC在內(nèi)的國(guó)際巨頭以及Mythic等公司經(jīng)過(guò)技術(shù)沉淀,已經(jīng)開(kāi)始試產(chǎn)存內(nèi)計(jì)算芯片。

2021年12月,阿里巴巴旗下達(dá)摩院計(jì)算技術(shù)實(shí)驗(yàn)室成功研發(fā)全球首款基于DRAM的3D鍵合堆疊存算一體AI芯片,號(hào)稱(chēng)在特定AI場(chǎng)景中,該芯片性能提升10倍以上,能效比提升高達(dá)300倍。2021年,三星展示了基于HBM2-PIM技術(shù)的存內(nèi)計(jì)算芯片,該處理器可以提供最高達(dá)1.2 TFLOPS的嵌入式計(jì)算能力,從而使內(nèi)存芯片本身能夠執(zhí)行通常由CPU,GPU,ASIC,或FPGA處理的工作。2022年,三星更是對(duì)AMD Instinct MI100計(jì)算卡進(jìn)行了改造,加入了HBM-PIM芯片,構(gòu)建了一個(gè)大型計(jì)算系統(tǒng)。該系統(tǒng)在使用訓(xùn)練語(yǔ)言模型算法T5時(shí),性能提高了2.5倍,功耗降低至原來(lái)的2.67分之一,充分展示了PIM技術(shù)的巨大潛力。

此外,為了驗(yàn)證MoE(混合專(zhuān)家系統(tǒng))模型,三星使用96個(gè)配備了HBM-PIM的MI-100 GPU來(lái)構(gòu)建HBM-PIM集群。在MoE模型中,與HBM相比,HBM-PIM GPU的性能提高了一倍,能效提高了三倍。2023年,在Hot Chips 2023會(huì)議上,三星電子公布了HBM(高帶寬存儲(chǔ)器)-PIM(存內(nèi)計(jì)算)和LPDDR(低功耗雙倍速率動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器)-PIM最新的的研究成果。其中,LPDDR-PIM將移動(dòng)DRAM與PIM相結(jié)合,可在移動(dòng)設(shè)備中直接進(jìn)行數(shù)據(jù)的處理和計(jì)算。由于它是針對(duì)移動(dòng)設(shè)備開(kāi)發(fā)的產(chǎn)品,因此它的帶寬(102.4GB/s)也較低。但功耗卻節(jié)省了72%。

三星重注PIM技術(shù),力圖在AI應(yīng)用中超越SK海力士。另一個(gè)存儲(chǔ)大廠SK海力士也不甘落后。2022年,SK 海力士宣布,開(kāi)發(fā)出了公司首款基于PIM技術(shù)的產(chǎn)品 – GDDR6-AiM的樣本。GDDR6-AiM是將計(jì)算功能添加到數(shù)據(jù)傳輸速度為16Gbps的GDDR6內(nèi)存的產(chǎn)品。與傳統(tǒng)DRAM相比,將GDDR6-AiM 與 CPU、GPU 相結(jié)合的系統(tǒng)可在特定計(jì)算環(huán)境中將演算速度提高至最高16倍。

在性能大幅提升的同時(shí),采用PIM技術(shù)的GDDR6-AiM的工作電壓為1.25V,與GDDR6的1.35V相比降低明顯。此外,PIM技術(shù)的應(yīng)用減少了內(nèi)芯片與CPU、GPU的數(shù)據(jù)傳輸往來(lái),從而降低了CPU及GPU的能耗,借此GDDR6-AiM成功使功耗降低80%。此外,TSMC也展示了其在SRAM、ReRAM、PCM、STT-MRAM等多種器件上實(shí)現(xiàn)存內(nèi)計(jì)算的探索成果。

美國(guó)處理器公司Mythic推出M1076處理器,采用模擬存內(nèi)計(jì)算方案,存儲(chǔ)介質(zhì)為Flash,在40nm制程工藝下實(shí)現(xiàn)25TOPS的算力與3W的功耗;2022年國(guó)內(nèi)知存科技推出首款量產(chǎn)存內(nèi)計(jì)算SOC芯片WTM2101,采用模擬存算計(jì)算范式,以Flash為介質(zhì),在40nm成熟工藝下以2.6x3.2mm2極小封裝實(shí)現(xiàn)了50Gops的高算力,功耗低至5uA。已商用至智能可穿戴設(shè)備中2023年后摩智能推出鴻途H30芯片,采用數(shù)字存算計(jì)算范式,以SRAM為介質(zhì),實(shí)現(xiàn)256TOPS的算力與35W的功耗。WTM2101也是全球首顆也是實(shí)現(xiàn)百萬(wàn)級(jí)量產(chǎn)商用的存內(nèi)計(jì)算芯片。存內(nèi)計(jì)算產(chǎn)業(yè)化初見(jiàn)成果,越來(lái)越多的存內(nèi)計(jì)算產(chǎn)品落地。

?03、PIM技術(shù)需要標(biāo)準(zhǔn)化推動(dòng)

雖然各家都早已布局PIM技術(shù),但卻始終徘徊在商業(yè)化門(mén)口,其中的重要原因之一便是各家企業(yè)根據(jù)各自的標(biāo)準(zhǔn)開(kāi)發(fā)產(chǎn)品,導(dǎo)致概念和規(guī)范存在差異,行業(yè)難以采用通用標(biāo)準(zhǔn)。三星電子和SK海力士正在合作推動(dòng)LPDDR6-PIM內(nèi)存的標(biāo)準(zhǔn)化。這種合作旨在加快專(zhuān)門(mén)用于人工智能的低功耗存儲(chǔ)器標(biāo)準(zhǔn)化進(jìn)程。

兩家公司已經(jīng)確定建立聯(lián)盟,以使下一代存儲(chǔ)器符合這一趨勢(shì)。他們正在與聯(lián)合電子設(shè)備工程委員會(huì)(JEDEC)進(jìn)行標(biāo)準(zhǔn)化工作,討論確定每項(xiàng)標(biāo)準(zhǔn)的具體規(guī)格?。首先,?標(biāo)準(zhǔn)化可以提升兼容性和互操作性?。通過(guò)標(biāo)準(zhǔn)化,不同廠商生產(chǎn)的PIM設(shè)備可以在同一系統(tǒng)中無(wú)縫協(xié)作,減少因兼容性問(wèn)題導(dǎo)致的系統(tǒng)故障或性能下降。這有助于促進(jìn)技術(shù)的廣泛應(yīng)用和普及。其次,?標(biāo)準(zhǔn)化有助于降低成本?。標(biāo)準(zhǔn)化可以減少研發(fā)成本和時(shí)間,因?yàn)椴煌脑O(shè)備制造商可以共享和利用已有的標(biāo)準(zhǔn),避免重復(fù)開(kāi)發(fā)。

此外,標(biāo)準(zhǔn)化還能促進(jìn)規(guī)模經(jīng)濟(jì),降低生產(chǎn)成本,從而使得PIM技術(shù)更加普及和實(shí)惠?PIM芯片大規(guī)模落地的時(shí)刻尚未明確,但這一天的到來(lái)值得我們期待。技術(shù)的演進(jìn)從不停止,市場(chǎng)的需求也在不斷變化,當(dāng)各種條件成熟之際,或許就是存算一體芯片大放異彩之時(shí)。如今標(biāo)準(zhǔn)化迫在眉睫,也意味著條件即將成熟。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄

公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時(shí)、專(zhuān)業(yè)、深度的前沿洞見(jiàn)、技術(shù)速遞、趨勢(shì)解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國(guó)半導(dǎo)體產(chǎn)業(yè),我們一直在路上。