亚洲国产一二三精品无码,久久综合人妻精品无码视频,国产高清在线精品一区免费97

作者：豐寧

在當(dāng)前數(shù)字化高速發(fā)展的時(shí)代，數(shù)據(jù)處理和存儲(chǔ)的需求日益增長(zhǎng)，傳統(tǒng)的計(jì)算與存儲(chǔ)分離的模式已逐漸難以滿足高效、低能耗的需求。

因此，業(yè)界迫切需要一種新型的解決方案來(lái)應(yīng)對(duì)這一挑戰(zhàn)。存算一體便是當(dāng)下最熱門的方案之一。

?01、存算一體架構(gòu)的優(yōu)勢(shì)

存算一體技術(shù)有助于解決傳統(tǒng)馮·諾依曼架構(gòu)下的“存儲(chǔ)墻”和“功耗墻”問(wèn)題。馮·諾依曼架構(gòu)要求數(shù)據(jù)在存儲(chǔ)器單元和處理單元之間不斷地“讀寫”，這樣數(shù)據(jù)在兩者之間來(lái)回傳輸就會(huì)消耗很多的傳輸功耗。

根據(jù)英特爾的研究表明，當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí)，數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit，占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來(lái)越嚴(yán)重，限制了芯片發(fā)展的速度和效率，形成了“功耗墻”問(wèn)題。

“存儲(chǔ)墻”是指由于存儲(chǔ)器的性能跟不上 CPU 的性能，導(dǎo)致 CPU 需要花費(fèi)大量的時(shí)間等待存儲(chǔ)器完成讀寫操作，從而降低了系統(tǒng)的整體性能。“存儲(chǔ)墻”成為了數(shù)據(jù)計(jì)算應(yīng)用的一大障礙。特別是，深度學(xué)習(xí)加速的最大挑戰(zhàn)就是數(shù)據(jù)在計(jì)算單元和存儲(chǔ)單元之間頻繁的移動(dòng)。

存算一體的優(yōu)勢(shì)便是打破存儲(chǔ)墻，消除不必要的數(shù)據(jù)搬移延遲和功耗，并使用存儲(chǔ)單元提升算力，成百上千倍的提高計(jì)算效率，降低成本。

存算一體屬于非馮·諾伊曼架構(gòu)，在特定領(lǐng)域可以提供更大算力（1000TOPS以上）和更高能效（超過(guò)10-100TOPS/W），明顯超越現(xiàn)有ASIC算力芯片。除了用于AI計(jì)算外，存算技術(shù)也可用于感存算一體芯片和類腦芯片，代表了未來(lái)主流的大數(shù)據(jù)計(jì)算芯片架構(gòu)。

?02、存算一體技術(shù)分類

目前，存算一體的技術(shù)路徑尚未形成統(tǒng)一的分類，目前主流的劃分方法是依照計(jì)算單元與存儲(chǔ)單元的距離，將其大致分為近存計(jì)算（PNM）、存內(nèi)處理（PIM）、存內(nèi)計(jì)算（CIM）。

近存計(jì)算是一種較為成熟的技術(shù)路徑。它利用先進(jìn)的封裝技術(shù)，將計(jì)算邏輯芯片和存儲(chǔ)器封裝到一起，通過(guò)減少內(nèi)存和處理單元之間的路徑，實(shí)現(xiàn)高I/O密度，進(jìn)而實(shí)現(xiàn)高內(nèi)存帶寬以及較低的訪問(wèn)開(kāi)銷。近存計(jì)算主要通過(guò)2.5D、3D堆疊等技術(shù)來(lái)實(shí)現(xiàn)，廣泛應(yīng)用于各類CPU和GPU上。

存內(nèi)處理則主要側(cè)重于將計(jì)算過(guò)程盡可能地嵌入到存儲(chǔ)器內(nèi)部。這種實(shí)現(xiàn)方式旨在減少處理器訪問(wèn)存儲(chǔ)器的頻率，因?yàn)榇蟛糠钟?jì)算已經(jīng)在存儲(chǔ)器內(nèi)部完成。這種設(shè)計(jì)有助于消除馮·諾依曼瓶頸帶來(lái)的問(wèn)題，提高數(shù)據(jù)處理速度和效率。

存內(nèi)計(jì)算同樣是將計(jì)算和存儲(chǔ)合二為一的技術(shù)。它有兩種主要思路。第一種思路是通過(guò)電路革新，讓存儲(chǔ)器本身就具有計(jì)算能力。這通常需要對(duì)SRAM或者M(jìn)RAM等存儲(chǔ)器進(jìn)行改動(dòng)，以在數(shù)據(jù)讀出的decoder等地方實(shí)現(xiàn)計(jì)算功能。這種方法的能效比通常較高，但計(jì)算精度可能受限。另一種思路是在存儲(chǔ)器內(nèi)部集成額外的計(jì)算單元，以支持高精度計(jì)算。這種思路主要針對(duì)DRAM等主處理器訪問(wèn)開(kāi)銷大的存儲(chǔ)器，但DRAM工藝對(duì)計(jì)算邏輯電路不太友好，因此集成計(jì)算單元的挑戰(zhàn)較大。

存內(nèi)計(jì)算也就是國(guó)內(nèi)大部分初創(chuàng)公司所說(shuō)的存算一體。

值得注意的是，不同的公司在這一領(lǐng)域的研發(fā)與實(shí)踐中，各自選擇了不同的賽道進(jìn)行押注。有的公司側(cè)重于優(yōu)化存儲(chǔ)與計(jì)算之間的協(xié)同效率，力求在大數(shù)據(jù)處理上實(shí)現(xiàn)質(zhì)的飛躍；而另一些公司則更注重架構(gòu)的靈活性和擴(kuò)展性，以適應(yīng)不斷變化的市場(chǎng)需求。

此外，存算一體依托的存儲(chǔ)介質(zhì)也呈現(xiàn)多樣化，比如以SRAM、DRAM為代表的易失性存儲(chǔ)器、以Flash為代表的非易失性存儲(chǔ)器等。綜合來(lái)看，不同存儲(chǔ)介質(zhì)各有各的優(yōu)點(diǎn)和短板。

?03、各大廠商，各有押注

從存算一體發(fā)展歷程來(lái)看，自2017年起，英偉達(dá)、微軟、三星等大廠提出了存算一體原型，同年國(guó)內(nèi)存算一體芯片企業(yè)開(kāi)始涌現(xiàn)。大廠們對(duì)存算一體架構(gòu)的需求是實(shí)用且落地快，而作為最接近工程落地的技術(shù)，近存計(jì)算成為大廠們的首選。諸如特斯拉、三星等擁有豐富生態(tài)的大廠以及英特爾、IBM等傳統(tǒng)芯片大廠都在布局近存計(jì)算。

國(guó)際主要廠商研究進(jìn)展

在存算一體的研究路徑上，三星選擇多個(gè)技術(shù)路線進(jìn)行嘗試，2021年初，三星發(fā)布基于HBM的新型內(nèi)存，里面集成了AI處理器，該處理器可以實(shí)現(xiàn)高達(dá)1.2TFLOPS的計(jì)算能力，新型HBM-PIM芯片將AI引擎引入每個(gè)存儲(chǔ)庫(kù)，從而將處理操作轉(zhuǎn)移到HBM，可以減輕在內(nèi)存和處理器之間搬運(yùn)數(shù)據(jù)的負(fù)擔(dān)。

三星表示新型HBM-PIM芯片，可以提供2倍的系統(tǒng)性能，同時(shí)能耗降低了70%以上。2022年1月三星電子又帶來(lái)新研究成果，該公司在頂級(jí)學(xué)術(shù)期刊Nature上發(fā)表了全球首個(gè)基于MRAM（磁性隨機(jī)存儲(chǔ)器）的存內(nèi)計(jì)算研究。

據(jù)介紹，三星電子的研究團(tuán)隊(duì)通過(guò)構(gòu)建新的MRAM陣列結(jié)構(gòu)，用基于28nm CMOS工藝的MRAM陣列芯片運(yùn)行了手寫數(shù)字識(shí)別和人臉檢測(cè)等AI算法，準(zhǔn)確率分別為98%和93%。SK海力士2022年2月也宣布開(kāi)發(fā)出下一代智能內(nèi)存芯片技術(shù)PIM，SK海力士還開(kāi)發(fā)出了公司首款基于PIM技術(shù)的產(chǎn)品- GDDR6-AiM的樣本。GDDR6-AiM是將計(jì)算功能添加到數(shù)據(jù)傳輸速度為16Gbps的GDDR6內(nèi)存的產(chǎn)品。

與傳統(tǒng)DRAM相比，將GDDR6-AiM 與 CPU、GPU 相結(jié)合的系統(tǒng)可在特定計(jì)算環(huán)境中將演算速度提高至最高16倍。GDDR6-AiM有望在機(jī)器學(xué)習(xí)、高性能計(jì)算、大數(shù)據(jù)計(jì)算和存儲(chǔ)等領(lǐng)域有廣泛應(yīng)用。

隨后在2022年10月，SK海力士再次宣布推出基于CXL的存算一體計(jì)算存儲(chǔ)器解決方案CMS（Computational Memory Solution）。

臺(tái)積電也在進(jìn)行存內(nèi)計(jì)算的研究，該公司的研究人員在2021年初的國(guó)際固態(tài)電路會(huì)議（ISSCC 2021）上提出了一種基于數(shù)字改良的SRAM設(shè)計(jì)存內(nèi)計(jì)算方案，能支持更大的神經(jīng)網(wǎng)絡(luò)。

2024年1月，臺(tái)積電攜手工研院宣布成功研發(fā)出自旋軌道轉(zhuǎn)矩磁性存儲(chǔ)器（SOT-MRAM）陣列芯片，標(biāo)志著在下一代 MRAM 存儲(chǔ)器技術(shù)領(lǐng)域的重大突破。這一創(chuàng)新產(chǎn)品不僅采用了先進(jìn)的運(yùn)算架構(gòu)，而且其功耗僅為同類技術(shù) STT-MRAM 的 1%。工研院與臺(tái)積電的合作使得 SOT-MRAM 在工作速度方面達(dá)到 10ns，進(jìn)一步提高了存內(nèi)運(yùn)算性能。

英特爾也是 MRAM 技術(shù)的主要推動(dòng)者，該公司采用的是基于 FinFET 技術(shù)的 22 nm 制程。2018 年底，英特爾首次公開(kāi)介紹了其 MRAM 的研究成果，推出了一款基于 22nm FinFET 制程的 STT-MRAM，當(dāng)時(shí)，該公司稱，這是首款基于 FinFET 的 MRAM 產(chǎn)品，并表示已經(jīng)具備該技術(shù)產(chǎn)品的量產(chǎn)能力。

國(guó)內(nèi)主要廠商研究進(jìn)展

國(guó)內(nèi)初創(chuàng)企業(yè)則聚焦于無(wú)需考慮先進(jìn)制程技術(shù)的存內(nèi)計(jì)算。其中，知存科技、億鑄科技、九天睿芯等初創(chuàng)公司都在押注PIM、CIM等“存”與“算”更親密的存算一體技術(shù)路線。億鑄科技、千芯科技等專注于大模型計(jì)算、自動(dòng)駕駛等AI大算力場(chǎng)景；閃易、新憶科技、蘋芯科技、知存科技等則專注于物聯(lián)網(wǎng)、可穿戴設(shè)備、智能家居等邊緣小算力場(chǎng)景。

那么目前各家企業(yè)的研究和量產(chǎn)情況進(jìn)展如何呢？各家的技術(shù)路線有何差異？存算一體技術(shù)未來(lái)的整體趨勢(shì)如何？

云和邊緣大算力企業(yè)億鑄科技

億鑄科技成立于2020年6月，致力于用存算一體架構(gòu)設(shè)計(jì)AI大算力芯片，首次將憶阻器 ReRAM和存算一體架構(gòu)相結(jié)合，通過(guò)全數(shù)字化的芯片設(shè)計(jì)思路，在當(dāng)前產(chǎn)業(yè)格局的基礎(chǔ)上，提供一條更具性價(jià)比、更高能效比、更大算力發(fā)展空間的AI大算力芯片換道發(fā)展新路徑。2023年，億鑄科技率先提出“存算一體超異構(gòu)架構(gòu)”這一全新的技術(shù)發(fā)展路徑，為中國(guó)AI算力芯片的進(jìn)一步發(fā)展增添新動(dòng)能。目前，億鑄科技點(diǎn)亮了基于憶阻器ReRAM的高精度、低功耗存算一體AI大算力POC芯片，基于傳統(tǒng)工藝制程，能效比表現(xiàn)經(jīng)第三方機(jī)構(gòu)驗(yàn)證，超出傳統(tǒng)架構(gòu)AI芯片平均性能的10倍以上。

千芯科技

千芯科技成立于 2019 年，專注于面向人工智能和科學(xué)計(jì)算領(lǐng)域的大算力存算一體算力芯片與計(jì)算解決方案研發(fā)，在2019年率先提出可重構(gòu)存算一體技術(shù)產(chǎn)品架構(gòu)，在計(jì)算吞吐量方面相比傳統(tǒng)AI芯片能夠提升10-40倍。目前千芯科技可重構(gòu)存算一體芯片（原型）已在云計(jì)算、自動(dòng)駕駛感知、圖像分類、車牌識(shí)別等領(lǐng)域試用或落地；其大算力存算一體芯片產(chǎn)品原型也已在國(guó)內(nèi)率先通過(guò)互聯(lián)網(wǎng)大廠內(nèi)測(cè)。

后摩智能

后摩智能成立于2020年，2023年5月后摩智能正式推出存算一體智駕芯片后摩鴻途H30，物理算力達(dá)到256TOPS，典型功耗達(dá)到35W。根據(jù)后摩實(shí)驗(yàn)室及MLPerf公開(kāi)測(cè)試結(jié)果，在ResNet50性能功耗對(duì)比上，采取12nm制程的H30相比同類芯片性能提升超2倍，功耗減少超50%。據(jù)后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮介紹，鴻途H30 以存算一體創(chuàng)新架構(gòu)實(shí)現(xiàn)了六大技術(shù)突破，即大算力、全精度、低功耗、車規(guī)級(jí)、可量產(chǎn)、通用性。鴻途H30 基于 SRAM 存儲(chǔ)介質(zhì)，采用數(shù)字存算一體架構(gòu)，擁有極低的訪存功耗和超高的計(jì)算密度，在 Int8 數(shù)據(jù)精度條件下，其 AI 核心IPU 能效比高達(dá) 15Tops/W，是傳統(tǒng)架構(gòu)芯片的7 倍以上。同時(shí)，后摩智能第二代產(chǎn)品鴻途H50已經(jīng)在全力研發(fā)中，預(yù)計(jì)將于2024年推出，支持客戶2025年的量產(chǎn)車型。

端和邊緣小算力企業(yè)知存科技

知存科技的方案是重新設(shè)計(jì)存儲(chǔ)器，利用Flash閃存存儲(chǔ)單元的物理特性，對(duì)存儲(chǔ)陣列改造和重新設(shè)計(jì)外圍電路使其能夠容納更多的數(shù)據(jù)，同時(shí)將算子也存儲(chǔ)到存儲(chǔ)器當(dāng)中，使得每個(gè)單元都能進(jìn)行模擬運(yùn)算并且能直接輸出運(yùn)算結(jié)果，以達(dá)到存算一體的目的。知存科技的存算一體芯片已進(jìn)入多個(gè)可穿戴設(shè)備產(chǎn)品，年銷量預(yù)計(jì)達(dá)百萬(wàn)。

2020年知存科技推出了存算一體加速器WTM1001，2022年知存科技推出全球首顆大規(guī)模量產(chǎn)的存內(nèi)計(jì)算芯片WTM2101，該芯片已被多家國(guó)際知名企業(yè)用于智能語(yǔ)音、AI健康監(jiān)測(cè)等場(chǎng)景，相比傳統(tǒng)芯片，該芯片在算力和功耗上優(yōu)勢(shì)顯著，賦能行業(yè)用戶實(shí)現(xiàn)端側(cè)AI能力的提升和應(yīng)用的推廣。目前，知存科技自主研發(fā)的邊緣側(cè)算力芯片WTM-8系列也即將量產(chǎn)，該系列芯片能夠提供至少24Tops算力，而功耗僅為市場(chǎng)同類方案的5%，將助力移動(dòng)設(shè)備實(shí)現(xiàn)更高性能的圖像處理和空間計(jì)算。2025 年前后知存科技將推出 WTM-C 系列產(chǎn)品，可以用于邊緣服務(wù)器等。隨著集成規(guī)模、工藝等方面的技術(shù)推進(jìn)，未來(lái)幾年存內(nèi)計(jì)算產(chǎn)品預(yù)計(jì)平均每年都有 5~10 倍算力的提升。

九天睿芯

九天睿芯專注于神經(jīng)擬態(tài)感存算一體芯片研發(fā)，提供人工智能系統(tǒng)高效低耗運(yùn)行的最新解決方案，廣泛應(yīng)用于AIoT等對(duì)低功耗延時(shí)需求強(qiáng)烈的領(lǐng)域，為用戶提供面向聲音端和視覺(jué)端的AI芯片。九天睿芯基于多年在全球領(lǐng)先的視覺(jué)領(lǐng)域感存算一體研究學(xué)習(xí)和實(shí)踐積累，并和來(lái)自世界頂級(jí)圖像傳感器公司的研發(fā)合作和戰(zhàn)略投資，已設(shè)計(jì)出可廣泛應(yīng)用于視覺(jué)領(lǐng)域的超高能效比（20Tops/W）基于SRAM的感存算一體架構(gòu)芯片ADA20X。

?04、存算一體技術(shù)已至大規(guī)模應(yīng)用的前夜

當(dāng)前AI算力需求的不斷增長(zhǎng)，存算一體技術(shù)已經(jīng)接近大規(guī)模量產(chǎn)的節(jié)點(diǎn)，隨著技術(shù)成熟度的提高以及大規(guī)模商用落地，其市場(chǎng)空間有望呈現(xiàn)爆炸式增長(zhǎng)。

據(jù)QYResearch調(diào)研團(tuán)隊(duì)最新報(bào)告《全球存算一體技術(shù)市場(chǎng)報(bào)告2023-2029》顯示，預(yù)計(jì)2029年全球存算一體技術(shù)市場(chǎng)規(guī)模將達(dá)到306.3億美元，未來(lái)幾年年復(fù)合增長(zhǎng)率CAGR為154.7%。這一高增長(zhǎng)率的背后，是存算一體技術(shù)在數(shù)據(jù)處理、人工智能、物聯(lián)網(wǎng)等多個(gè)領(lǐng)域的廣泛應(yīng)用和深度融合。

隨著大數(shù)據(jù)、云計(jì)算和人工智能等技術(shù)的快速發(fā)展，存算一體技術(shù)作為實(shí)現(xiàn)高效數(shù)據(jù)存儲(chǔ)和計(jì)算的關(guān)鍵技術(shù)，其重要性日益凸顯。

面對(duì)如此巨大的市場(chǎng)空間和發(fā)展機(jī)遇，我們也需要清醒地認(rèn)識(shí)到存算一體技術(shù)面臨的挑戰(zhàn)和困難。比如，存算一體技術(shù)是一門非常復(fù)雜的綜合性創(chuàng)新，產(chǎn)業(yè)還算不上成熟，在產(chǎn)業(yè)鏈方面仍舊存在上游支撐不足，下游應(yīng)用不匹配的諸多挑戰(zhàn)，但諸多的挑戰(zhàn)同時(shí)也構(gòu)成了當(dāng)前存算一體創(chuàng)新未來(lái)可構(gòu)筑的綜合性壁壘。

未來(lái)，隨著技術(shù)的不斷進(jìn)步和應(yīng)用的不斷拓展，存算一體技術(shù)將在更多領(lǐng)域發(fā)揮重要作用，為全球經(jīng)濟(jì)發(fā)展注入新的動(dòng)力。同時(shí)，這也將對(duì)相關(guān)產(chǎn)業(yè)鏈產(chǎn)生深遠(yuǎn)影響，推動(dòng)整個(gè)科技產(chǎn)業(yè)的創(chuàng)新和升級(jí)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32H743IIT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals	ECAD模型下載ECAD模型	$17.38	查看
ATSAMA5D35A-CU	1	Microchip Technology Inc	IC MCU 32BIT 160KB ROM 324LFBGA		$13.36	查看
MC9S12XEP100MAG	1	Freescale Semiconductor	16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144	ECAD模型下載ECAD模型	$29.4	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32H743IIT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals