加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 1、Lunar Lake首次全部由臺(tái)積電代工,但下一代的Panther lake將重回英特爾代工
    • 小結(jié):綜合AI算力高達(dá)120 TOPS
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

臺(tái)積電代工!Intel新AI PC芯片Lunar Lake發(fā)布:AI算力120TOPS!

06/06 16:35
1892
閱讀需 33 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

編輯:浪客劍

6月4日,英特爾CEO帕特·基辛格在COMPUTEX 2024上發(fā)表主題演講,正式公布了下一代面向AI PC的移動(dòng)處理器Lunar Lake,不僅CPU、GPU、NPU性能全面提升,能耗也大幅降低,綜合AI算力提升至120TOPS。

1、Lunar Lake首次全部由臺(tái)積電代工,但下一代的Panther lake將重回英特爾代工

據(jù)介紹Lunar Lake由7個(gè)主要部分組成,整個(gè)封裝包含內(nèi)存、加固器和底層芯片,底層芯片使用Intel Foveros互連技術(shù)將計(jì)算芯片和平臺(tái)控制器芯片結(jié)合在一起。在工藝節(jié)點(diǎn)方面,Lunar Lake計(jì)算芯片(包括CPU、GPU和NPU等)采用臺(tái)積電的N3B工藝節(jié)點(diǎn)制造,平臺(tái)控制器芯片則采用臺(tái)積電的N6工藝節(jié)點(diǎn)制造,也就是說(shuō)這款芯片的主要核心die全部都是由臺(tái)積電代工!

要知到之前英特爾的高端移動(dòng)平臺(tái)芯片雖然有部分核心是交由臺(tái)積電代工,但是CPU核心一直是英特爾自己生產(chǎn)的。而這種轉(zhuǎn)變,一方面是臺(tái)積電在制程技術(shù)上的領(lǐng)先,另一方面則可能與英特爾代工業(yè)務(wù)獨(dú)立分拆有關(guān)。英特爾代工業(yè)務(wù)獨(dú)立分拆,使得英特爾的設(shè)計(jì)業(yè)務(wù)可以更自由的選擇外部更有競(jìng)爭(zhēng)力的供應(yīng)商,但是這對(duì)于英特爾代工業(yè)務(wù)集團(tuán)來(lái)說(shuō)并不是一個(gè)好消息,所幸的是Lunar Lake的封裝還是交由英特爾代工業(yè)務(wù)集團(tuán)來(lái)完成的。

對(duì)此,基辛格表示,Lunar Lake之所以選擇臺(tái)積電制造,是因?yàn)楫?dāng)時(shí)臺(tái)積電有更好的制程技術(shù),現(xiàn)在看仍是好選擇。感謝臺(tái)積電,提供了很多核心關(guān)鍵制造技術(shù),使Lunar Lake成為可能,也能看出臺(tái)積電和英特爾在代工產(chǎn)業(yè)的合作,包括UCIe(通用小芯片互連)也是。

不過(guò)基辛格強(qiáng)調(diào),到下一代Panther lake將幾乎全部是基于英特爾制程,將采用Intel 18A工藝,還有混合鍵合技術(shù)、晶圓對(duì)晶圓(Wafer to Wafer)堆疊,還有先進(jìn)封裝技術(shù)和背面供電技術(shù),希望屆時(shí)能夠向大家展示英特爾的晶圓廠能力。

1、CPU核心:4個(gè)P核+4個(gè)E核,性能及效率大幅提升

據(jù)介紹,Lunar Lake的CPU內(nèi)核依然采用的Hybrid核心架構(gòu)設(shè)計(jì),擁有4個(gè)Lion Cove P-core性能核心和4個(gè)Skymont E-core效率核心,組合成8核心混合設(shè)計(jì),以達(dá)到性能與效率的最佳。

Lunar Lake的Lion Cove P-core性能核心在緩存層次上進(jìn)行了眾大改進(jìn),其采用了多層數(shù)據(jù)緩存,每個(gè)核心包括一個(gè) 48KB L0D 緩存(加載到使用延遲為 4 周期)、一個(gè) 192KB L1D 緩存(延遲為 9 周期)、一個(gè)擴(kuò)展的 L2 緩存(最高可達(dá) 3MB,延遲為 17 周期)??偟膩?lái)說(shuō),這使得 240KB 緩存的延遲時(shí)間與 CPU 內(nèi)核的延遲時(shí)間相差無(wú)幾,而之前的 Redwood Cove 只能在相同時(shí)間內(nèi)達(dá)到 48KB 緩存。4個(gè)P核心還共享了12MB L3緩存,可以帶來(lái)更出色的單線程性能,并優(yōu)化核心PPA設(shè)計(jì)。

英特爾添加了第三個(gè)地址生成單元 (AGU)/存儲(chǔ)單元對(duì),以進(jìn)一步提升存儲(chǔ)性能。值得注意的是,這使加載和存儲(chǔ)管道的數(shù)量達(dá)到平衡,分別為 3 個(gè);在大多數(shù)英特爾架構(gòu)中,加載單元的數(shù)量都比存儲(chǔ)單元多。

總體而言,英特爾在真正的長(zhǎng)期 CPU 設(shè)計(jì)理念中,已經(jīng)投入了更多緩存來(lái)解決這個(gè)問(wèn)題。隨著 CPU 復(fù)雜度的增加,緩存子系統(tǒng)也在不斷增加,以保證其正常運(yùn)行。在這種情況下,保證 CPU 正常運(yùn)行是提高其性能和保持其能效的關(guān)鍵改進(jìn)。

深入研究 Lion Cove 的計(jì)算架構(gòu),該架構(gòu)在英特爾的 P 核設(shè)計(jì)上專注于提高性能和效率。該架構(gòu)采用一種新的前端方法來(lái)處理指令,其預(yù)測(cè)塊比以前大 8 倍,提取范圍更廣,解碼帶寬更高,Uops 緩存容量和讀取帶寬也大幅增加。UOP 隊(duì)列容量增加,這也提高了整體吞吐量。在執(zhí)行過(guò)程中,Lion Cove 的無(wú)序引擎在整數(shù) (INT) 和矢量 (VEC) 域之間劃分,具有獨(dú)立的重命名和調(diào)度功能。

數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū) (DTLB) 也進(jìn)行了修改,將其深度從 96 頁(yè)增加到 128 頁(yè),以提高其命中率。這種分區(qū)方式可以實(shí)現(xiàn)未來(lái)的可擴(kuò)展性、每個(gè)域的獨(dú)立增長(zhǎng),并且有利于降低特定域工作負(fù)載的功耗。亂序引擎也得到了改進(jìn),分配/重命名從 6 個(gè)增加到 8 個(gè),退出從 8 個(gè)增加到 12 個(gè),深度指令窗口從 512 個(gè)增加到 576 個(gè),執(zhí)行端口從 12 個(gè)增加到 18 個(gè)。這些變化使管道更加穩(wěn)健,執(zhí)行起來(lái)也更加靈活。

Lion Cove 中的整數(shù)執(zhí)行單元也得到了改進(jìn):整數(shù) ALU 從 5 個(gè)增加到 6 個(gè),跳躍單元從 2 個(gè)增加到 3 個(gè),移位單元從 2 個(gè)增加到 3 個(gè)。它們將64x64單元增加到超過(guò)64,并從 1 個(gè)單元增加到 3 個(gè),為最復(fù)雜的操作提供更強(qiáng)大的計(jì)算能力。另一個(gè)顯著的進(jìn)步是 P 核心數(shù)據(jù)庫(kù)從“sea of fubs”遷移到了 “sea of cells”。更新 P 核心子結(jié)構(gòu)組織的過(guò)程從微小的、以鎖存器為主的分區(qū)轉(zhuǎn)變?yōu)楦鼜V泛、更大的以觸發(fā)器為主的分區(qū),這些分區(qū)在發(fā)展過(guò)程中非常不可知。

Lion Cove 架構(gòu)也與性能提升保持一致,與上一代 Redwood Cove 相比,IPC 性能預(yù)計(jì)將提升兩位數(shù)百分比。這種提升尤其明顯,尤其是在超線程的改進(jìn)方面,IPC 提高了 30%,動(dòng)態(tài)功率效率提高了 20%,并且在不增加核心面積的情況下平衡了先前的技術(shù),體現(xiàn)了英特爾在現(xiàn)有物理限制內(nèi)提高性能的承諾。

Lion Cove 的電源管理也得到了改進(jìn),包括采用 AI 自調(diào)節(jié)控制器來(lái)取代靜態(tài)熱保護(hù)帶。它讓系統(tǒng)以自適應(yīng)方式動(dòng)態(tài)響應(yīng)實(shí)際的實(shí)時(shí)運(yùn)行條件,以實(shí)現(xiàn)更高的持續(xù)性能。它使用更精細(xì)的時(shí)鐘粒度,現(xiàn)在間隔為 16.67MHz。與 100MHz 相比,這意味著更精確的電源管理和性能調(diào)整,從而從功率預(yù)算中獲得最大效率。

至少?gòu)募埫嫔峡?,Lion Cove 看起來(lái)比 Golden Cove 有了很大的改進(jìn)。它整合了改進(jìn)的內(nèi)存和緩存子系統(tǒng)、更好的電源管理以及 IPC 性能的提升,而不是專注于提高頻率。

Lunar Lake的Skymont E-core效率核心是專為實(shí)現(xiàn)全新水平的性能效率而設(shè)計(jì)。4個(gè)E-core共享4MB L2緩存,能比上一代有著超過(guò)2倍的省電表現(xiàn),并比上一代提升2倍的Vector與AI輸出性能。

Skymont 核心具有更全面的微架構(gòu),首先是 9-wide 解碼階段,其解碼簇比前幾代多 50%。這由更大的微操作隊(duì)列支持,現(xiàn)在可容納 96 個(gè)條目,而舊設(shè)計(jì)中只有 64 個(gè)。使用“Nanocode”可在每個(gè)解碼簇內(nèi)增加更多微代碼并行性。

Skymont核心的無(wú)序執(zhí)行引擎也得到了顯著改進(jìn)。分配寬度增加到 8-wide,而退出階段則加倍到 16-wide。這增強(qiáng)了內(nèi)核同時(shí)發(fā)出和執(zhí)行多條指令的能力,并通過(guò)依賴中斷機(jī)制減少了延遲。

Skymont 將重排序緩沖區(qū)從之前的 256 個(gè)條目加深到 416 個(gè)條目,以提供排隊(duì)和緩沖功能。此外,物理寄存器文件 (PRF) 和保留站的大小也增加了。這些增強(qiáng)功能使內(nèi)核能夠處理更多正在運(yùn)行的指令,從而提高指令執(zhí)行的并行性。

需要注意的是,調(diào)度端口最初為 26 個(gè),其中 8 個(gè)用于整數(shù) ALU,3 個(gè)用于跳轉(zhuǎn)操作,3 個(gè)用于每個(gè)周期的加載操作,從而進(jìn)一步實(shí)現(xiàn)了靈活高效的資源分配。在矢量性能方面,Skymont 支持 4×128 位 FP 和 SIMD 矢量,這使每秒千兆次浮點(diǎn)運(yùn)算 (Gigaflops/TOPs) 翻倍,并降低了浮點(diǎn)運(yùn)算的延遲。英特爾還重新設(shè)計(jì)了內(nèi)存子系統(tǒng),四個(gè)內(nèi)核共享 4MB L2 緩存,將 L2 帶寬翻倍至每周期 128B,在此過(guò)程中,降低了內(nèi)存訪問(wèn)延遲,同時(shí)提高了數(shù)據(jù)吞吐量。

英特爾公布的性能指標(biāo),凸顯了Skymont E核的電源效率的顯著提升:與上代的Meteor Lake 的 LP E 核相比,單線程性能提高了 1.7 倍,而功耗僅為其三分之一。

當(dāng)將 Skymont E-core 集群與 Meteor Lake的 LP E-core 集群直接進(jìn)行比較時(shí),多線程性能提高了 2.9 倍,而功耗卻全面降低。

這對(duì)于移動(dòng)和桌面設(shè)計(jì)同樣有用。換句話說(shuō),Skymont E 核心非常靈活,在移動(dòng)場(chǎng)景中充分利用了低功耗結(jié)構(gòu)和系統(tǒng)緩存,并針對(duì)桌面計(jì)算塊優(yōu)化了多線程吞吐量。與 Raptor Cove 相比,Skymont在單線程工作負(fù)載中提供了 2% 更好的整數(shù)和浮點(diǎn)性能,其功率和熱量范圍幾乎與其前代產(chǎn)品相同。

Skymont E 核代表了英特爾內(nèi)核架構(gòu)開(kāi)發(fā)的下一步,在解碼、執(zhí)行、內(nèi)存子系統(tǒng)和電源效率方面取得了顯著的進(jìn)步,滿足了更節(jié)能計(jì)算的需求,并且比以前的 Crestmont E 核提高了 IPC 增益。

2、GPU性能提升50%,還有全新顯示、多媒體和圖像引擎

Lunar Lake的GPU采用的是新一代的Xe2 GPU構(gòu)架,擁有8組新一代Xe核心、8個(gè)光線追蹤單元、XMX AI引擎和8MB的專屬緩存。能夠提供67 GPU TOPS的算力、實(shí)時(shí)的光線追蹤、基于AI的XeSS畫(huà)質(zhì)提升、Intel Arc軟件堆疊等功能,相比上一代Meteor Lake能帶來(lái)50%的圖形處理性能提升。

Lunar Lake內(nèi)部還集成了與GPU搭配的全新顯示、多媒體和圖像引擎(IPU)。其中,顯示核心擁有3個(gè)eDP 1.5、DP與HDMI 2.1輸出接口,多媒體引擎支持AV1和最新的VVC編譯功能,IPU則可提供Temporal noise reduction、Multi-frame與Dual exposure staggered HDR等圖像強(qiáng)化功能。

具體來(lái)說(shuō),英特爾的 eDisplayPort 1.5 包含面板重放功能,該功能集成了自適應(yīng)同步和選擇性更新機(jī)制。這有助于通過(guò)僅刷新屏幕發(fā)生變化的部分而不是整個(gè)顯示屏來(lái)降低功耗。這些創(chuàng)新不僅節(jié)省能源,而且還通過(guò)減少顯示延遲和提高同步精度來(lái)改善視覺(jué)體驗(yàn)。

描繪像素處理管道是英特爾顯示引擎所依賴的基本基礎(chǔ)之一,每條管道支持六個(gè)平面,用于高級(jí)顏色轉(zhuǎn)換和合成。此外,它還集成了對(duì)顏色增強(qiáng)、顯示縮放、像素調(diào)整和 HDR 感知量化的硬件支持,確保屏幕上的圖形生動(dòng)準(zhǔn)確。該設(shè)計(jì)非常靈活,非常節(jié)能,性能經(jīng)過(guò)精心設(shè)計(jì),至少在紙面上支持各種輸入和輸出格式。到目前為止,英特爾尚未提供任何可量化的功率指標(biāo)、TDP 或其他功率元素。

在壓縮和編碼方面,Xe2 架構(gòu)可無(wú)損地將顯示流壓縮率提高到 3:1,包括針對(duì) HDMI 和 DisplayPort 協(xié)議的傳輸編碼。這些芯片功能可進(jìn)一步降低數(shù)據(jù)負(fù)載,并在輸出端保持高分辨率,而不會(huì)損失視覺(jué)質(zhì)量。

多媒體引擎方面,英特爾采用 VVC 編解碼器對(duì)視頻壓縮技術(shù)的改進(jìn)意義重大。與 AV1 相比,此編解碼器可將文件大小減少 10%,并支持自適應(yīng)分辨率流媒體和針對(duì) 360 度和全景視頻的高級(jí)內(nèi)容編碼。這將確保流媒體的比特率較低,而不會(huì)降低質(zhì)量——這是現(xiàn)代多媒體應(yīng)用的一個(gè)基本方面。

Windows GPU 軟件堆棧從上到下都非常強(qiáng)大,支持 D3D、Vulkan 和 Intel VPL API 和框架。這意味著,結(jié)合這些品質(zhì)可以為市場(chǎng)上各種運(yùn)行時(shí)和驅(qū)動(dòng)程序提供全面支持,從而提高其在不同軟件環(huán)境中的整體效率和兼容性。

3、NPU算力提升至48TOPS

作為新一代面向筆記本電腦的AI PC處理器,Lunar Lake的神經(jīng)處理單元(NPU)帶來(lái)了重大升級(jí),其集成了全新的第四代NPU內(nèi)核(NPU 4),具備6個(gè)Neural Compute引擎、12個(gè)強(qiáng)化SHAVE 數(shù)字信號(hào)處理器DSP)與9MB緩存,能夠提供48 TOPS的AI算力。

與上一代 NPU 3 相比,NPU 4 在增強(qiáng)神經(jīng)處理能力和效率方面有了巨大飛躍。NPU 4 的改進(jìn)主要是通過(guò)實(shí)現(xiàn)更高的頻率、更好的電源架構(gòu)和更多的引擎數(shù)量來(lái)實(shí)現(xiàn)的,從而賦予它更好的性能和效率。

在 NPU 4 中,這些改進(jìn)在矢量性能架構(gòu)中得到了增強(qiáng),計(jì)算塊數(shù)量更多,矩陣計(jì)算的優(yōu)化性更好。這需要大量的神經(jīng)處理帶寬;換句話說(shuō),這對(duì)于需要超高速數(shù)據(jù)處理和實(shí)時(shí)推理的應(yīng)用程序至關(guān)重要。

該架構(gòu)支持 INT8 和 FP16 精度,INT8 每周期最多可進(jìn)行 2048 次 MAC(乘法累加)運(yùn)算,F(xiàn)P16 每周期最多可進(jìn)行 1024 次 MAC 運(yùn)算,這顯然表明計(jì)算效率顯著提高。

更深入地了解架構(gòu)后,可以發(fā)現(xiàn) NPU 4 的層次有所增加。其每個(gè)神經(jīng)計(jì)算引擎都嵌入了令人難以置信的出色推理管道,包括 MAC 陣列和許多用于不同類型計(jì)算的專用 DSP。該管道專為眾多并行操作而構(gòu)建,從而提高了性能和效率。新的 SHAVE DSP 經(jīng)過(guò)優(yōu)化,矢量計(jì)算能力是上一代的四倍,可以處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)。

NPU 4 的另一項(xiàng)重大改進(jìn)是提高了時(shí)鐘速度,并引入了一個(gè)新節(jié)點(diǎn),在與 NPU 3 相同的功率水平下將性能提高了一倍。這使峰值性能提高了四倍,使 NPU 4 成為要求苛刻的 AI 應(yīng)用的強(qiáng)大引擎。新的 MAC 陣列在芯片上具有先進(jìn)的數(shù)據(jù)轉(zhuǎn)換功能,允許動(dòng)態(tài)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換、融合操作和輸出數(shù)據(jù)布局,從而使數(shù)據(jù)流以最小的延遲達(dá)到最佳狀態(tài)。

NPU 4 的帶寬改進(jìn)對(duì)于處理更大的模型和數(shù)據(jù)集至關(guān)重要,尤其是在基于 Transformer 語(yǔ)言模型的應(yīng)用程序中。該架構(gòu)支持更高的數(shù)據(jù)流,從而減少瓶頸并確保即使在運(yùn)行時(shí)也能順利運(yùn)行。NPU 4 的 DMA(直接內(nèi)存訪問(wèn))引擎將 DMA 帶寬翻倍——這是提高網(wǎng)絡(luò)性能的重要補(bǔ)充,也是處理重型神經(jīng)網(wǎng)絡(luò)模型的有效方法。進(jìn)一步支持更多功能,包括嵌入標(biāo)記化,從而擴(kuò)大了 NPU 4 的潛力。

NPU 4 的另一項(xiàng)顯著改進(jìn)在于矩陣乘法和卷積運(yùn)算,其中 MAC 陣列可以在單個(gè)周期內(nèi)處理最多 2048 個(gè) MAC 運(yùn)算(INT8)和 1024 個(gè) MAC 運(yùn)算(FP16)。這反過(guò)來(lái)又使得 NPU 能夠以更高的速度和更低的功率處理更復(fù)雜的神經(jīng)網(wǎng)絡(luò)計(jì)算。這在矢量寄存器文件的維度上產(chǎn)生了差異;NPU 4 的寬度為 512 位。這意味著在一個(gè)時(shí)鐘周期內(nèi),可以進(jìn)行更多的矢量運(yùn)算;這反過(guò)來(lái)又提高了計(jì)算效率。

NPU 4 支持激活函數(shù),現(xiàn)在有更多種類的激活函數(shù)可以支持和處理任何神經(jīng)網(wǎng)絡(luò),并可選擇精度來(lái)支持浮點(diǎn)計(jì)算,這將使計(jì)算更加精確和可靠。改進(jìn)的激活函數(shù)和優(yōu)化的推理管道,將使其能夠以更快的速度和更高的準(zhǔn)確度執(zhí)行更復(fù)雜和更細(xì)致的神經(jīng)網(wǎng)絡(luò)模型。

NPU 4 中的 SHAVE DSP 升級(jí),使得其矢量計(jì)算能力達(dá)到了 NPU 3 的四倍,將整體的矢量性能整體提高 12 倍。這對(duì)于轉(zhuǎn)換器和大型語(yǔ)言模型 (LLM) 性能非常有用,使其更加快速和節(jié)能。增加每個(gè)時(shí)鐘周期的矢量操作可以實(shí)現(xiàn)更大的矢量寄存器文件大小,從而顯著提升 NPU 4 的計(jì)算能力。

總體而言,NPU 4 的性能比 NPU 3 有了大幅提升,整體的矢量性能提高了 12 倍,TOPS 算力提高了 4 倍,IP 帶寬提高了 2 倍。這些改進(jìn)使 NPU 4 成為高性能和高效率的AI解決方案,適合性能和延遲至關(guān)重要的最新 AI 和機(jī)器學(xué)習(xí)應(yīng)用。這些架構(gòu)改進(jìn)以及數(shù)據(jù)轉(zhuǎn)換和帶寬改進(jìn)使 NPU 4 成為管理要求極高的 AI 工作負(fù)載的頂級(jí)解決方案。

4、更好的安全技術(shù)和高速連接技術(shù)

Lunar Lake平臺(tái)的控制層還內(nèi)置了安全和新一代高速連接技術(shù)。

在安全方面,擁有Intel Partner Security(合作伙伴安全)引擎、Intel Silicon Security(硅安全)引擎、Converged Security和Manageability(融合安全與可管理性)引擎。

連接方面,Lunar Lake平臺(tái)則整合了最新的Wi-Fi 7、Bluetooth 5.4與1GbE MAC連接技術(shù)。

其中,集成的Wi-Fi 7解決方案支持多鏈路操作(Multi-Link Operation或MLO),它增加了可靠性,提高了吞吐量(支持5.8Gbps),改善了延遲,并實(shí)現(xiàn)了流量分離/區(qū)分。與BE200網(wǎng)絡(luò)接口相比,硅片尺寸縮小了28%,并采用11Gbps的CNVio3接口。此外,還采用了射頻干擾緩解技術(shù),可動(dòng)態(tài)調(diào)整對(duì)Wi-Fi性能有重大影響的DDR時(shí)鐘頻率。

英特爾還宣布與Meta 的合作更進(jìn)一步,利用這項(xiàng) Wi-Fi 7 技術(shù)來(lái)增強(qiáng) VR 體驗(yàn)。這進(jìn)一步優(yōu)化了視頻延遲性能并減少了干擾,從而使 VR 應(yīng)用更加無(wú)縫和引人入勝,至少?gòu)臒o(wú)線連接的角度來(lái)看是如此。Wi-Fi 7 的新增強(qiáng)功能提供了高、可靠的速度和低延遲,可滿足 VR 應(yīng)用中最具挑戰(zhàn)性的需求。

在接口方面,Lunar Lake提供4個(gè)PCIe 5.0、4個(gè)PCIe 4.0、3個(gè)整合的Thunderbolt 4(40Gbps)、2個(gè)USB 3.0與6個(gè)USB 2.0等接口。值得一提的是,Thunderbolt 4 接口通過(guò)Thunderbolt Share加速,可以將生產(chǎn)力提升到一個(gè)新水平,實(shí)現(xiàn)多臺(tái)電腦連接。

5、3D Foveros封裝與Scalable Fabric Gen 2互聯(lián)

Lunar Lake以上所有的計(jì)算核心、Memory Side緩存、安全、連接和I/O模塊均通過(guò)英特爾的3D Foveros多芯片封裝技術(shù)共同封裝在處理器基板上,并采用Memory On Package封裝,在Lunar Lake核心的旁邊封裝了32GB內(nèi)存。

需要指出的是Lunar Lake的32GB w/ 2 Ranks LPDDR5X內(nèi)存顆粒與處理器一同封裝在基版上,每芯片可有著8.5GT/s的傳輸頻寬、支持16b x 4信道,能夠降低40% PHY電源并節(jié)省250mm2的電路版面積。

Lunar Lake的CPU、GPU和NPU計(jì)算核心則通過(guò)Scalable Fabric Gen 2進(jìn)行互聯(lián),然后通過(guò)D2D直接與平臺(tái)控制層的Scalable Fabric Gen 2連接,能夠無(wú)縫的銜接計(jì)算節(jié)點(diǎn)、芯片層,讓計(jì)算核心能有著更好的擴(kuò)展性與效率。此外,借助Home Agent統(tǒng)籌整個(gè)層級(jí)的一致性(Hierarchical Coherency),包括Memory Side緩存、每個(gè)核心叢集中的Coherency Agent,包括平臺(tái)控制層的I/O Coherency。

6、全新的供電設(shè)計(jì)與電源管理,綜合能耗可降低40%

在供電方面,Lunar Lake采用了新的4個(gè)PMIC供電設(shè)計(jì),可提供更多的供電路徑、動(dòng)態(tài)電壓ID與更多的監(jiān)控功能。針對(duì)SoC的供電使用優(yōu)化達(dá)到最佳的性能效率。

在電源管理方面,集成的英特爾線程控制器專注于效率,還有針對(duì)每種負(fù)載類型優(yōu)化的功率平衡器,增強(qiáng)的“睡眠”狀態(tài)電源和延遲,以及基于ML的WL分類與頻率控制。Thread Director(線程調(diào)度器)通過(guò)識(shí)別每個(gè)工作負(fù)載的級(jí)別并使用其能源和性能內(nèi)核評(píng)分機(jī)制,幫助操作系統(tǒng)將線程調(diào)度到性能和效率最佳的內(nèi)核上。

另外,Lunar Lake還在眾多核心芯片中加入了共享的8MB Memory Side緩存,可以降低DRAM的傳輸次數(shù)并節(jié)省電源,借助緩存機(jī)制讓核心與DRAM間的延遲進(jìn)一步降低并提升傳輸帶寬。

根據(jù)英特爾公布的數(shù)據(jù)顯示,得益于先進(jìn)的工藝節(jié)點(diǎn)、新的E-core設(shè)計(jì)、Memory Side緩存、供電設(shè)計(jì)、電源管理及線程調(diào)度器技術(shù),Lunar Lake比起上一代的Meteor Lake 的能耗可降低40%。

7、Lunar Lake三季度出貨,Arrow Lake四季度推出

據(jù)介紹,目前Lunar Lake已有超過(guò)80款設(shè)計(jì),來(lái)自20家OEM廠商,預(yù)計(jì)第三季開(kāi)始出貨。

英特爾還透露了未來(lái)的面向AI PC的移動(dòng)處理器構(gòu)架,今年第四季將推出面向桌面端的Arrow Lake,明年將會(huì)推出采用Intel 18A的Panther Lake,2026年后還會(huì)有后續(xù)新產(chǎn)品。

小結(jié):綜合AI算力高達(dá)120 TOPS

從Lunar Lake的內(nèi)部的各個(gè)核心來(lái)看,相對(duì)于上代的Meteor Lake,無(wú)疑是帶來(lái)了重大的升級(jí),不僅CPU核心將 Lion Cove P 核與 Skymont E 核集成在一起,還帶了最新的 Xe2-LPG GPU架構(gòu),以及新一代的NPU 4 內(nèi)核,帶來(lái)了領(lǐng)先的AI性能。

結(jié)合CPU、GPU和NPU所提供的AI算力,使得整個(gè)Lunar Lake平臺(tái)的AI總算力達(dá)到了120 TOPS,凸顯了英特爾在 AI 方面的投資。其中,CPU可通過(guò)VNNI與AVX指令提供5 TOPS的算力,驅(qū)動(dòng)輕度AI工作;GPU提供的67 TOPS算力則通過(guò)XMX與DP4a提供游戲與創(chuàng)作所需的AI性能;NPU提供的48 TOPS算力能夠處理密集向量與矩陣運(yùn)算,提供AI輔助與創(chuàng)作等功能。

作為對(duì)比,高通驍龍X Elite的NPU的算力為45TOPS,蘋(píng)果M4的NPU的算力只有38TOPS,雖然AMD最新推出的AI PC芯片——銳龍AI 300系列集成的AMD第三代NPU內(nèi)核的AI算力提升到50TOPS,英特爾Lunar Lake的NPU內(nèi)核的AI算力48TOPS略低,但是依然是大幅超過(guò)了微軟對(duì)于Copilot+ PC的最低NPU算力40TOPS的需求門(mén)檻,并且英特爾更專注于提供更高的綜合的AI算力,即通過(guò)AI引擎結(jié)合NPU、CPU和GPU,將綜合AI算力提高到了120TOPS,達(dá)到了上代Meteor Lake的接近3倍,這樣的提升幅度不可謂不高。

特別值得一提的是,Lunar Lake 還帶來(lái)了供電和電源管理方面的大幅改進(jìn),結(jié)合更先進(jìn)的工藝節(jié)點(diǎn)、CPU計(jì)算核心等在能效方面的改進(jìn),使得Lunar Lake比起上一代的Meteor Lake 的能耗大幅降低,更適合于移動(dòng)設(shè)備。

根據(jù)英特爾披露的數(shù)據(jù)顯示,Lunar Lake的GPU性能提升50%、NPU內(nèi)核的AI算力增加了四倍、SoC耗電量減少40%、GPU AI算力增加3.5倍,整個(gè)SoC的算力超過(guò)了120TOPS。

總結(jié)來(lái)說(shuō),Lunar Lake相比上代的Meteor Lake帶來(lái)了巨大的性能提升,特別是在AI能力方面,同時(shí)也帶來(lái)了更高的能效和更低的功耗。相對(duì)于其他的AI PC芯片競(jìng)品來(lái)說(shuō),依然有著不小的優(yōu)勢(shì)。

英特爾CEO基辛格在演講當(dāng)中也表示,非??春肁I PC的發(fā)展,目前已有超過(guò)800萬(wàn)臺(tái)搭載英特爾—Core Ultra處理器的AI PC出貨,顯示AI PC時(shí)代已然來(lái)臨。

同時(shí)基辛格還預(yù)計(jì)今年基于英特爾芯片的AI PC出貨將達(dá)到4500萬(wàn)臺(tái),在2028年時(shí),搭載AI功能的PC在所有PC當(dāng)中的占比將達(dá)到80%的水平。而英特爾擁有300多個(gè)AI加速功能、500多個(gè)人工智能模型,當(dāng)AI PC進(jìn)入市場(chǎng)時(shí),英特爾已經(jīng)擁有了完整的AI PC生態(tài)系統(tǒng)。

顯然,隨著Lunar Lake的推出,將有助于進(jìn)一步增強(qiáng)英特爾在AI PC芯片市場(chǎng)的競(jìng)爭(zhēng)力。不過(guò),Lunar Lake的具體市場(chǎng)表現(xiàn)如何,還有待觀察。

談到對(duì)Windows on Arm是否影響市占,Gelsinger認(rèn)為,這不是第一個(gè)Windows on Arm的產(chǎn)品發(fā)布,x86市占率仍維持領(lǐng)先,目前還沒(méi)明確誘因促使消費(fèi)者從x86平臺(tái)轉(zhuǎn)換到Arm平臺(tái),也還沒(méi)看到類似產(chǎn)品能取代x86既有構(gòu)架,認(rèn)為消費(fèi)者需要有改變的理由,加上新推出的Lunar Lake擁有最好顯卡,并不怕市占受影響。

被問(wèn)到是否視高通為對(duì)手?Gelsinger笑說(shuō)歡迎高通推出自家產(chǎn)品進(jìn)入市場(chǎng),因?yàn)檫@有助于更快創(chuàng)造整個(gè)市場(chǎng),不過(guò)對(duì)自己很有自信,目前出貨量已經(jīng)售100萬(wàn)臺(tái),從這角度看,表現(xiàn)比高通昨天呈現(xiàn)的Snapdragon X Elite更優(yōu)秀。此外,從Lunar Lake到下一代Panther Lake,英特爾是打造自家生態(tài)系,是全新的篇章,在整個(gè)AI也很難被取代。

Gelsinger指出,下半年客戶購(gòu)買Lunar Lake的PC會(huì)相當(dāng)有感,相信也會(huì)和高通產(chǎn)品做比較,未來(lái)會(huì)有更多跑分等信息出現(xiàn)。

目前英特爾積極擴(kuò)展海外制造,在美國(guó)也有多項(xiàng)半導(dǎo)體建設(shè)。Gelsinger認(rèn)為英特爾、三星、臺(tái)積電在美國(guó)布局,顯示美國(guó)芯片產(chǎn)業(yè)將有很大發(fā)展,研調(diào)機(jī)構(gòu)也預(yù)期美國(guó)在半導(dǎo)體的影響力從10%增加至2030年的20%,相信會(huì)有很大動(dòng)能的發(fā)展。英特爾在演講中不斷贊揚(yáng)臺(tái)積電在Lunar Lake及與聯(lián)電的合作,顯示重視臺(tái)灣生態(tài)系,但全球需要更平衡的供應(yīng)鏈,相信現(xiàn)在正在成形中。

被美國(guó)限制出口限制,是否可能讓中國(guó)加速芯片開(kāi)發(fā)?Gelsinger坦言,芯片禁令如同一條魔術(shù)界線(magic line),限制太強(qiáng)確實(shí)促使中國(guó)打造自研芯片,的確傷害出口市場(chǎng),因此要小心平衡,英特爾要確保這方面能符合全球生態(tài)系伙伴的期待。同時(shí)英特爾也會(huì)持續(xù)出口產(chǎn)品到中國(guó),像中國(guó)技術(shù)受到限制,隨著制程達(dá)到2納米以下,英特爾這部分在中國(guó)市場(chǎng)仍具吸引力。

另一個(gè)記者詢問(wèn)為何Pat Gelsinger不去韓國(guó)?他響應(yīng)這次旅程沒(méi)到韓國(guó),但之后將再造訪韓國(guó),與當(dāng)?shù)乜萍紡S、客戶有密切關(guān)系,因?yàn)轫n國(guó)對(duì)英特爾絕對(duì)有舉足輕重的重要性。

參考資料:

https://www.xfastest.com/thread-288637-1-1.html

https://www.anandtech.com/show/21425/intel-lunar-lake-architecture-deep-dive-lion-cove-xe2-and-npu4

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATXMEGA128A4U-MHR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$4.48 查看
MKL02Z32VFG4R 1 Freescale Semiconductor RISC MICROCONTROLLER

ECAD模型

下載ECAD模型
暫無(wú)數(shù)據(jù) 查看
ATMEGA128A-AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$7.69 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜