加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1、Lunar Lake首次全部由臺積電代工,但下一代的Panther lake將重回英特爾代工
    • 小結(jié):綜合AI算力高達120 TOPS
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

臺積電代工!Intel新AI PC芯片Lunar Lake發(fā)布:AI算力120TOPS!

06/06 16:35
2014
閱讀需 33 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

編輯:浪客劍

6月4日,英特爾CEO帕特·基辛格在COMPUTEX 2024上發(fā)表主題演講,正式公布了下一代面向AI PC的移動處理器Lunar Lake,不僅CPU、GPU、NPU性能全面提升,能耗也大幅降低,綜合AI算力提升至120TOPS。

1、Lunar Lake首次全部由臺積電代工,但下一代的Panther lake將重回英特爾代工

據(jù)介紹Lunar Lake由7個主要部分組成,整個封裝包含內(nèi)存、加固器和底層芯片,底層芯片使用Intel Foveros互連技術(shù)將計算芯片和平臺控制器芯片結(jié)合在一起。在工藝節(jié)點方面,Lunar Lake計算芯片(包括CPU、GPU和NPU等)采用臺積電的N3B工藝節(jié)點制造,平臺控制器芯片則采用臺積電的N6工藝節(jié)點制造,也就是說這款芯片的主要核心die全部都是由臺積電代工!

要知到之前英特爾的高端移動平臺芯片雖然有部分核心是交由臺積電代工,但是CPU核心一直是英特爾自己生產(chǎn)的。而這種轉(zhuǎn)變,一方面是臺積電在制程技術(shù)上的領(lǐng)先,另一方面則可能與英特爾代工業(yè)務獨立分拆有關(guān)。英特爾代工業(yè)務獨立分拆,使得英特爾的設(shè)計業(yè)務可以更自由的選擇外部更有競爭力的供應商,但是這對于英特爾代工業(yè)務集團來說并不是一個好消息,所幸的是Lunar Lake的封裝還是交由英特爾代工業(yè)務集團來完成的。

對此,基辛格表示,Lunar Lake之所以選擇臺積電制造,是因為當時臺積電有更好的制程技術(shù),現(xiàn)在看仍是好選擇。感謝臺積電,提供了很多核心關(guān)鍵制造技術(shù),使Lunar Lake成為可能,也能看出臺積電和英特爾在代工產(chǎn)業(yè)的合作,包括UCIe(通用小芯片互連)也是。

不過基辛格強調(diào),到下一代Panther lake將幾乎全部是基于英特爾制程,將采用Intel 18A工藝,還有混合鍵合技術(shù)、晶圓對晶圓(Wafer to Wafer)堆疊,還有先進封裝技術(shù)和背面供電技術(shù),希望屆時能夠向大家展示英特爾的晶圓廠能力。

1、CPU核心:4個P核+4個E核,性能及效率大幅提升

據(jù)介紹,Lunar Lake的CPU內(nèi)核依然采用的Hybrid核心架構(gòu)設(shè)計,擁有4個Lion Cove P-core性能核心和4個Skymont E-core效率核心,組合成8核心混合設(shè)計,以達到性能與效率的最佳。

Lunar Lake的Lion Cove P-core性能核心在緩存層次上進行了眾大改進,其采用了多層數(shù)據(jù)緩存,每個核心包括一個 48KB L0D 緩存(加載到使用延遲為 4 周期)、一個 192KB L1D 緩存(延遲為 9 周期)、一個擴展的 L2 緩存(最高可達 3MB,延遲為 17 周期)。總的來說,這使得 240KB 緩存的延遲時間與 CPU 內(nèi)核的延遲時間相差無幾,而之前的 Redwood Cove 只能在相同時間內(nèi)達到 48KB 緩存。4個P核心還共享了12MB L3緩存,可以帶來更出色的單線程性能,并優(yōu)化核心PPA設(shè)計。

英特爾添加了第三個地址生成單元 (AGU)/存儲單元對,以進一步提升存儲性能。值得注意的是,這使加載和存儲管道的數(shù)量達到平衡,分別為 3 個;在大多數(shù)英特爾架構(gòu)中,加載單元的數(shù)量都比存儲單元多。

總體而言,英特爾在真正的長期 CPU 設(shè)計理念中,已經(jīng)投入了更多緩存來解決這個問題。隨著 CPU 復雜度的增加,緩存子系統(tǒng)也在不斷增加,以保證其正常運行。在這種情況下,保證 CPU 正常運行是提高其性能和保持其能效的關(guān)鍵改進。

深入研究 Lion Cove 的計算架構(gòu),該架構(gòu)在英特爾的 P 核設(shè)計上專注于提高性能和效率。該架構(gòu)采用一種新的前端方法來處理指令,其預測塊比以前大 8 倍,提取范圍更廣,解碼帶寬更高,Uops 緩存容量和讀取帶寬也大幅增加。UOP 隊列容量增加,這也提高了整體吞吐量。在執(zhí)行過程中,Lion Cove 的無序引擎在整數(shù) (INT) 和矢量 (VEC) 域之間劃分,具有獨立的重命名和調(diào)度功能。

數(shù)據(jù)轉(zhuǎn)換后備緩沖區(qū) (DTLB) 也進行了修改,將其深度從 96 頁增加到 128 頁,以提高其命中率。這種分區(qū)方式可以實現(xiàn)未來的可擴展性、每個域的獨立增長,并且有利于降低特定域工作負載的功耗。亂序引擎也得到了改進,分配/重命名從 6 個增加到 8 個,退出從 8 個增加到 12 個,深度指令窗口從 512 個增加到 576 個,執(zhí)行端口從 12 個增加到 18 個。這些變化使管道更加穩(wěn)健,執(zhí)行起來也更加靈活。

Lion Cove 中的整數(shù)執(zhí)行單元也得到了改進:整數(shù) ALU 從 5 個增加到 6 個,跳躍單元從 2 個增加到 3 個,移位單元從 2 個增加到 3 個。它們將64x64單元增加到超過64,并從 1 個單元增加到 3 個,為最復雜的操作提供更強大的計算能力。另一個顯著的進步是 P 核心數(shù)據(jù)庫從“sea of fubs”遷移到了 “sea of cells”。更新 P 核心子結(jié)構(gòu)組織的過程從微小的、以鎖存器為主的分區(qū)轉(zhuǎn)變?yōu)楦鼜V泛、更大的以觸發(fā)器為主的分區(qū),這些分區(qū)在發(fā)展過程中非常不可知。

Lion Cove 架構(gòu)也與性能提升保持一致,與上一代 Redwood Cove 相比,IPC 性能預計將提升兩位數(shù)百分比。這種提升尤其明顯,尤其是在超線程的改進方面,IPC 提高了 30%,動態(tài)功率效率提高了 20%,并且在不增加核心面積的情況下平衡了先前的技術(shù),體現(xiàn)了英特爾在現(xiàn)有物理限制內(nèi)提高性能的承諾。

Lion Cove 的電源管理也得到了改進,包括采用 AI 自調(diào)節(jié)控制器來取代靜態(tài)熱保護帶。它讓系統(tǒng)以自適應方式動態(tài)響應實際的實時運行條件,以實現(xiàn)更高的持續(xù)性能。它使用更精細的時鐘粒度,現(xiàn)在間隔為 16.67MHz。與 100MHz 相比,這意味著更精確的電源管理和性能調(diào)整,從而從功率預算中獲得最大效率。

至少從紙面上看,Lion Cove 看起來比 Golden Cove 有了很大的改進。它整合了改進的內(nèi)存和緩存子系統(tǒng)、更好的電源管理以及 IPC 性能的提升,而不是專注于提高頻率。

Lunar Lake的Skymont E-core效率核心是專為實現(xiàn)全新水平的性能效率而設(shè)計。4個E-core共享4MB L2緩存,能比上一代有著超過2倍的省電表現(xiàn),并比上一代提升2倍的Vector與AI輸出性能。

Skymont 核心具有更全面的微架構(gòu),首先是 9-wide 解碼階段,其解碼簇比前幾代多 50%。這由更大的微操作隊列支持,現(xiàn)在可容納 96 個條目,而舊設(shè)計中只有 64 個。使用“Nanocode”可在每個解碼簇內(nèi)增加更多微代碼并行性。

Skymont核心的無序執(zhí)行引擎也得到了顯著改進。分配寬度增加到 8-wide,而退出階段則加倍到 16-wide。這增強了內(nèi)核同時發(fā)出和執(zhí)行多條指令的能力,并通過依賴中斷機制減少了延遲。

Skymont 將重排序緩沖區(qū)從之前的 256 個條目加深到 416 個條目,以提供排隊和緩沖功能。此外,物理寄存器文件 (PRF) 和保留站的大小也增加了。這些增強功能使內(nèi)核能夠處理更多正在運行的指令,從而提高指令執(zhí)行的并行性。

需要注意的是,調(diào)度端口最初為 26 個,其中 8 個用于整數(shù) ALU,3 個用于跳轉(zhuǎn)操作,3 個用于每個周期的加載操作,從而進一步實現(xiàn)了靈活高效的資源分配。在矢量性能方面,Skymont 支持 4×128 位 FP 和 SIMD 矢量,這使每秒千兆次浮點運算 (Gigaflops/TOPs) 翻倍,并降低了浮點運算的延遲。英特爾還重新設(shè)計了內(nèi)存子系統(tǒng),四個內(nèi)核共享 4MB L2 緩存,將 L2 帶寬翻倍至每周期 128B,在此過程中,降低了內(nèi)存訪問延遲,同時提高了數(shù)據(jù)吞吐量。

英特爾公布的性能指標,凸顯了Skymont E核的電源效率的顯著提升:與上代的Meteor Lake 的 LP E 核相比,單線程性能提高了 1.7 倍,而功耗僅為其三分之一。

當將 Skymont E-core 集群與 Meteor Lake的 LP E-core 集群直接進行比較時,多線程性能提高了 2.9 倍,而功耗卻全面降低。

這對于移動和桌面設(shè)計同樣有用。換句話說,Skymont E 核心非常靈活,在移動場景中充分利用了低功耗結(jié)構(gòu)和系統(tǒng)緩存,并針對桌面計算塊優(yōu)化了多線程吞吐量。與 Raptor Cove 相比,Skymont在單線程工作負載中提供了 2% 更好的整數(shù)和浮點性能,其功率和熱量范圍幾乎與其前代產(chǎn)品相同。

Skymont E 核代表了英特爾內(nèi)核架構(gòu)開發(fā)的下一步,在解碼、執(zhí)行、內(nèi)存子系統(tǒng)和電源效率方面取得了顯著的進步,滿足了更節(jié)能計算的需求,并且比以前的 Crestmont E 核提高了 IPC 增益。

2、GPU性能提升50%,還有全新顯示、多媒體和圖像引擎

Lunar Lake的GPU采用的是新一代的Xe2 GPU構(gòu)架,擁有8組新一代Xe核心、8個光線追蹤單元、XMX AI引擎和8MB的專屬緩存。能夠提供67 GPU TOPS的算力、實時的光線追蹤、基于AI的XeSS畫質(zhì)提升、Intel Arc軟件堆疊等功能,相比上一代Meteor Lake能帶來50%的圖形處理性能提升。

Lunar Lake內(nèi)部還集成了與GPU搭配的全新顯示、多媒體和圖像引擎(IPU)。其中,顯示核心擁有3個eDP 1.5、DP與HDMI 2.1輸出接口,多媒體引擎支持AV1和最新的VVC編譯功能,IPU則可提供Temporal noise reduction、Multi-frame與Dual exposure staggered HDR等圖像強化功能。

具體來說,英特爾的 eDisplayPort 1.5 包含面板重放功能,該功能集成了自適應同步和選擇性更新機制。這有助于通過僅刷新屏幕發(fā)生變化的部分而不是整個顯示屏來降低功耗。這些創(chuàng)新不僅節(jié)省能源,而且還通過減少顯示延遲和提高同步精度來改善視覺體驗。

描繪像素處理管道是英特爾顯示引擎所依賴的基本基礎(chǔ)之一,每條管道支持六個平面,用于高級顏色轉(zhuǎn)換和合成。此外,它還集成了對顏色增強、顯示縮放、像素調(diào)整和 HDR 感知量化的硬件支持,確保屏幕上的圖形生動準確。該設(shè)計非常靈活,非常節(jié)能,性能經(jīng)過精心設(shè)計,至少在紙面上支持各種輸入和輸出格式。到目前為止,英特爾尚未提供任何可量化的功率指標、TDP 或其他功率元素。

在壓縮和編碼方面,Xe2 架構(gòu)可無損地將顯示流壓縮率提高到 3:1,包括針對 HDMI 和 DisplayPort 協(xié)議的傳輸編碼。這些芯片功能可進一步降低數(shù)據(jù)負載,并在輸出端保持高分辨率,而不會損失視覺質(zhì)量。

多媒體引擎方面,英特爾采用 VVC 編解碼器對視頻壓縮技術(shù)的改進意義重大。與 AV1 相比,此編解碼器可將文件大小減少 10%,并支持自適應分辨率流媒體和針對 360 度和全景視頻的高級內(nèi)容編碼。這將確保流媒體的比特率較低,而不會降低質(zhì)量——這是現(xiàn)代多媒體應用的一個基本方面。

Windows GPU 軟件堆棧從上到下都非常強大,支持 D3D、Vulkan 和 Intel VPL API 和框架。這意味著,結(jié)合這些品質(zhì)可以為市場上各種運行時和驅(qū)動程序提供全面支持,從而提高其在不同軟件環(huán)境中的整體效率和兼容性。

3、NPU算力提升至48TOPS

作為新一代面向筆記本電腦的AI PC處理器,Lunar Lake的神經(jīng)處理單元(NPU)帶來了重大升級,其集成了全新的第四代NPU內(nèi)核(NPU 4),具備6個Neural Compute引擎、12個強化SHAVE 數(shù)字信號處理器DSP)與9MB緩存,能夠提供48 TOPS的AI算力。

與上一代 NPU 3 相比,NPU 4 在增強神經(jīng)處理能力和效率方面有了巨大飛躍。NPU 4 的改進主要是通過實現(xiàn)更高的頻率、更好的電源架構(gòu)和更多的引擎數(shù)量來實現(xiàn)的,從而賦予它更好的性能和效率。

在 NPU 4 中,這些改進在矢量性能架構(gòu)中得到了增強,計算塊數(shù)量更多,矩陣計算的優(yōu)化性更好。這需要大量的神經(jīng)處理帶寬;換句話說,這對于需要超高速數(shù)據(jù)處理和實時推理的應用程序至關(guān)重要。

該架構(gòu)支持 INT8 和 FP16 精度,INT8 每周期最多可進行 2048 次 MAC(乘法累加)運算,F(xiàn)P16 每周期最多可進行 1024 次 MAC 運算,這顯然表明計算效率顯著提高。

更深入地了解架構(gòu)后,可以發(fā)現(xiàn) NPU 4 的層次有所增加。其每個神經(jīng)計算引擎都嵌入了令人難以置信的出色推理管道,包括 MAC 陣列和許多用于不同類型計算的專用 DSP。該管道專為眾多并行操作而構(gòu)建,從而提高了性能和效率。新的 SHAVE DSP 經(jīng)過優(yōu)化,矢量計算能力是上一代的四倍,可以處理更復雜的神經(jīng)網(wǎng)絡(luò)。

NPU 4 的另一項重大改進是提高了時鐘速度,并引入了一個新節(jié)點,在與 NPU 3 相同的功率水平下將性能提高了一倍。這使峰值性能提高了四倍,使 NPU 4 成為要求苛刻的 AI 應用的強大引擎。新的 MAC 陣列在芯片上具有先進的數(shù)據(jù)轉(zhuǎn)換功能,允許動態(tài)進行數(shù)據(jù)類型轉(zhuǎn)換、融合操作和輸出數(shù)據(jù)布局,從而使數(shù)據(jù)流以最小的延遲達到最佳狀態(tài)。

NPU 4 的帶寬改進對于處理更大的模型和數(shù)據(jù)集至關(guān)重要,尤其是在基于 Transformer 語言模型的應用程序中。該架構(gòu)支持更高的數(shù)據(jù)流,從而減少瓶頸并確保即使在運行時也能順利運行。NPU 4 的 DMA(直接內(nèi)存訪問)引擎將 DMA 帶寬翻倍——這是提高網(wǎng)絡(luò)性能的重要補充,也是處理重型神經(jīng)網(wǎng)絡(luò)模型的有效方法。進一步支持更多功能,包括嵌入標記化,從而擴大了 NPU 4 的潛力。

NPU 4 的另一項顯著改進在于矩陣乘法和卷積運算,其中 MAC 陣列可以在單個周期內(nèi)處理最多 2048 個 MAC 運算(INT8)和 1024 個 MAC 運算(FP16)。這反過來又使得 NPU 能夠以更高的速度和更低的功率處理更復雜的神經(jīng)網(wǎng)絡(luò)計算。這在矢量寄存器文件的維度上產(chǎn)生了差異;NPU 4 的寬度為 512 位。這意味著在一個時鐘周期內(nèi),可以進行更多的矢量運算;這反過來又提高了計算效率。

NPU 4 支持激活函數(shù),現(xiàn)在有更多種類的激活函數(shù)可以支持和處理任何神經(jīng)網(wǎng)絡(luò),并可選擇精度來支持浮點計算,這將使計算更加精確和可靠。改進的激活函數(shù)和優(yōu)化的推理管道,將使其能夠以更快的速度和更高的準確度執(zhí)行更復雜和更細致的神經(jīng)網(wǎng)絡(luò)模型。

NPU 4 中的 SHAVE DSP 升級,使得其矢量計算能力達到了 NPU 3 的四倍,將整體的矢量性能整體提高 12 倍。這對于轉(zhuǎn)換器和大型語言模型 (LLM) 性能非常有用,使其更加快速和節(jié)能。增加每個時鐘周期的矢量操作可以實現(xiàn)更大的矢量寄存器文件大小,從而顯著提升 NPU 4 的計算能力。

總體而言,NPU 4 的性能比 NPU 3 有了大幅提升,整體的矢量性能提高了 12 倍,TOPS 算力提高了 4 倍,IP 帶寬提高了 2 倍。這些改進使 NPU 4 成為高性能和高效率的AI解決方案,適合性能和延遲至關(guān)重要的最新 AI 和機器學習應用。這些架構(gòu)改進以及數(shù)據(jù)轉(zhuǎn)換和帶寬改進使 NPU 4 成為管理要求極高的 AI 工作負載的頂級解決方案。

4、更好的安全技術(shù)和高速連接技術(shù)

Lunar Lake平臺的控制層還內(nèi)置了安全和新一代高速連接技術(shù)。

在安全方面,擁有Intel Partner Security(合作伙伴安全)引擎、Intel Silicon Security(硅安全)引擎、Converged Security和Manageability(融合安全與可管理性)引擎。

連接方面,Lunar Lake平臺則整合了最新的Wi-Fi 7、Bluetooth 5.4與1GbE MAC連接技術(shù)。

其中,集成的Wi-Fi 7解決方案支持多鏈路操作(Multi-Link Operation或MLO),它增加了可靠性,提高了吞吐量(支持5.8Gbps),改善了延遲,并實現(xiàn)了流量分離/區(qū)分。與BE200網(wǎng)絡(luò)接口相比,硅片尺寸縮小了28%,并采用11Gbps的CNVio3接口。此外,還采用了射頻干擾緩解技術(shù),可動態(tài)調(diào)整對Wi-Fi性能有重大影響的DDR時鐘頻率。

英特爾還宣布與Meta 的合作更進一步,利用這項 Wi-Fi 7 技術(shù)來增強 VR 體驗。這進一步優(yōu)化了視頻延遲性能并減少了干擾,從而使 VR 應用更加無縫和引人入勝,至少從無線連接的角度來看是如此。Wi-Fi 7 的新增強功能提供了高、可靠的速度和低延遲,可滿足 VR 應用中最具挑戰(zhàn)性的需求。

在接口方面,Lunar Lake提供4個PCIe 5.0、4個PCIe 4.0、3個整合的Thunderbolt 4(40Gbps)、2個USB 3.0與6個USB 2.0等接口。值得一提的是,Thunderbolt 4 接口通過Thunderbolt Share加速,可以將生產(chǎn)力提升到一個新水平,實現(xiàn)多臺電腦連接。

5、3D Foveros封裝與Scalable Fabric Gen 2互聯(lián)

Lunar Lake以上所有的計算核心、Memory Side緩存、安全、連接和I/O模塊均通過英特爾的3D Foveros多芯片封裝技術(shù)共同封裝在處理器基板上,并采用Memory On Package封裝,在Lunar Lake核心的旁邊封裝了32GB內(nèi)存。

需要指出的是Lunar Lake的32GB w/ 2 Ranks LPDDR5X內(nèi)存顆粒與處理器一同封裝在基版上,每芯片可有著8.5GT/s的傳輸頻寬、支持16b x 4信道,能夠降低40% PHY電源并節(jié)省250mm2的電路版面積。

Lunar Lake的CPU、GPU和NPU計算核心則通過Scalable Fabric Gen 2進行互聯(lián),然后通過D2D直接與平臺控制層的Scalable Fabric Gen 2連接,能夠無縫的銜接計算節(jié)點、芯片層,讓計算核心能有著更好的擴展性與效率。此外,借助Home Agent統(tǒng)籌整個層級的一致性(Hierarchical Coherency),包括Memory Side緩存、每個核心叢集中的Coherency Agent,包括平臺控制層的I/O Coherency。

6、全新的供電設(shè)計與電源管理,綜合能耗可降低40%

在供電方面,Lunar Lake采用了新的4個PMIC供電設(shè)計,可提供更多的供電路徑、動態(tài)電壓ID與更多的監(jiān)控功能。針對SoC的供電使用優(yōu)化達到最佳的性能效率。

在電源管理方面,集成的英特爾線程控制器專注于效率,還有針對每種負載類型優(yōu)化的功率平衡器,增強的“睡眠”狀態(tài)電源和延遲,以及基于ML的WL分類與頻率控制。Thread Director(線程調(diào)度器)通過識別每個工作負載的級別并使用其能源和性能內(nèi)核評分機制,幫助操作系統(tǒng)將線程調(diào)度到性能和效率最佳的內(nèi)核上。

另外,Lunar Lake還在眾多核心芯片中加入了共享的8MB Memory Side緩存,可以降低DRAM的傳輸次數(shù)并節(jié)省電源,借助緩存機制讓核心與DRAM間的延遲進一步降低并提升傳輸帶寬。

根據(jù)英特爾公布的數(shù)據(jù)顯示,得益于先進的工藝節(jié)點、新的E-core設(shè)計、Memory Side緩存、供電設(shè)計、電源管理及線程調(diào)度器技術(shù),Lunar Lake比起上一代的Meteor Lake 的能耗可降低40%。

7、Lunar Lake三季度出貨,Arrow Lake四季度推出

據(jù)介紹,目前Lunar Lake已有超過80款設(shè)計,來自20家OEM廠商,預計第三季開始出貨。

英特爾還透露了未來的面向AI PC的移動處理器構(gòu)架,今年第四季將推出面向桌面端的Arrow Lake,明年將會推出采用Intel 18A的Panther Lake,2026年后還會有后續(xù)新產(chǎn)品。

小結(jié):綜合AI算力高達120 TOPS

從Lunar Lake的內(nèi)部的各個核心來看,相對于上代的Meteor Lake,無疑是帶來了重大的升級,不僅CPU核心將 Lion Cove P 核與 Skymont E 核集成在一起,還帶了最新的 Xe2-LPG GPU架構(gòu),以及新一代的NPU 4 內(nèi)核,帶來了領(lǐng)先的AI性能。

結(jié)合CPU、GPU和NPU所提供的AI算力,使得整個Lunar Lake平臺的AI總算力達到了120 TOPS,凸顯了英特爾在 AI 方面的投資。其中,CPU可通過VNNI與AVX指令提供5 TOPS的算力,驅(qū)動輕度AI工作;GPU提供的67 TOPS算力則通過XMX與DP4a提供游戲與創(chuàng)作所需的AI性能;NPU提供的48 TOPS算力能夠處理密集向量與矩陣運算,提供AI輔助與創(chuàng)作等功能。

作為對比,高通驍龍X Elite的NPU的算力為45TOPS,蘋果M4的NPU的算力只有38TOPS,雖然AMD最新推出的AI PC芯片——銳龍AI 300系列集成的AMD第三代NPU內(nèi)核的AI算力提升到50TOPS,英特爾Lunar Lake的NPU內(nèi)核的AI算力48TOPS略低,但是依然是大幅超過了微軟對于Copilot+ PC的最低NPU算力40TOPS的需求門檻,并且英特爾更專注于提供更高的綜合的AI算力,即通過AI引擎結(jié)合NPU、CPU和GPU,將綜合AI算力提高到了120TOPS,達到了上代Meteor Lake的接近3倍,這樣的提升幅度不可謂不高。

特別值得一提的是,Lunar Lake 還帶來了供電和電源管理方面的大幅改進,結(jié)合更先進的工藝節(jié)點、CPU計算核心等在能效方面的改進,使得Lunar Lake比起上一代的Meteor Lake 的能耗大幅降低,更適合于移動設(shè)備。

根據(jù)英特爾披露的數(shù)據(jù)顯示,Lunar Lake的GPU性能提升50%、NPU內(nèi)核的AI算力增加了四倍、SoC耗電量減少40%、GPU AI算力增加3.5倍,整個SoC的算力超過了120TOPS。

總結(jié)來說,Lunar Lake相比上代的Meteor Lake帶來了巨大的性能提升,特別是在AI能力方面,同時也帶來了更高的能效和更低的功耗。相對于其他的AI PC芯片競品來說,依然有著不小的優(yōu)勢。

英特爾CEO基辛格在演講當中也表示,非??春肁I PC的發(fā)展,目前已有超過800萬臺搭載英特爾—Core Ultra處理器的AI PC出貨,顯示AI PC時代已然來臨。

同時基辛格還預計今年基于英特爾芯片的AI PC出貨將達到4500萬臺,在2028年時,搭載AI功能的PC在所有PC當中的占比將達到80%的水平。而英特爾擁有300多個AI加速功能、500多個人工智能模型,當AI PC進入市場時,英特爾已經(jīng)擁有了完整的AI PC生態(tài)系統(tǒng)。

顯然,隨著Lunar Lake的推出,將有助于進一步增強英特爾在AI PC芯片市場的競爭力。不過,Lunar Lake的具體市場表現(xiàn)如何,還有待觀察。

談到對Windows on Arm是否影響市占,Gelsinger認為,這不是第一個Windows on Arm的產(chǎn)品發(fā)布,x86市占率仍維持領(lǐng)先,目前還沒明確誘因促使消費者從x86平臺轉(zhuǎn)換到Arm平臺,也還沒看到類似產(chǎn)品能取代x86既有構(gòu)架,認為消費者需要有改變的理由,加上新推出的Lunar Lake擁有最好顯卡,并不怕市占受影響。

被問到是否視高通為對手?Gelsinger笑說歡迎高通推出自家產(chǎn)品進入市場,因為這有助于更快創(chuàng)造整個市場,不過對自己很有自信,目前出貨量已經(jīng)售100萬臺,從這角度看,表現(xiàn)比高通昨天呈現(xiàn)的Snapdragon X Elite更優(yōu)秀。此外,從Lunar Lake到下一代Panther Lake,英特爾是打造自家生態(tài)系,是全新的篇章,在整個AI也很難被取代。

Gelsinger指出,下半年客戶購買Lunar Lake的PC會相當有感,相信也會和高通產(chǎn)品做比較,未來會有更多跑分等信息出現(xiàn)。

目前英特爾積極擴展海外制造,在美國也有多項半導體建設(shè)。Gelsinger認為英特爾、三星、臺積電在美國布局,顯示美國芯片產(chǎn)業(yè)將有很大發(fā)展,研調(diào)機構(gòu)也預期美國在半導體的影響力從10%增加至2030年的20%,相信會有很大動能的發(fā)展。英特爾在演講中不斷贊揚臺積電在Lunar Lake及與聯(lián)電的合作,顯示重視臺灣生態(tài)系,但全球需要更平衡的供應鏈,相信現(xiàn)在正在成形中。

被美國限制出口限制,是否可能讓中國加速芯片開發(fā)?Gelsinger坦言,芯片禁令如同一條魔術(shù)界線(magic line),限制太強確實促使中國打造自研芯片,的確傷害出口市場,因此要小心平衡,英特爾要確保這方面能符合全球生態(tài)系伙伴的期待。同時英特爾也會持續(xù)出口產(chǎn)品到中國,像中國技術(shù)受到限制,隨著制程達到2納米以下,英特爾這部分在中國市場仍具吸引力。

另一個記者詢問為何Pat Gelsinger不去韓國?他響應這次旅程沒到韓國,但之后將再造訪韓國,與當?shù)乜萍紡S、客戶有密切關(guān)系,因為韓國對英特爾絕對有舉足輕重的重要性。

參考資料:

https://www.xfastest.com/thread-288637-1-1.html

https://www.anandtech.com/show/21425/intel-lunar-lake-architecture-deep-dive-lion-cove-xe2-and-npu4

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
AT91SAM9G20B-CU 1 Atmel Corporation RISC Microcontroller, 32-Bit, FAST, ARM9 CPU, 400MHz, CMOS, PBGA217, 15 X 15 MM, 0.80 MM PITCH, GREEN, MO-205, LFBGA-217

ECAD模型

下載ECAD模型
$11.13 查看
STM32H757XIH6TR 1 STMicroelectronics RISC Microcontroller
暫無數(shù)據(jù) 查看
STM32H743XIH6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無數(shù)據(jù) 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜