国产人无码A在线西瓜影音,男生一般怎么处理晨勃

今年1月，英特爾正式發(fā)布了第四代英特爾至強(qiáng)可擴(kuò)展處理器（代號(hào)Sapphire Rapids）。日前，英特爾市場營銷集團(tuán)副總裁、中國區(qū)數(shù)據(jù)中心銷售總經(jīng)理兼中國區(qū)運(yùn)營商銷售總經(jīng)理莊秉翰、及英特爾多位技術(shù)專家，從本地實(shí)踐應(yīng)用案例入手，詳細(xì)解讀了第四代至強(qiáng)可擴(kuò)展處理器的技術(shù)特性及價(jià)值。

“東數(shù)西算”引導(dǎo)下，IT市場大有可為

聚焦數(shù)據(jù)中心和基礎(chǔ)設(shè)施建設(shè)方向，我國去年推出了“東數(shù)西算”重要戰(zhàn)略，強(qiáng)調(diào)算力的平衡、以及可持續(xù)性的發(fā)展。莊秉翰談到，“東數(shù)西算”對(duì)數(shù)據(jù)中心進(jìn)行合理分布，再通過高速網(wǎng)絡(luò)，可以把東西部的數(shù)據(jù)資源和數(shù)據(jù)中心很合理地結(jié)合在一起，從而達(dá)到數(shù)據(jù)中心和IT產(chǎn)業(yè)的持續(xù)增長。他認(rèn)為“東數(shù)西算”作為國家級(jí)的整體戰(zhàn)略，在政府指導(dǎo)下，在運(yùn)營商、互聯(lián)網(wǎng)廠商等共同協(xié)作下將發(fā)揮有力作用。

莊秉翰認(rèn)為，今年下半年市場有望出現(xiàn)正向的回暖跡象，我國在IT方面的支出也會(huì)比去年有所增加，“東數(shù)西算”戰(zhàn)略將大有可為。

“加速器”成為新一代CPU重要趨勢

第四代至強(qiáng)可擴(kuò)展處理器是一個(gè)高度創(chuàng)新的平臺(tái)，采用Intel 7制程工藝制造，擁有全新的芯片架構(gòu)。通過集成高性能核、更多內(nèi)核數(shù)量、業(yè)內(nèi)高需求的數(shù)據(jù)中心工作負(fù)載的相關(guān)加速器，以及業(yè)界領(lǐng)先的DDR5、CXL1.1、PCIe 5.0等，致力于讓加速無所不在。

“加速器”是第四代至強(qiáng)可擴(kuò)展處理器最突出的創(chuàng)新點(diǎn)。目前，在數(shù)據(jù)中心常用的工作負(fù)載中，大數(shù)據(jù)、數(shù)據(jù)庫、網(wǎng)絡(luò)、人工智能等帶來了全新功能。通過融入加速器，可以更高效、更低能耗地處理這些工作負(fù)載。莊秉翰指出，以前如果要處理一個(gè)工作負(fù)載，可能需要多個(gè)核，而在第四代至強(qiáng)可擴(kuò)展處理器平臺(tái)上，通過加速器，有可能只用一個(gè)核或部分核就可以處理很復(fù)雜的業(yè)務(wù)。

英特爾技術(shù)專家也表示，CPU的發(fā)展一度是核心數(shù)量越變?cè)蕉?、主頻越變?cè)礁?。但是隨著數(shù)據(jù)中心應(yīng)用需求的演變，有時(shí)候需要做一些壓縮/解壓縮、加/解密，或者會(huì)有內(nèi)存搬移的工作。對(duì)于這些工作負(fù)載來說，增加CPU核心并不一定是高效的，反而是專有的加速器更高效。與此同時(shí)，通過增加加速器，可以提升每瓦性能，提升能效比。

至于內(nèi)置和外置加速器有什么區(qū)別，對(duì)英特爾來說有什么難度和挑戰(zhàn)？英特爾技術(shù)專家表示，如果是外置的加速器，可以通過類似PCIe卡的形態(tài)實(shí)現(xiàn)。而內(nèi)置加速器雖然挑戰(zhàn)更大，但是可以帶來如下好處：首先是可以節(jié)約功耗，因?yàn)镻CIe卡的功耗還是很高的。第二，加速器內(nèi)置在CPU里面，離內(nèi)存更近，可以實(shí)現(xiàn)大幅的性能提升。

不過，增加加速器的同時(shí)，一方面增加了CPU設(shè)計(jì)的難度，會(huì)對(duì)設(shè)計(jì)、驗(yàn)證的時(shí)間有一些影響；另一方面，由于每一個(gè)硬件加速器都要和廣大的產(chǎn)業(yè)伙伴或終端用戶進(jìn)行適配，需要英特爾充分發(fā)揮在業(yè)內(nèi)的影響力，在整個(gè)生態(tài)系統(tǒng)去構(gòu)建對(duì)加速器的支持，才能保證加速器在上市的同時(shí)就有大量的軟件去進(jìn)行支撐。據(jù)介紹，英特爾為了解決加速器帶來的開發(fā)和應(yīng)用挑戰(zhàn)，也在強(qiáng)調(diào)使用Chiplet的設(shè)計(jì)理念，I/O die也將會(huì)和Core die做分解，來幫助業(yè)界應(yīng)對(duì)挑戰(zhàn)。

此外，莊秉翰強(qiáng)調(diào)，隨著算力市場的需求越來越多，傳統(tǒng)的虛機(jī)依然存在很大需求。因此未來CPU的目標(biāo)，除了對(duì)傳統(tǒng)的虛機(jī)性能進(jìn)一步提升之外，也會(huì)基于對(duì)多核需求的場景，更有針對(duì)性地進(jìn)行開發(fā)。

“算力神器”詳解和應(yīng)用案例

第四代至強(qiáng)可擴(kuò)展處理器具備眾多內(nèi)置加速器，包括AMX、IAA、DLB、DSA、QAT等“七大算力神器”，可提高AI、數(shù)據(jù)分析、網(wǎng)絡(luò)、存儲(chǔ)和科學(xué)計(jì)算等眾多的性能。值得一提的是，英特爾在MWC 2023期間，發(fā)布集成vRAN Boost的第四代至強(qiáng)可擴(kuò)展處理器，它可以將物理層加速功能完全集成到芯片中，而無需外置加速卡，從而使得運(yùn)營商能夠在通用虛擬化平臺(tái)上整合所有基站層，帶來很大的性價(jià)比提升。

AMX將進(jìn)一步提升 AI 性能

據(jù)英特爾技術(shù)專家介紹，第四代至強(qiáng)可擴(kuò)展處理器內(nèi)置了全新的英特爾高級(jí)矩陣擴(kuò)展（AMX）。它是首次在CPU平臺(tái)上應(yīng)用的矩陣運(yùn)算單元，支持兩種數(shù)據(jù)精度：8bit整型數(shù)據(jù)（INT8）和16bit浮點(diǎn)數(shù)據(jù)（即BF16）。人工智能通常有兩種運(yùn)算場景，一種是訓(xùn)練，即根據(jù)數(shù)據(jù)不斷迭代出一個(gè)模型；另一種場景是推理，就是基于已有模型，針對(duì)場景做出一個(gè)判斷。訓(xùn)練時(shí)模型的數(shù)據(jù)精度要得到保證，通常需要BF16以上的數(shù)據(jù)精度進(jìn)行運(yùn)算；而對(duì)于推理來說，由于運(yùn)算量相對(duì)較小，通常INT8就可以滿足要求。

以阿里的應(yīng)用為例，英特爾技術(shù)專家分享了雙方是如何展開合作，特別是基于第四代至強(qiáng)可擴(kuò)展處理器的AMX單元實(shí)現(xiàn)了整體的性能提升。

首先是地址標(biāo)準(zhǔn)化，一個(gè)典型應(yīng)用就是淘寶用戶在增加新的收貨地址時(shí)，淘寶系統(tǒng)會(huì)不斷給出提示，最終幫助用戶定位到某一地址。這個(gè)業(yè)務(wù)涉及到語義分析，在淘寶中的應(yīng)用相當(dāng)廣泛，每天有著千萬級(jí)的服務(wù)量。而評(píng)價(jià)該業(yè)務(wù)的關(guān)鍵性能指標(biāo)是單位時(shí)間內(nèi)查詢數(shù)，希望每秒能夠提供查詢的數(shù)量越多越好。

以這個(gè)需求為導(dǎo)向，英特爾與阿里展開合作，基于AMX INT8數(shù)據(jù)類型的精度，同時(shí)輔以軟件優(yōu)化手段（例如軟件運(yùn)算時(shí)的層級(jí)融合技術(shù)，以及英特爾開發(fā)的高性能運(yùn)算優(yōu)化庫），最終實(shí)現(xiàn)了比第三代Ice Lake整機(jī)2.48倍的性能提升。

第二個(gè)優(yōu)化案例是手機(jī)淘寶APP為客戶推薦的定制化首頁。這個(gè)業(yè)務(wù)的服務(wù)量更為龐大，每天服務(wù)請(qǐng)求數(shù)高達(dá)億次?；贏MX BF16數(shù)據(jù)類型的精度，同時(shí)結(jié)合軟件優(yōu)化、操作融合，以及在AVX-512的深入調(diào)優(yōu)，最終性能達(dá)到了原來的3倍。

第三個(gè)優(yōu)化案例是由太極機(jī)器學(xué)習(xí)平臺(tái)支撐的搜索和廣告業(yè)務(wù)，其對(duì)性能指標(biāo)有兩方面要求：首先是能夠滿足的搜索次數(shù)越多越好；其次是搜索的延時(shí)要小于5毫秒。與前面兩個(gè)部署在物理機(jī)上的應(yīng)用實(shí)例不同，該業(yè)務(wù)部署在騰訊云上。由于客戶的云服務(wù)實(shí)例有高精度和低精度兩種，高精度實(shí)例就可以采用BF16進(jìn)行數(shù)據(jù)處理，低精度實(shí)例就可以選擇INT8數(shù)據(jù)處理。經(jīng)過優(yōu)化，最終不僅降低了對(duì)云服務(wù)實(shí)例CPU數(shù)量的需求，同時(shí)性能上也得到了提升（高精實(shí)例性能是原來的3倍，低精實(shí)例性能是原來的2倍）。

結(jié)合現(xiàn)在非?；鸬?a class="article-link" target="_blank" href="/tag/AIGC/">AIGC應(yīng)用，英特爾技術(shù)專家表示，Stable Diffusion正在驅(qū)動(dòng)業(yè)務(wù)創(chuàng)新和模型創(chuàng)新，它作為一種深度學(xué)習(xí)模型，有兩個(gè)典型的應(yīng)用場景：一是輸入文本生成高清圖片，二是輸入圖片和提示詞生成另外一個(gè)圖片。這一類生成式模型，不論Stable Diffusion還是熱度更高的大語言模型，從技術(shù)角度來說，其中大量使用了注意力機(jī)制，特別是在Stable Diffusion中，注意力機(jī)制的占比較高，通?？梢赃_(dá)到50%-80%。

而這個(gè)注意力機(jī)制其實(shí)主要包括了矩陣相乘運(yùn)算和大量的指數(shù)運(yùn)算。在這類應(yīng)用中，AMX BF16可以加速矩陣計(jì)算，AVX-512指令可以加速指數(shù)計(jì)算。在使用英特爾PyTorch擴(kuò)展插件的情況下，可以在512×512這類圖生成上，獲得3.82倍的吞吐提升；在720P上，可以獲得5.26倍的吞吐提升。

目前人工智能OCR/文本識(shí)別領(lǐng)域（例如醫(yī)療領(lǐng)域票據(jù)的識(shí)別、用于交通領(lǐng)域車牌和路標(biāo)的識(shí)別、以及卷宗電子化等應(yīng)用），都可以引入AMX進(jìn)行軟硬件方面的優(yōu)化，實(shí)現(xiàn)數(shù)倍的性能提升。

針對(duì)大數(shù)據(jù)和內(nèi)存應(yīng)用的IAA和DSA

IAA（In-Memory Analytics Accelerator），顧名思義是針對(duì)大數(shù)據(jù)、內(nèi)存分析類型等數(shù)據(jù)場景，例如數(shù)據(jù)的解壓、查詢、過濾等，都可以交由加速器完成，從而釋放CPU的計(jì)算資源，發(fā)揮整體計(jì)算的最大性能，提升能效比。

國內(nèi)互聯(lián)網(wǎng)廠商、云廠商等應(yīng)用較多的Clickhouse，在針對(duì)大數(shù)據(jù)分析的應(yīng)用實(shí)例中，一度有一個(gè)痛點(diǎn)，就是對(duì)數(shù)據(jù)進(jìn)行壓縮/解壓縮的同時(shí)，勢必會(huì)帶來性能損失，因?yàn)檫@個(gè)過程會(huì)占用CPU資源，基于此，就可以用IAA的壓縮/解壓縮功能去進(jìn)行加速。

通過在Clickhouse中加入支持IAA -Deflate的插件，從而實(shí)現(xiàn)了IAA功能。目前這部分功能已經(jīng)在社區(qū)開源，便于業(yè)界應(yīng)用Clickhouse的最新功能。

DSA全稱是Data Streaming Accelerator，這個(gè)加速器旨在加速針對(duì)內(nèi)存的搬移和傳輸?shù)裙ぷ鳎瑥亩梢詫PU核心資源釋放出來，去做更多業(yè)務(wù)上的場景。目前英特爾有自己的軟件庫DML，同時(shí)業(yè)界廣泛應(yīng)用的DPDK、SPDK等軟件，都已經(jīng)集成了DSA。

英特爾技術(shù)專家還分享了數(shù)據(jù)中心業(yè)務(wù)中大范圍應(yīng)用的數(shù)據(jù)服務(wù)類應(yīng)用，包括內(nèi)存數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)分析、數(shù)據(jù)倉庫等，以及基于數(shù)據(jù)服務(wù)類應(yīng)用之上的企業(yè)關(guān)鍵業(yè)務(wù)系統(tǒng)，比如ERP、SCM和CRM系統(tǒng)等，它們的性能都非常依賴于底層硬件平臺(tái)的支撐。

在大數(shù)據(jù)分析的應(yīng)用中，因?yàn)閷?duì)性能有比較高的要求，因此越來越傾向于把數(shù)據(jù)都緩存在內(nèi)存中，這實(shí)際對(duì)內(nèi)存的帶寬帶來非常高的要求。比如大數(shù)據(jù)分析中常見的SPARK應(yīng)用，在CPU核性能提升的情況下，內(nèi)存帶寬往往是瓶頸。

因此，第四代至強(qiáng)可擴(kuò)展處理器將內(nèi)存從DDR4升級(jí)到DDR5，得到了50%的內(nèi)存帶寬的提升。此外，從PCIe 4.0提升到PCIe 5.0，帶來了兩倍的I/O帶寬提升；而除了CPU核數(shù)提升之外，CPU單核性能也進(jìn)行了優(yōu)化，提高了CPU各級(jí)緩存的大小。

通過這些CPU內(nèi)核的升級(jí)，根據(jù)多種應(yīng)用的平均值，總體實(shí)現(xiàn)了15%的單核性能提升。除此之外，利用DSA加速器，在處理大的數(shù)據(jù)報(bào)文的時(shí)候，可以達(dá)到1.6倍的性能提升、以及37%的延時(shí)降低。在應(yīng)用QAT加速時(shí)，對(duì)于數(shù)據(jù)壓縮場景，可以達(dá)到2倍的壓縮吞吐提升，同時(shí)帶來95%核占用率的降低。

國內(nèi)的并行數(shù)據(jù)庫廠商Gbase，其旗艦產(chǎn)品Gbase 8a在業(yè)內(nèi)的分析型數(shù)據(jù)庫評(píng)測TPC-DS中，排名世界第三。Gbase 8a專門針對(duì)第四代至強(qiáng)可擴(kuò)展處理器的IAA加速器進(jìn)行了優(yōu)化，相比第三代Ice Lake，基于兩種不同的加速算法：一是南大通用自研的壓縮算法RapidZ，也是Gbase 8a默認(rèn)的壓縮算法，在沒有任何加速器優(yōu)化的情況下，可以獲得1.58倍的性能提升；對(duì)另一種業(yè)內(nèi)常用的壓縮算法ZSTD，在沒有進(jìn)行加速器優(yōu)化的情況下，可獲得1.64倍的性能提升。

在此基礎(chǔ)上如果使用IAA加速器，對(duì)于ZSTD可獲得1.84倍的性能提升，并且可以達(dá)到與ZSTD相似的壓縮率；而相對(duì)于Gbase 8a默認(rèn)的壓縮算法RapidZ來說，性能提升則是1.66倍。同時(shí)，RapidZ為了追求高性能，在壓縮率上做了一些犧牲，而基于第四代至強(qiáng)可擴(kuò)展處理器，可以在保持較高性能提升的基礎(chǔ)上，壓縮率提高1.51倍。

此外，還有Microsoft SQL Server，通過第四代至強(qiáng)可擴(kuò)展處理器的QAT加速器用于數(shù)據(jù)的壓縮、解壓縮、加解密等，可以使備份時(shí)間降低至小于原來1/3的時(shí)間，同時(shí)該服務(wù)器基于第四代至強(qiáng)可擴(kuò)展處理器，還可獲得1.34倍的性能提升。

寫在最后

盡管英特爾至強(qiáng)系列面向的是通用市場，但是，針對(duì)千行百業(yè)、越來越細(xì)分的計(jì)算場景，英特爾通過內(nèi)置豐富的加速器來提供更有針對(duì)性、更為差異化的加速功能，來應(yīng)對(duì)不同的應(yīng)用負(fù)載需求。

此外在軟件方面，英特爾也在加大開源領(lǐng)域的投入，通過優(yōu)化通用軟件，讓上層應(yīng)用更為容易，為更多計(jì)算工作賦能。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
AT89C51CC03UA-RDTUM	1	Atmel Corporation	Microcontroller, 8-Bit, FLASH, 8051 CPU, 60MHz, CMOS, PQFP64, GREEN, VQFP-64	ECAD模型下載ECAD模型	$9.5	查看
MK60DN512VMC10	1	Freescale Semiconductor	Kinetis K 32-bit MCU, ARM Cortex-M4 core, 512KB Flash, 100MHz, Ethernet, MAPBGA 121		$10.69	查看
DSPIC30F6014A-30I/PT	1	Microchip Technology Inc	16-BIT, FLASH, 30 MHz, RISC MICROCONTROLLER, PQFP80, 12 X 12 MM, 1 MM HEIGHT, PLASTIC, MS-026, TQFP-80	ECAD模型下載ECAD模型	$12	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

AT89C51CC03UA-RDTUM

Atmel Corporation

Microcontroller, 8-Bit, FLASH, 8051 CPU, 60MHz, CMOS, PQFP64, GREEN, VQFP-64