亚洲中文字幕AⅤ,人与动人物XXXX毛片,国产精品视频综合区

“履霜，堅冰至；履霜堅冰，陰始凝也”。馴致其道，至堅冰也。最初A100和H100被禁，有了A800和H800，然后A800和H800也被禁止了，再之后消費級的RTX4090也被禁止了。雖然RTX8090顯卡仍可以銷售，但RTX4090的芯片被禁止了，換句話說以后RTX4090只有進口的了，幾年前如果有人說RTX4090芯片會被禁止，肯定會被嗤之以鼻，不可能，但現(xiàn)在確實發(fā)生了。

北京時間2023年10月17日晚間，美國政府公布了《臨時最終規(guī)則》，對于高性能計算芯片對華出口限制規(guī)則進行了升級，該規(guī)則將于11月17日生效。10月18日，英偉達（NVIDIA）依照上市公司規(guī)則提交了“8-K文件”，對于與其相關(guān)的限制政策及影響進行了說明。

美國商務(wù)部工業(yè)與安全局（BIS）最新公布的《臨時最終規(guī)則》修訂了ECCN 3A090和4A090，并對向中國和國家組D1、D4、D4和D5（包括但不限于沙特阿拉伯、阿拉伯聯(lián)合酋長國和越南，但不包括以色列）的出口，規(guī)定了額外的許可證要求。原始文件有295頁，相信大部分人都沒仔細看一遍。

根據(jù)修訂后的ECCN 3A090、4A090新規(guī)，對高性能計算芯片做了限制：

增加了“性能密度閾值”的判定，與之相關(guān)的是改用“總體處理性能”（TPP，Total ProcessingPerformance）以代替此前傳統(tǒng)的算力單位TOPS。在現(xiàn)有新規(guī)下，算力大于一定閾值，或算力與性能密度同時分別達到某一閾值，都將觸發(fā)出口管制。

“總處理性能”TPP的計算方式為2×“MacTOPS”×“操作的位長度”，“性能密度”為“總處理性能”除以“適用的芯片單元（die）面積”。對于美國現(xiàn)有規(guī)定而言，“適用的芯片單元面積”以平方毫米為單位。其中，die（晶片）指的是包含一個或多個集成電路（IC）的單塊半導(dǎo)體材料。它是在制造過程中從更大的晶圓中切割出來的單個片段。然后通常會將這個晶片封裝到芯片載體中。

如果相關(guān)芯片設(shè)計及銷售不用于數(shù)據(jù)中心，其限制閾值是“總體處理性能”大于等于4800，或總處理性能大于等于1600且“性能密度”達到5.92；如果相關(guān)芯片用于數(shù)據(jù)中心，其“總體處理性能”介于2400至4800之間，且“性能密度”介于1.6至5.92之間，或“總體處理性能”高于1600，且“性能密度”介于3.2至5.92之間，均會觸發(fā)出口管制。

這里的性能密度PD（Performance Density）指的是TPP指標除以芯片面積(單位：mm2)，這里所指的芯片面積包括邏輯運算芯片所占的所有面積，也包括使用非平面晶體管架構(gòu)工藝節(jié)點制造的邏輯芯片。

美國還表示，將制定一份新的“灰名單”，要求某些不太先進芯片的制造商在向中國、伊朗或其他受到美國武器禁運的國家（D:5國家組）出售芯片時通知政府。

INTRODUCING ORIN

圖片來源：英偉達

而Orin最高是275TOPS@INT8，即2*275*8=4400，Orin有多個版本，國內(nèi)版本一般Orin是254TOPS。

圖片來源：英偉達

這是國內(nèi)最常見的，型號可能是Orin T239，其TPP為2*254*8=4064。最關(guān)鍵的就是Orin的die size了，英偉達未公開過，但英偉達公布過Orin的制造工藝和晶體管數(shù)量，從中可以大致推算出其die size。此外，https://twitter.com/SkyJuice60/status/1539489608047955969里說Orin的die size是445平方毫米，4064/445=9.13，顯然高于5.92了。不過BIS文件里寫明是原始計算模式，像英偉達Orin的GPU，其原始計算模式是FP32，算力僅為5.2TOPS，INT8模式下才167TOPS。所以TPP應(yīng)該是2*87*8+2*5.2*32=1724.8，那么密度為1724.8/445=3.36，似乎是過關(guān)了。不過Orin的die size到底是多大？

Orin采用三星的8納米LPP工藝，三星在2018年的VLSI大會上對8納米LPP工藝做了說明，https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/，為了降低成本，三星的8納米LPP沒有采用EUV光刻機。

圖片來源：三星

三星沒有明確指出8納米LPP的晶體管密度是多少，不過給出了UHD的密度是61.18百萬晶體管/平方毫米，文章里有一句話“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是說8納米LPP就是UHD，Orin是170億晶體管，如果密度是65.18百萬晶體管/平方毫米，那么其die size就是17000/65.18=260.8平方毫米，1724.8/260.8=6.61，顯然超過了5.92的上限。不過這個密度只是理論值，實際會有打折，大致會有10-20%的折扣，如果是10%的折扣那么性能密度值就是5.95。

英偉達下一代車載SoC即Thor肯定滿足第一項。

Thor最大算力是2000TOPS@INT8，即2*2000*8=16000，遠超TPP規(guī)定的4800的閾值。但Thor的細節(jié)還不為人知，應(yīng)該接近英偉達的H100，應(yīng)該還是近似Orin的配置，一半算力由CUDA核提供，一半由TENSOR提供，無論如何也會超過4000，更何況其是臺積電5nm或4nm工藝，晶體管密度至少是1.24億個/平方毫米，肯定會超過5.92上限。

高通的SA8650據(jù)說是100TOPS@INT8算力，TPP就是1600，且SA8650是臺積電4nm工藝，4LPE晶體管密度是1.36億個/平方毫米，遠超三星的8納米?？隙〞^5.92上限，不過這很好解決，將AI頻率略微降低一點就可以低于1600。

短期內(nèi)，Orin應(yīng)該沒有問題，或者處在灰色地帶；Thor也可以更改設(shè)計，降低算力或采用比較落后的制造工藝，后者可能導(dǎo)致成本大漲，甚至無法實現(xiàn)，單一芯片光刻面積一般無法超過880平方毫米。

如果Thor被禁止，如何取得1000TOPS以上算力，很多人會提起多個Orin級聯(lián)。

不過沒那么簡單，4個Orin級聯(lián)就是4倍算力，實際遠遠做不到。

圖片來源：英偉達

這是英偉達的DGX-H100拓撲，連接了8張H100卡。

要想8張H100就算力翻倍，需要復(fù)雜的網(wǎng)絡(luò)拓撲，包括英偉達的獨門武器NVLink，還需要PCIe交換機。NVLink是顯卡之間點對點連接，連接CPU還需要PCIe交換機。

PCIe與NVLINK的對比

來源：公開資料整理

PCIe與NVLINK實際兩者是一樣的技術(shù)，NVLINK的物理層與PCIe一致，但NVLINK無需考慮各個廠家之間的互聯(lián)互通，所以不斷增加lane數(shù)量。所以x18的NVLink 3.0，數(shù)據(jù)速率25 Gbit/s，雙工50Gbit/s，總帶寬就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是單通道兩對差分線，一對發(fā)送一對接收。PCIe 5.0信號速率32GT/s，128/130b，x16單向帶寬就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理論上，對于實現(xiàn)全雙工的PCIe設(shè)備，可以提供126GB/s的雙向帶寬。單單從信號線路數(shù)量來說，x16的PCIe和x2的NVLink是相同的，都是32對差分線。x2的NVLink 3.0雙向帶寬是100 GB/s，比PCIe 5.0 x16的126 GB/s要低。NVLink犧牲了功耗換來了高帶寬。

除非Orin能用上NVLink，否則做不到4個級聯(lián)就增加4倍算力。不過，Orin自然是不支持NVLink，只能退而求其次用PCIe，Orin有4代PCIe接口，16 lane，也就是最高32GB/s帶寬，和NVLink高達900GB/s的帶寬比差距巨大。然而，即使是PCIe交換機也有一個麻煩，那就是PCIe交換機價格很高，64lane的PCIe交換機大約350美元。這樣4個Orin通過PCIe級聯(lián)，大概能有2-2.5倍的算力。當然也可以用便宜的以太網(wǎng)交換機，不過帶寬通常只有1.25GB/s，用這樣的以太網(wǎng)交換機連接4個Orin，實際效果估計算力增加很少，因為AI計算極度消耗帶寬。

要解決問題，還是得靠自己，不能把命運放在別人手中。

免責說明：本文觀點和數(shù)據(jù)僅供參考，和實際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點、數(shù)據(jù)僅代表筆者立場，不具有任何指導(dǎo)、投資和決策意見。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
STM32F407VGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下載ECAD模型	$20.39	查看
FT232RQ-TRAY	1	FTDI Chip	USB Bus Controller, CMOS, 5 X 5 MM, GREEN, QFN-32	ECAD模型下載ECAD模型	$4.5	查看
AT90CAN128-16AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP		$8.98	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風險等級

參考價格

更多信息

STM32F407VGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC