“履霜,堅冰至;履霜堅冰,陰始凝也”。馴致其道,至堅冰也。最初A100和H100被禁,有了A800和H800,然后A800和H800也被禁止了,再之后消費級的RTX4090也被禁止了。雖然RTX8090顯卡仍可以銷售,但RTX4090的芯片被禁止了,換句話說以后RTX4090只有進口的了,幾年前如果有人說RTX4090芯片會被禁止,肯定會被嗤之以鼻,不可能,但現(xiàn)在確實發(fā)生了。
北京時間2023年10月17日晚間,美國政府公布了《臨時最終規(guī)則》,對于高性能計算芯片對華出口限制規(guī)則進行了升級,該規(guī)則將于11月17日生效。10月18日,英偉達(NVIDIA)依照上市公司規(guī)則提交了“8-K文件”,對于與其相關(guān)的限制政策及影響進行了說明。
美國商務(wù)部工業(yè)與安全局(BIS)最新公布的《臨時最終規(guī)則》修訂了ECCN 3A090和4A090,并對向中國和國家組D1、D4、D4和D5(包括但不限于沙特阿拉伯、阿拉伯聯(lián)合酋長國和越南,但不包括以色列)的出口,規(guī)定了額外的許可證要求。原始文件有295頁,相信大部分人都沒仔細看一遍。
根據(jù)修訂后的ECCN 3A090、4A090新規(guī),對高性能計算芯片做了限制:
增加了“性能密度閾值”的判定,與之相關(guān)的是改用“總體處理性能”(TPP,Total ProcessingPerformance)以代替此前傳統(tǒng)的算力單位TOPS。在現(xiàn)有新規(guī)下,算力大于一定閾值,或算力與性能密度同時分別達到某一閾值,都將觸發(fā)出口管制。
“總處理性能”TPP的計算方式為2דMacTOPS”ד操作的位長度”,“性能密度”為“總處理性能”除以“適用的芯片單元(die)面積”。對于美國現(xiàn)有規(guī)定而言,“適用的芯片單元面積”以平方毫米為單位。其中,die(晶片)指的是包含一個或多個集成電路(IC)的單塊半導(dǎo)體材料。它是在制造過程中從更大的晶圓中切割出來的單個片段。然后通常會將這個晶片封裝到芯片載體中。
如果相關(guān)芯片設(shè)計及銷售不用于數(shù)據(jù)中心,其限制閾值是“總體處理性能”大于等于4800,或總處理性能大于等于1600且“性能密度”達到5.92;如果相關(guān)芯片用于數(shù)據(jù)中心,其“總體處理性能”介于2400至4800之間,且“性能密度”介于1.6至5.92之間,或“總體處理性能”高于1600,且“性能密度”介于3.2至5.92之間,均會觸發(fā)出口管制。
這里的性能密度PD(Performance Density)指的是TPP指標除以芯片面積(單位:mm2),這里所指的芯片面積包括邏輯運算芯片所占的所有面積,也包括使用非平面晶體管架構(gòu)工藝節(jié)點制造的邏輯芯片。
美國還表示,將制定一份新的“灰名單”,要求某些不太先進芯片的制造商在向中國、伊朗或其他受到美國武器禁運的國家(D:5國家組)出售芯片時通知政府。
INTRODUCING ORIN
圖片來源:英偉達
而Orin最高是275TOPS@INT8,即2*275*8=4400,Orin有多個版本,國內(nèi)版本一般Orin是254TOPS。
圖片來源:英偉達
這是國內(nèi)最常見的,型號可能是Orin T239,其TPP為2*254*8=4064。最關(guān)鍵的就是Orin的die size了,英偉達未公開過,但英偉達公布過Orin的制造工藝和晶體管數(shù)量,從中可以大致推算出其die size。此外,https://twitter.com/SkyJuice60/status/1539489608047955969里說Orin的die size是445平方毫米,4064/445=9.13,顯然高于5.92了。不過BIS文件里寫明是原始計算模式,像英偉達Orin的GPU,其原始計算模式是FP32,算力僅為5.2TOPS,INT8模式下才167TOPS。所以TPP應(yīng)該是2*87*8+2*5.2*32=1724.8,那么密度為1724.8/445=3.36,似乎是過關(guān)了。不過Orin的die size到底是多大?
Orin采用三星的8納米LPP工藝,三星在2018年的VLSI大會上對8納米LPP工藝做了說明,https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/,為了降低成本,三星的8納米LPP沒有采用EUV光刻機。
圖片來源:三星
三星沒有明確指出8納米LPP的晶體管密度是多少,不過給出了UHD的密度是61.18百萬晶體管/平方毫米,文章里有一句話“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是說8納米LPP就是UHD,Orin是170億晶體管,如果密度是65.18百萬晶體管/平方毫米,那么其die size就是17000/65.18=260.8平方毫米,1724.8/260.8=6.61,顯然超過了5.92的上限。不過這個密度只是理論值,實際會有打折,大致會有10-20%的折扣,如果是10%的折扣那么性能密度值就是5.95。
英偉達下一代車載SoC即Thor肯定滿足第一項。
Thor最大算力是2000TOPS@INT8,即2*2000*8=16000,遠超TPP規(guī)定的4800的閾值。但Thor的細節(jié)還不為人知,應(yīng)該接近英偉達的H100,應(yīng)該還是近似Orin的配置,一半算力由CUDA核提供,一半由TENSOR提供,無論如何也會超過4000,更何況其是臺積電5nm或4nm工藝,晶體管密度至少是1.24億個/平方毫米,肯定會超過5.92上限。
高通的SA8650據(jù)說是100TOPS@INT8算力,TPP就是1600,且SA8650是臺積電4nm工藝,4LPE晶體管密度是1.36億個/平方毫米,遠超三星的8納米??隙〞^5.92上限,不過這很好解決,將AI頻率略微降低一點就可以低于1600。
短期內(nèi),Orin應(yīng)該沒有問題,或者處在灰色地帶;Thor也可以更改設(shè)計,降低算力或采用比較落后的制造工藝,后者可能導(dǎo)致成本大漲,甚至無法實現(xiàn),單一芯片光刻面積一般無法超過880平方毫米。
如果Thor被禁止,如何取得1000TOPS以上算力,很多人會提起多個Orin級聯(lián)。
不過沒那么簡單,4個Orin級聯(lián)就是4倍算力,實際遠遠做不到。
圖片來源:英偉達
這是英偉達的DGX-H100拓撲,連接了8張H100卡。
要想8張H100就算力翻倍,需要復(fù)雜的網(wǎng)絡(luò)拓撲,包括英偉達的獨門武器NVLink,還需要PCIe交換機。NVLink是顯卡之間點對點連接,連接CPU還需要PCIe交換機。
PCIe與NVLINK的對比
來源:公開資料整理
PCIe與NVLINK實際兩者是一樣的技術(shù),NVLINK的物理層與PCIe一致,但NVLINK無需考慮各個廠家之間的互聯(lián)互通,所以不斷增加lane數(shù)量。所以x18的NVLink 3.0,數(shù)據(jù)速率25 Gbit/s,雙工50Gbit/s,總帶寬就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是單通道兩對差分線,一對發(fā)送一對接收。PCIe 5.0信號速率32GT/s,128/130b,x16單向帶寬就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理論上,對于實現(xiàn)全雙工的PCIe設(shè)備,可以提供126GB/s的雙向帶寬。單單從信號線路數(shù)量來說,x16的PCIe和x2的NVLink是相同的,都是32對差分線。x2的NVLink 3.0雙向帶寬是100 GB/s,比PCIe 5.0 x16的126 GB/s要低。NVLink犧牲了功耗換來了高帶寬。
除非Orin能用上NVLink,否則做不到4個級聯(lián)就增加4倍算力。不過,Orin自然是不支持NVLink,只能退而求其次用PCIe,Orin有4代PCIe接口,16 lane,也就是最高32GB/s帶寬,和NVLink高達900GB/s的帶寬比差距巨大。然而,即使是PCIe交換機也有一個麻煩,那就是PCIe交換機價格很高,64lane的PCIe交換機大約350美元。這樣4個Orin通過PCIe級聯(lián),大概能有2-2.5倍的算力。當然也可以用便宜的以太網(wǎng)交換機,不過帶寬通常只有1.25GB/s,用這樣的以太網(wǎng)交換機連接4個Orin,實際效果估計算力增加很少,因為AI計算極度消耗帶寬。
要解決問題,還是得靠自己,不能把命運放在別人手中。
免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。