在半導(dǎo)體行業(yè)的某些領(lǐng)域,少數(shù)公司的壟斷已成為常態(tài),特別是代工業(yè)務(wù)領(lǐng)域中TSMC和AI芯片中的Nvidia。憑借著為自己創(chuàng)造的絕對優(yōu)勢,這兩個巨頭幾乎沒有留給競爭對手任何可操作的空間。?
這個行業(yè)是如何走到今天這種局面的呢?
Nvidia是控制著對AI進步至關(guān)重要的軟件和硬件的歌利亞,而其他的AI處理器和加速器公司就像手中沒有石子的大衛(wèi)。
然而,這個贏家通吃的AI硬件市場,并不是因為Nvidia的競爭對手們沒有足夠努力造成的結(jié)果。
事實上,許多AI硬件初創(chuàng)公司在吸引VC社區(qū)投資半導(dǎo)體硬件方面發(fā)揮了關(guān)鍵作用。投資者對AI日益增長的熱情最終導(dǎo)致了價值十億美元的AI硬件“獨角獸”的出現(xiàn)。
然而,這些初創(chuàng)公司沒有一個能撼動Nvidia的AI堡壘。
Nvidia如何建立起迄今為止無人能敵的領(lǐng)先地位是有據(jù)可查的。(可出門右轉(zhuǎn)閱讀本公眾號相關(guān)文章)
然而,我們到現(xiàn)在未談到的是,是否還有其他公司有機會嶄露頭角。這個階段的目標(biāo)不是取代Nvidia,而是至少在AI市場上開啟一個缺口。
Tenstorrent的Jim Keller去年在一次采訪中說:“我們不是要打敗Nvidia?!彼赋?,挑戰(zhàn)一個年收入超過250億美元的歌利亞是多么困難。(Nvidia去年第三季度的收入實際上是180億美元。)
開源??
面對這樣的數(shù)字,競爭對手該怎么辦?
如果Tenstorrent的說法(每個人都想要一個Nvidia之外的選擇)成立,一種吸引AI開發(fā)者的方式是提供超越硬件的東西,比如一個易于使用的開源軟件堆棧,即Nvidia Cuda的替代品。
本周,Tenstorrent宣布其內(nèi)核級軟件堆棧TT-Metalium開源。
Tenstorrent的高級研究員Jasmina Vasiljevic將TT-Metalium描述為“在抽象級別上完全可與Nvidia的Cuda或OpenCL比肩”。然而,Tenstorrent并沒有打算讓TT-Metalium來取代Nvidia的Cuda。她解釋道:“這是一個低級別編程模型,它使開發(fā)者能夠在Tenstorrent硬件上指令程序內(nèi)核,并獲得對公司所有硬件的完全訪問權(quán)。”
該公司解釋說,該舉措旨在吸引那些希望編寫高效代碼并且可以不受限地訪問硬件的AI和HPC開發(fā)者。
與Cuda這種閉源的并行計算平臺和API不同,Tenstorrent希望新的TT-Metalium能夠因其易用性而脫穎而出。引用Jim Keller的話,Vasiljevic表示,“Jim的高層策略之一是開源?!?/p>
爭奪開發(fā)者的心智份額??
然而,Tenstorrent面臨的困境不僅僅是Cuda這種編程語言。Cuda是Nvidia耗時多年開發(fā)的一套庫、工具和框架的簡稱。在許多方面,TT-Metalium的公告展示了許多AI硬件初創(chuàng)公司面臨的不可能情況。一方面,他們必須通過盡可能多地銷售硬件單元來盈利。此外,除非他們能向開發(fā)者證明他們能在Nvidia基于GPU的AI上更勝一籌,否則便無法打動市場。
Tenstorrent需要證明,其硬件不僅更加強大和高效,而且更靈活的“開源”編程模型和硬件架構(gòu)能夠滿足AI開發(fā)者的需求。
Tenstorrent的首席客戶官David Bennett堅持認為,一些機器學(xué)習(xí)和高性能計算開發(fā)者開始對Nvidia感到厭倦。
為了從新模型中獲得最佳性能,開發(fā)者需要排隊,并且強烈依賴Nvidia以獲得對硬件的完全訪問權(quán)。他們必須應(yīng)對Cuda“復(fù)雜的API或封閉的特性”。
Bennett看到了Tenstorrent的機會。但這不會容易。
許多AI和高性能計算開發(fā)者已經(jīng)使用Nvidia的工具鏈和軟件生態(tài)系統(tǒng),這為他們的所有需求提供了一站式服務(wù)。Tenstorrent面臨的問題是,通過招募大量軟件程序員來構(gòu)建適用于其硬件的預(yù)編寫代碼集合,能夠多快建立起自己的庫。
在TT-Metalium的公告中,Tenstorrent幾乎是順便提到,其機器學(xué)習(xí)處理器Grayskull現(xiàn)已上市。盡管Tenstorrent需要銷售Grayskull,但更緊迫的是將Grayskull開發(fā)者套件提供給盡可能多的AI開發(fā)者。Tenstorrent需要他們了解更多關(guān)于TT-Metalium的信息,并為這個開源項目做出貢獻。
硬件優(yōu)勢???
隨著生成式AI的出現(xiàn),行業(yè)分析師不再熱衷于特定的AI處理器或加速器架構(gòu)。Yole Intelligence的高級計算和軟件分析師John Lorenz說:“最近興起的AI應(yīng)用是由通用圖形處理單元(GPGPU)訓(xùn)練的。這種解決方案的靈活性(例如使用Nvidia Cuda)是相對于許多AI硬件初創(chuàng)公司追求的更定制化的芯片的一個大優(yōu)勢。”
Jon Peddie研究公司的總裁Jon Peddie表示,“任何專用的東西都無法與Nvidia的規(guī)模經(jīng)濟競爭。Nvidia向游戲玩家、汽車客戶、工程師、超算中心、電影制片廠以及AI研究者和開發(fā)者銷售GPU?!?/p>
Peddie解釋說,Nvidia在不同的封裝和系統(tǒng)中都實現(xiàn)了FLOP單位成本最低?!癎PU是一種通用處理器,擅長許多任務(wù)。一直以來,專用的應(yīng)用特定處理器(ASP)在性能上都會超過通用處理器。但ASP在可擴展性、價格方面都不是很友好,也無法與通用處理器的進化速度相匹配,當(dāng)然也無法與GPU這樣的處理器相比?!?/p>
然而,Tenstorrent相信它在硬件上處于獨特的位置。它的方法是將基于圖形計算的AI硬件與RISC-V計算內(nèi)核結(jié)合起來。通過增加RISC-V核,Tenstorrent打算提供一種具有靈活性的處理解決方案,支持未來的模型。Tenstorrent的AI處理基于數(shù)據(jù)流架構(gòu)。正如Tenstorrent的Bennett所解釋的,“如果出現(xiàn)一個新模型,可能在GPU上運行得不那么好,也許在傳統(tǒng)的CPU上運行得更好。有了RISC-V計算內(nèi)核,我們能夠支持它?!?/p>
AI加速器的API標(biāo)準(zhǔn)化?????
在半導(dǎo)體行業(yè)提供各種處理器選擇的同時,軟件開發(fā)者需要處理不同的API,迫使他們以不同方式編寫軟件,這種情況并不罕見。
一些行業(yè)觀察者將當(dāng)今AI市場的混亂與圖形社區(qū)最初面對眾多不同GPU時的情況進行比較。這種情況一直持續(xù)到微軟設(shè)計出Direct X,有效地促使各種軟件開發(fā)工作的整合。
一位Tenstorrent的發(fā)言人說,“如果你想為Windows編寫游戲或一些圖形密集型的內(nèi)容,你必須使用Direct X?!痹诘韧贒irect X的東西出現(xiàn)之前,AI軟件開發(fā)仍然是一個混亂的領(lǐng)域。像Tenstorrent這樣的每一家AI硬件公司都將依靠其自己的軟件版本。
因此統(tǒng)一不同編程工作的希望,便指向了像Khronos Group的OpenCL和Intel的OneAPI這樣的例子。
OpenCL????????????
Nvidia的開發(fā)者生態(tài)系統(tǒng)副總裁兼Khronos Group和Metaverse Standards Forum Inc.的總裁Neil Trevett說,“這是不可避免的。”他認為“計算加速API”將繼續(xù)發(fā)展。盡管如此,Trevett看到機器學(xué)習(xí)具有一些獨特的特點。
即使在GPU圖形市場中也不是只有一個API。有平臺專有的API,如微軟僅限Windows的DX12,以及跨平臺的開放標(biāo)準(zhǔn)如Vulkan。Trevett懷疑,ML也是如此,Cuda就像是Nvidia GPU上計算的‘DX12’。
OpenCL(Open Computing Language),由Khronos推廣,是一個開放的、無版稅的標(biāo)準(zhǔn),適用于超級計算機、云服務(wù)器、PC、移動設(shè)備和嵌入式平臺上的不同加速器的跨平臺、并行編程。
盡管有這種跨平臺的使命,Trevett承認,“OpenCL無法與Cuda的投資水平競爭,因為OpenCL沒有一個像Nvidia這樣資金雄厚的平臺倡導(dǎo)者?!盩revett解釋說,在高性能計算和桌面計算方面,OpenCL遠遠落后于Cuda。
他總結(jié)說,計算/ML API將繼續(xù)演進。CUDA和OpenCL計算API都將扮演角色,隨著開發(fā)更多計算能力,像DX12和Vulkan這樣的圖形API也將如此。他說,“我們現(xiàn)在正處于一個混亂的演化階段,很難精確地預(yù)測未來?!?/p>
OneAPI?????
與此同時,Intel正在向開發(fā)者推廣一種名為“oneAPI”的加速計算規(guī)范。
Intel認為,該行業(yè)需要一種基于標(biāo)準(zhǔn)、可擴展、多供應(yīng)商和多架構(gòu)的API,以使加速計算更加普及。
Codeplay Software的首席商務(wù)官Charles Macfarlane在接受媒體采訪時說,“oneAPI基于由行業(yè)定義的Kronos開放標(biāo)準(zhǔn),并且是開源的。它已經(jīng)跨平臺支持包括Nvidia、AMD、Intel、RISC-V、RISC-V Vectors在內(nèi)的GPU和加速器,而其他平臺也在陸續(xù)實現(xiàn)中。”
Macfarlane補充說,為了使oneAPI更加獨立,它正在向由Linux Foundation管理的Uniform Acceleration Foundation (UXL)過渡,該基金會由Intel、Qualcomm、Samsung、Fujitsu、Google、Arm、Imagination和VMware創(chuàng)立。
根據(jù)Macfarlane的說法,Codeplay Software正在通過在oneAPI中開源插件來促進這一過渡,使其能夠支持Nvidia和AMD的GPU以及RISC-V加速器和其他處理器。Codeplay Software還提供了一個oneAPI構(gòu)建套件,為新的處理器基礎(chǔ)層提供支持,以使oneAPI SYCL生態(tài)系統(tǒng)得以實現(xiàn)。SYCL是一個高級編程模型,旨在提高硬件加速器上的編程生產(chǎn)力。
為何不加入行業(yè)的標(biāo)準(zhǔn)API??????
考慮到為支持多供應(yīng)商、多架構(gòu)而設(shè)計的API正在取得進展,為什么Tenstorrent要寄托于TT-Metalium的開源呢?
Tenstorrent的Vasiljevic告訴我們,“從一開始就沒有選擇OpenCL是一個有意識的決定?!彼忉屨f,OpenCL內(nèi)核性能并不會自動轉(zhuǎn)換到其他架構(gòu)上。由于性能是Tenstorrent的首要目標(biāo),從那里開始并不合理。她指出Metalium軟件和OpenCL的一個共同特點是“Host API非常相似,我們的目標(biāo)是盡可能使它們相似,而不是在不必要的地方重新發(fā)明輪子。”
內(nèi)核代碼在C++這一點上與OpenCL類似。然而,她強調(diào),“內(nèi)核代碼在底層驅(qū)動不同的架構(gòu)。我們不像GPU那樣執(zhí)行線程。我們直接在我們的Tensix核上運行,這些內(nèi)核執(zhí)行張量數(shù)學(xué)?!?/p>
關(guān)于oneAPI,Tenstorrent的看法是什么?
Vasiljevic解釋說,“Metalium是一個自下而上的軟件堆棧,目標(biāo)旨在集成到各種框架中,以增加我們的曝光度和對我們硬件的替代路徑。她補充道,”盡管oneAPI“目前不在路線圖上,但沒有理由將其排除在外”。
為編譯器?????????????
Tenstorrent的發(fā)言人指出,由于編譯器對軟件開發(fā)至關(guān)重要,Tenstorrent也在開發(fā)自己的編譯器,名為Buda?!拔覀冞€有一個外部合作伙伴,以便我們能夠在Metalium之上構(gòu)建編譯器。我們將在今年發(fā)布更多相關(guān)信息。”
Tenstorrent是許多正在開發(fā)AI芯片的公司之一。如果客戶對Nvidia的主導(dǎo)地位感到不滿,他們的選擇是尋求另一種AI硬件或IP授權(quán)方式來開發(fā)自己的硬件??吹揭粋€不可錯過的增長機會,Tenstorrent在追求IP授權(quán)模式的同時也在銷售自己的AI硬件。