燧原科技第一代產(chǎn)品規(guī)模化落地,第二代產(chǎn)品走向量產(chǎn),第三代產(chǎn)品已經(jīng)啟動(dòng)設(shè)計(jì)。
智東西12月7日?qǐng)?bào)道,今日,AI芯片獨(dú)角獸燧原科技正式推出其第二代云端AI推理加速卡云燧i20。這距離燧原科技發(fā)布其第二代云端AI訓(xùn)練加速卡“云燧T20”,僅僅相隔5個(gè)月。云燧i20的發(fā)布,標(biāo)志著燧原科技在云端AI算力加速領(lǐng)域,從訓(xùn)練到推理的完整產(chǎn)品線已全面迭代到第二代。
▲燧原科技CEO趙立東和COO張亞林發(fā)布第二代云端AI推理產(chǎn)品
據(jù)悉,云燧i20是業(yè)內(nèi)首個(gè)擁有超大存儲(chǔ)帶寬的AI推理加速卡,其單精度張量TF32峰值算力達(dá)128TFLOPS,整型INT8峰值算力達(dá)256TOPS?;陟菰萍嫉淖灾鲃?chuàng)新芯片架構(gòu),采用12nm工藝制造的新一代“邃思”AI推理芯片實(shí)現(xiàn)了媲美業(yè)內(nèi)7nm GPU的計(jì)算能力,并可在相同性能表現(xiàn)下提供更高性價(jià)比。
很難想象,僅用三年多的時(shí)間,燧原科技便憑借極強(qiáng)的團(tuán)隊(duì)執(zhí)行力、高效的研發(fā)落地能力,連續(xù)迭代兩代、三款云端AI芯片,在數(shù)十家云端AI芯片玩家中脫穎而出。
如今,搭載第一代邃思芯片的集群規(guī)模落地,其第一代訓(xùn)練及推理產(chǎn)品已產(chǎn)生過(guò)億訂單及收入,云燧i20加速卡將于明年第二季度量產(chǎn)。燧原科技累計(jì)融資超30億元,其團(tuán)隊(duì)也完成新的組織調(diào)整,團(tuán)隊(duì)規(guī)模從年初的約400人增至逾650人。它是怎樣做到的?近日,智東西對(duì)話燧原科技創(chuàng)始人兼COO張亞林,以期更深層次地了解這個(gè)中國(guó)AI芯片賽道中尤為獨(dú)特的樣本。
▲燧原科技全新一代“邃思”云端AI推理芯片
01.對(duì)標(biāo)業(yè)內(nèi)旗艦GPU訓(xùn)練&推理產(chǎn)品全面進(jìn)入2.0階段
新一代“邃思”云端AI推理芯片和云燧2.0加速卡,讓燧原科技在2.0階段完成了閉環(huán)。“性能趕超業(yè)內(nèi)旗艦GPU的云燧i20正是我們的關(guān)鍵成果之一。”燧原科技CEO趙立東說(shuō),“當(dāng)前,我國(guó)芯片產(chǎn)業(yè)正處于激烈的成長(zhǎng)與蛻變時(shí)代。燧原科技以「做大芯片,拼硬科技」時(shí)代使命,基于原始創(chuàng)新的軟硬件架構(gòu),正在不斷加速技術(shù)創(chuàng)新與產(chǎn)品迭代。”
從2018年3月成立至今,燧原科技整個(gè)團(tuán)隊(duì)像齒輪般嚴(yán)密地咬合轉(zhuǎn)動(dòng),精準(zhǔn)執(zhí)行了產(chǎn)品路線圖。在燧原1.0階段,燧原成立18個(gè)月即推出第一代云端訓(xùn)練產(chǎn)品,實(shí)現(xiàn)從0到1的破冰。如今其第一代訓(xùn)練及推理產(chǎn)品已規(guī)?;涞?,它從客戶處收集到的需求反饋,正被輸入到第二代產(chǎn)品中。2020年,“從1到N”的燧原2.0階段順利推進(jìn),陸續(xù)完成新融資、集群商用落地、第一代推理產(chǎn)品量產(chǎn)發(fā)布等重要節(jié)點(diǎn)。同年4月,燧原正式啟動(dòng)新一代“邃思”AI推理芯片及云燧i20的研發(fā)。
自立項(xiàng)起,燧原便定下目標(biāo),第二代推理產(chǎn)品性能要達(dá)到國(guó)際友商前一代旗艦的2.5倍以上,大部分打平甚至在某些方面超越友商的新旗艦產(chǎn)品。為了達(dá)成一年流片的目標(biāo),燧原將從前期架構(gòu)、設(shè)計(jì)、集成、驗(yàn)證、模擬、軟件適配到量產(chǎn)等全流程分解成多個(gè)收斂階段,通過(guò)全體工程團(tuán)隊(duì)高度協(xié)同、精準(zhǔn)合作,確保每一步按期作業(yè)。應(yīng)對(duì)來(lái)自晶圓、基板、材料及測(cè)試設(shè)備等各層面的全球供應(yīng)鏈挑戰(zhàn),燧原密集地與全球供應(yīng)商進(jìn)行前期溝通,努力解決意料之外的供應(yīng)鏈問(wèn)題,最終如期完成計(jì)劃。
▲燧原科技第二代云端AI推理卡云燧i20
據(jù)張亞林分享,在多項(xiàng)基準(zhǔn)測(cè)試中,云燧i20加速卡的模型性能、能效比均處于國(guó)內(nèi)領(lǐng)先水平。浪潮信息與燧原科技通過(guò)元腦生態(tài)聯(lián)合創(chuàng)新,在AI整機(jī)系統(tǒng)、AI算力優(yōu)化、場(chǎng)景方案落地等多方面深入合作。浪潮信息副總裁劉軍評(píng)價(jià)道:“此次云燧i20的發(fā)布,標(biāo)志著燧原從訓(xùn)練到推理全面進(jìn)入2.0時(shí)代,這也是國(guó)產(chǎn)AI算力發(fā)展的里程碑。”
02.業(yè)內(nèi)首個(gè)超大帶寬推理加速卡打出軟硬協(xié)同系統(tǒng)組合拳
與第一代推理產(chǎn)品云燧i10相同,云燧i20主要面向泛互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)和新基建等賽道。該AI推理加速卡支持視覺(jué)檢測(cè)跟蹤分類、語(yǔ)音識(shí)別與合成、自然語(yǔ)言處理等主流AI應(yīng)用場(chǎng)景,并進(jìn)一步提升了模型覆蓋和泛化支持能力。搭載于云燧i20的新一代“邃思”采用12nm工藝、第二代高性能計(jì)算核心和數(shù)據(jù)引擎,通過(guò)升級(jí)其自研架構(gòu)GCU-CARA(通用計(jì)算單元和全域計(jì)算架構(gòu)),大大提高了單位面積的晶體管效率,實(shí)現(xiàn)堪與當(dāng)前業(yè)內(nèi)7nm GPU匹敵的計(jì)算能力。
得益于12nm成熟工藝帶來(lái)的成本優(yōu)勢(shì),云燧i20在相同性能表現(xiàn)下更具性價(jià)比優(yōu)勢(shì),且供應(yīng)鏈體系更加穩(wěn)定成熟,能及時(shí)滿足客戶的業(yè)務(wù)需求。從算力規(guī)格來(lái)看,其目標(biāo)實(shí)現(xiàn)得相當(dāng)不錯(cuò):
計(jì)算方面,云燧i20全面支持從FP32、TF32、FP16、BF16到INT8的計(jì)算精度,并在兼顧全精度算力的同時(shí),大幅提高了整型運(yùn)算。
其單精度FP32峰值算力達(dá)到32TFLOPS,單精度張量TF32峰值算力達(dá)到128TFLOPS,整型INT8峰值算力達(dá)到256TOPS。通過(guò)軟硬件技術(shù)多重優(yōu)化,云燧i20大幅提升了推理性能,浮點(diǎn)算力較云燧i10提升到1.8倍,整型算力提升到3.6倍。與主流旗艦GPU相比,云燧i20的模型性能可以對(duì)標(biāo)英偉達(dá)A10,是T4的2.5~3倍,并在性能深度優(yōu)化能力、成本方面更具優(yōu)勢(shì)。
存儲(chǔ)方面,云燧i20擁有迄今業(yè)內(nèi)最大的云端AI加速卡存儲(chǔ)帶寬。此前燧原科技第二代云端AI訓(xùn)練芯片在國(guó)內(nèi)率先支持HBM2E高帶寬存儲(chǔ)方案。如今云燧i20推理加速卡更進(jìn)一步,基于HBM2E可提供超越同類產(chǎn)品水平的819GB/s超大存儲(chǔ)帶寬,為各類云端推理業(yè)務(wù)提供高吞吐、低延時(shí)的性能。
如今神經(jīng)網(wǎng)絡(luò)參數(shù)越來(lái)越多,無(wú)論是語(yǔ)音識(shí)別、圖片識(shí)別、視頻內(nèi)容分析等感知類應(yīng)用,還是內(nèi)容推薦、欺詐交易攔截等決策類AI應(yīng)用,在云端大部分都是以實(shí)時(shí)在線的方式提供服務(wù),對(duì)數(shù)據(jù)帶寬的需求不斷上漲。而速度更快、密度更高的內(nèi)存,有助于高端處理器兼顧高帶寬和低延遲,保障AI相關(guān)服務(wù)準(zhǔn)確、平穩(wěn)、高效的運(yùn)行。
軟件方面,根據(jù)客戶反饋的需求,燧原將其推理軟件棧馭算進(jìn)一步升級(jí),使其在性能、開(kāi)發(fā)效率和模型覆蓋面上得到大幅提升。
馭算引入了通用高層圖優(yōu)化和大規(guī)模算子融合技術(shù),充分釋放了大容量片內(nèi)存儲(chǔ)和高帶寬存儲(chǔ)的利用率,將模型平均性能提升3.5倍,硬件算力利用率平均提升2倍。
為了更加匹配客戶開(kāi)發(fā)習(xí)慣,馭算通過(guò)升級(jí)的編程模型以及算子自動(dòng)分片、自動(dòng)生成技術(shù),使得自定義算子開(kāi)發(fā)效率翻倍,大大降低模型遷移成本。馭算還增強(qiáng)了對(duì)動(dòng)態(tài)性的支持,使云燧i20在檢測(cè)、語(yǔ)音識(shí)別、語(yǔ)義理解等場(chǎng)景更具競(jìng)爭(zhēng)力。
在經(jīng)濟(jì)效益和部署靈活性層面,基于虛擬化和多實(shí)例加速技術(shù),云燧i20能夠?qū)崿F(xiàn)單卡多用戶,同時(shí)支持6個(gè)業(yè)務(wù)互不干擾、安全隔離運(yùn)行。這讓更多云端推理應(yīng)用同時(shí)享受專有的算力加速,為客戶業(yè)務(wù)架構(gòu)帶來(lái)輕耦合、靈活可靠的實(shí)現(xiàn)方式,顯著提升資源利用率與投入產(chǎn)出比。作為一家數(shù)據(jù)中心基礎(chǔ)設(shè)施提供商,燧原科技已經(jīng)能提供包括算力、數(shù)據(jù)、存儲(chǔ)、互聯(lián)在內(nèi)的一系列系統(tǒng)化解決方案。
03.一代落地、二代量產(chǎn)、三代設(shè)計(jì)高效滾動(dòng)式研發(fā)背后的三大核心競(jìng)爭(zhēng)力
對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō),云端AI芯片是難攻的高地。一方面,芯片研發(fā)有高壁壘、高成本、低容錯(cuò)率等特征,任何一個(gè)環(huán)節(jié)出現(xiàn)差池,此前投入的數(shù)千萬(wàn)資金就可能通通打水漂。
另一方面,NVIDIA獨(dú)霸云端AI訓(xùn)練市場(chǎng),英特爾不斷強(qiáng)化CPU的AI推理性能,其技術(shù)和生態(tài)壁壘均十分深厚。面對(duì)殘酷的市場(chǎng)環(huán)境,燧原科技一路高舉高打,快速迭代研發(fā)落地,第一代產(chǎn)品還未量產(chǎn),第二代產(chǎn)品已經(jīng)開(kāi)始滾動(dòng)式研發(fā)。
是怎樣的底氣,讓燧原無(wú)懼風(fēng)險(xiǎn),制定如此緊密的產(chǎn)品迭代周期?張亞林將燧原科技的核心競(jìng)爭(zhēng)力歸納為三點(diǎn):迭代快、系統(tǒng)化、成熟配置。首先,天下武功,唯快不破。云端AI產(chǎn)品具有共享的、多用戶等特征,每個(gè)客戶有差異化的場(chǎng)景及業(yè)務(wù)模型,與對(duì)AI芯片架構(gòu)的通用性提出了更高要求。相比芯片采用幾納米工藝、什么技術(shù),云端AI客戶更關(guān)注遷移成本、降本增效和性價(jià)比是否能達(dá)到自身應(yīng)用的要求。
“當(dāng)我們開(kāi)始工程化AI產(chǎn)品的時(shí)候,一定要把客戶的終極訴求和用戶使用習(xí)慣帶進(jìn)去,而不是一味地講紙面參數(shù)。”張亞林認(rèn)為,只有進(jìn)入客戶整個(gè)業(yè)務(wù)系統(tǒng),才能夠真正理解其需求。因此,對(duì)于一家創(chuàng)業(yè)公司,最重要的不是產(chǎn)品參數(shù),而是盡快觸達(dá)客戶,拿到反饋,再將其優(yōu)化思路應(yīng)用到下一代產(chǎn)品中,通過(guò)快速迭代,把芯片與工具鏈打磨至成熟,并構(gòu)筑自家客戶生態(tài)。
燧原科技即是按照這樣的邏輯,緊鑼密鼓地推進(jìn)產(chǎn)品迭代:當(dāng)前其第一代產(chǎn)品規(guī)?;涞兀诙a(chǎn)品走向量產(chǎn),第三代產(chǎn)品已經(jīng)啟動(dòng)設(shè)計(jì)。隨著其第二代訓(xùn)練及推理產(chǎn)品成熟,燧原科技可以針對(duì)客戶的業(yè)務(wù)場(chǎng)景,提供具有高性能及性價(jià)比的“訓(xùn)練+推理”完整解決方案,并支持國(guó)產(chǎn)服務(wù)器和操作系統(tǒng),幫助客戶進(jìn)行云端系統(tǒng)部署。
其次,燧原科技已經(jīng)成長(zhǎng)為一家AI系統(tǒng)提供商,儲(chǔ)備了比純芯片供應(yīng)商更廣泛的能力。在云端數(shù)據(jù)中心,AI的發(fā)展不再局限于單點(diǎn)的軟件或硬件,計(jì)算范式正趨于系統(tǒng)化、集成化。這要求AI公司不僅能提供AI基礎(chǔ)設(shè)施,也要能提供更高集成度、性價(jià)比和能效比的系統(tǒng),更便捷易用的軟件和用戶界面,從而提升用戶的生產(chǎn)力。因此,燧原科技從系統(tǒng)的角度思考AI落地,持續(xù)布局整個(gè)數(shù)據(jù)中心的新技術(shù),包括集群互連方式、分布式計(jì)算拓?fù)浣Y(jié)構(gòu)、高級(jí)封裝、先進(jìn)制程及軟硬件全棧的高階編譯等。
這些先進(jìn)技術(shù),構(gòu)成了燧原快速迭代產(chǎn)品的護(hù)城河。在此支撐下,燧原循序漸進(jìn)地搭建出一支包含芯片、板卡、集群、軟件全棧的完整建制團(tuán)隊(duì),以超強(qiáng)執(zhí)行力快速推進(jìn)整體的系統(tǒng)優(yōu)化,并通過(guò)計(jì)算、數(shù)據(jù)、存儲(chǔ)、互聯(lián)四個(gè)維度的平衡,將產(chǎn)品成本結(jié)構(gòu)牢牢控制在自己手中。在千卡液冷集群方面,燧原科技與之江實(shí)驗(yàn)室合作的1280卡高性能計(jì)算液冷集群方案正在部署,該集群采用燧原科技第一代人工智能訓(xùn)練產(chǎn)品“云燧T11”,計(jì)劃打造符合國(guó)家碳中和政策導(dǎo)向的低碳綠色數(shù)據(jù)中心。張亞林稱:“這是我們?cè)谡麄€(gè)系統(tǒng)化方面走出的堅(jiān)實(shí)一步。”
燧原的第三重核心競(jìng)爭(zhēng)力,是完成了燧原2.0組織、人才、流程、規(guī)范制度的全方位底層構(gòu)建,已具備一家較成熟公司的配置。AI芯片流片回來(lái),僅僅走完芯片工程化的30%,另外70%的路要靠工程化、量產(chǎn)化,推動(dòng)其走向業(yè)務(wù)落地和交付。這背后,要兌現(xiàn)對(duì)客戶的承諾,離不開(kāi)一個(gè)成熟組織架構(gòu)的支撐。
目前燧原的研發(fā)組織、供應(yīng)鏈、IT部門(mén)、商務(wù)部門(mén)、客戶支持部門(mén)及運(yùn)營(yíng)支持團(tuán)隊(duì)均組建完備,使其運(yùn)營(yíng)底座能夠支撐一、二、三代產(chǎn)品間的交疊,從而支持更大范圍的客戶落地。這就形成了一個(gè)閉環(huán)。由客戶需求驅(qū)動(dòng)技術(shù)更新,將技術(shù)價(jià)值附著在產(chǎn)品價(jià)值上,隨著產(chǎn)品規(guī)?;涞兀倏祚R加鞭地將客戶反饋融入下一代產(chǎn)品設(shè)計(jì)中,進(jìn)而驅(qū)動(dòng)產(chǎn)品價(jià)值的迭代升級(jí)。
04.下一代產(chǎn)品將采用更先進(jìn)工藝三個(gè)核心生態(tài)已打好地樁
自第一代云端AI推理加速卡云燧i10發(fā)布,燧原科技便著力構(gòu)建原始創(chuàng)新的通用算力和自主生態(tài)。以其國(guó)產(chǎn)AI算力產(chǎn)品為核心,以商業(yè)生態(tài)和科研生態(tài)為支撐,燧原科技的云端AI訓(xùn)練及推理產(chǎn)品已實(shí)現(xiàn)在國(guó)家重點(diǎn)實(shí)驗(yàn)室、互聯(lián)網(wǎng)、智慧城市、智慧金融等多家客戶的商業(yè)落地。
例如在智慧金融領(lǐng)域,燧原科技與上海銀行展開(kāi)戰(zhàn)略合作,助力上海銀行實(shí)現(xiàn)數(shù)字化、智能化轉(zhuǎn)型,將金融科技融入銀行服務(wù)的全流程來(lái)優(yōu)化其客戶體驗(yàn)和服務(wù)品質(zhì)。張亞林也透露了燧原科技的下一步計(jì)劃。此前其第一代、第二代芯片均采用12nm工藝,第三代產(chǎn)品則將步入更先進(jìn)的工藝及封裝方式。
盡管頭部IP廠商已經(jīng)推出頗具競(jìng)爭(zhēng)力的AI加速核心,但張亞林并不為此感到擔(dān)心。相較會(huì)造成同質(zhì)化的第三方IP,他相信:“AI最好的架構(gòu)一定誕生在自己的軟硬件聯(lián)合設(shè)計(jì)和原生體系之中。”明年燧原科技有兩個(gè)重要目標(biāo):一是更大規(guī)模地落地燧原2.0產(chǎn)品,實(shí)現(xiàn)預(yù)期的客戶泛化和商業(yè)價(jià)值;二是按照產(chǎn)品路線圖推進(jìn)產(chǎn)品迭代,用更好的技術(shù)和架構(gòu),在后續(xù)產(chǎn)品中更大化客戶價(jià)值。
“我們希望用三年的時(shí)間,初步達(dá)成對(duì)整個(gè)數(shù)據(jù)中心解決方案的統(tǒng)一集成,再用五年,實(shí)現(xiàn)從整個(gè)用戶界面來(lái)看,燧原的數(shù)據(jù)中心解決方案是易用、好用、可以遷移的。”張亞林說(shuō)。至于如何拓展生態(tài),張亞林認(rèn)為,從客戶視角思考產(chǎn)品,實(shí)現(xiàn)產(chǎn)品可用性,然后才到易用性、可遷移性和可維護(hù)性,是為關(guān)鍵。芯片公司必須非常關(guān)注需求端的前瞻趨勢(shì),包括新的AI算法和應(yīng)用、新的軟硬件技術(shù),并將相應(yīng)的前瞻性技術(shù)納入到未來(lái)產(chǎn)品設(shè)計(jì)范疇中,與業(yè)內(nèi)更加通用的、更加前瞻的技術(shù)生態(tài)接軌。
目前燧原科技聚焦于三個(gè)生態(tài)建設(shè):客戶生態(tài)、產(chǎn)品和行業(yè)生態(tài)、技術(shù)生態(tài)。其中,硬件技術(shù)生態(tài)是燧原一直以來(lái)的優(yōu)勢(shì),燧原與EDA商、封裝、測(cè)試、制造、晶圓商等緊密合作,在包含先進(jìn)集成、封裝及各種高端IP開(kāi)發(fā)的整個(gè)技術(shù)生態(tài)上持續(xù)積累。
燧原科技與上海交大、西安交大、之江實(shí)驗(yàn)室等高校在構(gòu)建通用異構(gòu)計(jì)算生態(tài)方面的合作,也都是有的放矢,將為其軟件技術(shù)生態(tài)的增強(qiáng)提供助力。在客戶生態(tài)方面,燧原盡快讓更多不同類型的客戶用起來(lái),在泛互聯(lián)網(wǎng)、傳統(tǒng)行業(yè)、新基建以及產(chǎn)學(xué)研各業(yè)務(wù)線上均已逐步構(gòu)建客戶群和客戶生態(tài),并持續(xù)收集更多反饋。在產(chǎn)品和行業(yè)生態(tài)方面,燧原與芯片、板卡、服務(wù)器OEM/ODM提供商、云服務(wù)商CSP、算法集成商ISV等均有良好對(duì)接,隨著客戶生態(tài)不斷擴(kuò)大,整個(gè)行業(yè)生態(tài)也在不斷泛化。
05.結(jié)語(yǔ):云端數(shù)據(jù)中心日新月異國(guó)產(chǎn)AI芯片大有可為
隨著國(guó)家加大對(duì)科技創(chuàng)新的支持力度,AI芯片發(fā)展進(jìn)入快速通道。無(wú)論是更多資本涌向創(chuàng)企,還是芯片巨頭、互聯(lián)網(wǎng)巨頭及更多創(chuàng)業(yè)新秀悉數(shù)入局,都共同撐起云端AI芯片產(chǎn)業(yè)的繁榮。
云端數(shù)據(jù)中心日新月異,新的數(shù)據(jù)中心計(jì)算范式正在形成,各類計(jì)算、數(shù)據(jù)、存儲(chǔ)、互聯(lián)、視頻加速等解決方案,均有長(zhǎng)足發(fā)展空間。“因?yàn)檫@個(gè)市場(chǎng)足夠大,我覺(jué)得機(jī)會(huì)和窗口都還在。”張亞林預(yù)測(cè)云端AI芯片市場(chǎng)未來(lái)兩三年會(huì)出現(xiàn)頭部效應(yīng),這將給新進(jìn)入的廠商一定壓力,但最終能否通過(guò)市場(chǎng)考驗(yàn),還是要看產(chǎn)品賦能客戶的速度。
在張亞林看來(lái),任何技術(shù)路線都可能打造出優(yōu)秀的用戶產(chǎn)品,關(guān)鍵在于理解AI應(yīng)用場(chǎng)景的本質(zhì)和規(guī)律,選擇與市場(chǎng)定位匹配的架構(gòu),真正為客戶帶來(lái)AI生產(chǎn)力的提升。因此,創(chuàng)業(yè)者們應(yīng)更加關(guān)注客戶價(jià)值及產(chǎn)品落地,盡早打磨產(chǎn)品基本面。“我很期待更多的AI公司走向商業(yè)化之后更好地滿足客戶需求,共同把這個(gè)行業(yè)的生態(tài)推動(dòng)起來(lái)。”
作者 | 心緣
編輯 | 漠影