ChatGPT成為今年現(xiàn)象級(jí)的熱門應(yīng)用后,一個(gè)說法也在行業(yè)里悄然流傳開——1萬枚英偉達(dá)A100芯片,是做好大模型訓(xùn)練的入門級(jí)裝備。一時(shí)之間“洛陽紙貴”,AI芯片成為了大家眼中的“屠龍寶刀”。我們看到,大量抓住機(jī)遇的人,不僅投身大模型產(chǎn)品,還有一部分負(fù)責(zé)給“掘金人”賣鏟子。
“ 那么問題來了:
支持大語言模型的AIoT系統(tǒng),
設(shè)計(jì)難度在哪?
該怎么做設(shè)計(jì)驗(yàn)證?
藏在“屠龍刀”里面的秘籍究竟是什么?”
過去的AIoT,通常指的都是帶低算力的端側(cè)小芯片,但是隨著類似ChatGPT的大語言模型全面得到應(yīng)用,在端側(cè)AIoT芯片上部署需要幾十到幾百TOPS算力的LLM大模型也成為新的需求。但是新一代AIoT芯片要提高十倍到百倍算力,這不僅僅是堆砌算力那么簡(jiǎn)單,需要從性能、互連、帶寬、接口進(jìn)行全面的系統(tǒng)級(jí)規(guī)劃和設(shè)計(jì)。
新一代的AIoT芯片已經(jīng)不是一個(gè)獨(dú)立的芯片個(gè)體,目前市場(chǎng)上的AIoT芯片幾乎都結(jié)合了CPU、GPU、FPGA和DSP等核心零部件。這就必然需要支持系統(tǒng)級(jí)芯片開發(fā)的EDA流程。
實(shí)際上,芯片設(shè)計(jì)廠商也意識(shí)到了這個(gè)問題。當(dāng)制程工藝逼近極限,但人們對(duì)電子產(chǎn)品性能的追求還在不斷攀升時(shí),壓力很快就傳導(dǎo)到了上游的芯片廠商。借助面向系統(tǒng)級(jí)的創(chuàng)新,提升芯片的終極性能表現(xiàn),也成為大家的共識(shí)。
所以沒有任何分歧,無論從哪個(gè)維度看,大規(guī)模的系統(tǒng)級(jí)芯片設(shè)計(jì)由于場(chǎng)景豐富、系統(tǒng)規(guī)模不斷擴(kuò)張,這一需求正在快速形成市場(chǎng)主流的大浪,涌向EDA工具并推動(dòng)其不斷革新。
如何做好大系統(tǒng)芯片設(shè)計(jì)?
2023年7月13日至14日,備受期待的第三屆中國集成電路設(shè)計(jì)創(chuàng)新大會(huì)(ICDIA 2023)在無錫召開。作為國內(nèi)領(lǐng)先的系統(tǒng)級(jí)驗(yàn)證EDA解決方案提供商,芯華章受邀參加此次盛會(huì),在“AIoT與ChatGPT”分論壇上針對(duì)大系統(tǒng)芯片設(shè)計(jì)挑戰(zhàn),分享了自己的解決方案。
大系統(tǒng)芯片設(shè)計(jì),首先要理解什么叫“系統(tǒng)”?對(duì)高性能AIoT、自動(dòng)駕駛、高性能CPU和GPU等等復(fù)雜應(yīng)用來說,系統(tǒng)意味著多節(jié)點(diǎn)互聯(lián),每個(gè)節(jié)點(diǎn)都有自己的控制單元(如CPU)和計(jì)算單元(如AI、NPU),每個(gè)節(jié)點(diǎn)都有自己的操作系統(tǒng)和應(yīng)用軟件。毫無疑問,大系統(tǒng)是一個(gè)軟硬件一體化、多節(jié)點(diǎn)一體化的復(fù)雜平臺(tái),但也只有把這整個(gè)平臺(tái)都在芯片流片前驗(yàn)證通過,才能真正保證高性能復(fù)雜芯片設(shè)計(jì)的正確性。
因此,大系統(tǒng)芯片驗(yàn)證,最直接的挑戰(zhàn)來自于規(guī)模龐大的系統(tǒng)級(jí)仿真。但困難遠(yuǎn)不止于此,由“大”帶來的結(jié)構(gòu)性挑戰(zhàn),涵蓋了從驗(yàn)證到調(diào)試的方方面面。而更大的設(shè)計(jì)本身往往意味著更長(zhǎng)的時(shí)間、更高昂的成本、更慢的仿真性能,本質(zhì)上也就意味著更困難的驗(yàn)證。
在當(dāng)下的技術(shù)和市場(chǎng)環(huán)境下,大系統(tǒng)芯片設(shè)計(jì)的驗(yàn)證面臨三大共性難題,這些難題正是傳統(tǒng)的EDA工具所難以解決的痛點(diǎn):
設(shè)計(jì)大,很大,大到放不下
從多核、Chiplet封裝、多節(jié)點(diǎn)到完整系統(tǒng),復(fù)雜的驗(yàn)證規(guī)模可以輕易達(dá)到百億甚至千億門,對(duì)驗(yàn)證工具的容量提出了更高的要求,試想如果驗(yàn)證平臺(tái)根本無法仿真完整的應(yīng)用系統(tǒng),又怎么能證明設(shè)計(jì)是完整正確的?但供數(shù)十億至數(shù)百億規(guī)模容量的驗(yàn)證平臺(tái),其性能、規(guī)模、可調(diào)試性又往往成為難以平衡的選擇。
驗(yàn)證慢,很慢,難以收斂的慢
系統(tǒng)級(jí)規(guī)模不斷增大,系統(tǒng)級(jí)仿真在整個(gè)驗(yàn)證的仿真流程中比例不斷增大,導(dǎo)致驗(yàn)證團(tuán)隊(duì)特別依賴性能和數(shù)量有限的硬件仿真系統(tǒng),導(dǎo)致驗(yàn)證慢的不僅僅是仿真速度,更是整個(gè)驗(yàn)證工作的收斂速度和效率。
Debug難,很難,越往后越難
在如此復(fù)雜和大規(guī)模的系統(tǒng)級(jí)仿真上,調(diào)試就變成一個(gè)更加困難的問題。仿真平臺(tái)上觀察到的問題,到底來自軟件、芯片邏輯設(shè)計(jì)還是多節(jié)點(diǎn)互連?問題能否穩(wěn)定復(fù)現(xiàn)?如何在多種仿真平臺(tái)的數(shù)據(jù)之間進(jìn)行綜合分析?不解決這些問題,大系統(tǒng)的調(diào)試就會(huì)越往后期越難,最終影響整個(gè)項(xiàng)目周期。
我們似乎開始找到“屠龍刀里秘籍”的線索。作為最上游的輔助設(shè)計(jì)工具,EDA創(chuàng)新確實(shí)是提升系統(tǒng)級(jí)設(shè)計(jì)效率,降低創(chuàng)新成本的關(guān)鍵“鑰匙”。
芯華章資深產(chǎn)品與業(yè)務(wù)規(guī)劃總監(jiān)楊曄表示,“單個(gè)IP的驗(yàn)證需求在降低,SoC或單個(gè)chiplet級(jí)的驗(yàn)證需求在不斷上升,因?yàn)檫@部分是客戶系統(tǒng)級(jí)創(chuàng)新的核心。然而在新場(chǎng)景的應(yīng)用中,傳統(tǒng)的EDA工具在應(yīng)對(duì)大容量、深度調(diào)試、多種驗(yàn)證場(chǎng)景混合使用的時(shí)候,遇到各種效率挑戰(zhàn)。芯華章致力提供從軟件、硬件到調(diào)試的整體解決方案,特別是在大規(guī)模設(shè)計(jì)的系統(tǒng)級(jí)驗(yàn)證、硬件驗(yàn)證、架構(gòu)驗(yàn)證等方面,將為用戶提供全流程大系統(tǒng)芯片驗(yàn)證解決方案?!?/p>
芯華章大系統(tǒng)芯片設(shè)計(jì)驗(yàn)證解決方案的核心,是基于敏捷驗(yàn)證理念,建立統(tǒng)一的EDA數(shù)據(jù)庫,打造從IP到子系統(tǒng)再到系統(tǒng)級(jí)的統(tǒng)一測(cè)試場(chǎng)景,提早開始系統(tǒng)級(jí)驗(yàn)證,實(shí)現(xiàn)驗(yàn)證與測(cè)試目標(biāo)的高速收斂,進(jìn)行高效率、高效益的快速迭代,從而助力芯片及系統(tǒng)公司提高驗(yàn)證效率,降低研發(fā)成本。
芯華章針對(duì)大規(guī)模系統(tǒng)級(jí)芯片“量身打造”的敏捷驗(yàn)證方案,已經(jīng)在多個(gè)領(lǐng)域獲得具體項(xiàng)目部署。
針對(duì)自動(dòng)駕駛應(yīng)用芯片,芯華章高性能硬件仿真系統(tǒng)HuaEmu E1不僅有高性能仿真和深度調(diào)試,還提供了LPDDR5模型用于客戶內(nèi)存仿真,提供CSI和DSI模型用于仿真自動(dòng)駕駛系統(tǒng)的輸入和輸出,這些都超出了單顆芯片的范疇,是針對(duì)軟硬件一體化的系統(tǒng)方案進(jìn)行仿真驗(yàn)證。
為了解決原型系統(tǒng)和硬件仿真之間切換版本成本高,延長(zhǎng)驗(yàn)證周期的問題,芯華章發(fā)布的雙模硬件驗(yàn)證系統(tǒng)HuaPro P2E則基于統(tǒng)一的軟件平臺(tái)和硬件平臺(tái),可以在綜合、編譯、驗(yàn)證方案構(gòu)建、用戶腳本、調(diào)試等階段,能最大程度的復(fù)用技術(shù)模塊和中間結(jié)果,并使用統(tǒng)一用戶界面,從而實(shí)現(xiàn)原型驗(yàn)證和硬件仿真絲滑的無縫集成,在節(jié)約用戶成本的同時(shí),還能大大提高驗(yàn)證效率。
傳統(tǒng)的軟件仿真工具以調(diào)試功能強(qiáng)大著名,但卻受限于仿真速度,不擅長(zhǎng)處理系統(tǒng)級(jí)的大規(guī)模仿真驗(yàn)證?;谛救A章自主研發(fā)的邏輯仿真器GalaxSim,芯華章GalalxSim Turbo實(shí)現(xiàn)多核、多服務(wù)器并行運(yùn)算,可以實(shí)現(xiàn)1K-10KHz的復(fù)雜系統(tǒng)軟件仿真,從而可以在RTL階段提前進(jìn)行系統(tǒng)級(jí)仿真。
拿到屠龍刀并不一定能號(hào)令天下,只有學(xué)會(huì)了刀里面的絕學(xué)才能真正成為“武林至尊”。
當(dāng)“大模型”的路上人越來越多時(shí),產(chǎn)業(yè)同樣也需要向上游追溯,進(jìn)一步提升創(chuàng)新效率,在激烈的競(jìng)爭(zhēng)中快人一步。作為芯片產(chǎn)品定義和創(chuàng)新的核心環(huán)節(jié),隨著以系統(tǒng)級(jí)場(chǎng)景為代表的產(chǎn)業(yè)數(shù)字化需求迸發(fā),EDA正從方法學(xué)、從底層架構(gòu)開始這場(chǎng)自我革新。