ChatGPT引發(fā)的轟動(dòng)仍在發(fā)酵,那么隨著生成式AI的爆發(fā),AI的落地門檻如何進(jìn)一步降低?隨時(shí)隨地構(gòu)建和部署AI,還有哪些痛點(diǎn)問題要關(guān)注?
日前,英特爾院士、大數(shù)據(jù)技術(shù)全球首席技術(shù)官戴金權(quán)在接受<與非網(wǎng)>等媒體采訪時(shí)表示,基于開放方法和異構(gòu)計(jì)算的生成式AI更容易獲得,也能夠更經(jīng)濟(jì)地部署更優(yōu)解決方案。此外,開放的生態(tài)系統(tǒng)允許開發(fā)人員在優(yōu)先考慮功耗、價(jià)格和性能的同時(shí),隨時(shí)隨地構(gòu)建和部署AI,從而釋放生成式AI的力量。
“讓生成式AI無所不在”
過去6-12個(gè)月以來,從Stable Diffusion到ChatGPT、大語言模型等,一系列生成式AI技術(shù)發(fā)展迅速。“一直以來,英特爾希望能夠?qū)崿F(xiàn)AI、包括生成式AI的普適化,讓各行各業(yè)、以及普通的消費(fèi)者用戶都可以使用?!贝鹘饳?quán)表示。
事實(shí)上,可以從軟、硬件兩個(gè)層面來解讀英特爾在AI、包括生成式AI方向的策略。軟件方面,英特爾致力于擁抱開源、以及AI開放社區(qū),在開源軟件如TensorFlow、PyTorch、Hybrid Bonding、OpenAI等方面,與業(yè)界有著廣泛的合作。并且,在大語言模型方面與頂級(jí)機(jī)器學(xué)習(xí)開源庫(kù)Hugging face,在Bloom等開源模型上也有很多合作。
據(jù)戴金權(quán)介紹,英特爾和Hugging face進(jìn)行了很多性能優(yōu)化工作,特別是針對(duì)英特爾平臺(tái)和生成式AI模型。在幾個(gè)月前的一項(xiàng)合作中,利用Gaudi 2加速器對(duì)176B 參數(shù)的BLOOMZ(一種基于轉(zhuǎn)換器的多語言大型語言模型)進(jìn)行了優(yōu)化和評(píng)估。針對(duì)這一可能是迄今為止最大的開源語言模型進(jìn)行推理,8張英特爾Gaudi 2與8張英偉達(dá)A100相比,Gaudi 2要比A100快20%以上。而對(duì)于包含70億參數(shù)的BLOOMZ模型推理,Habana第一代 Gaudi具有明顯的性價(jià)比優(yōu)勢(shì)。
此外,與Hugging face在Stable Diffusion的合作中,最新的第四代英特爾至強(qiáng)可擴(kuò)展處理器,利用AMX高級(jí)矩陣擴(kuò)展來進(jìn)行矩陣加速,可以做到5分鐘內(nèi)微調(diào)一個(gè)Stable Diffusion模型,四、五秒可以進(jìn)行一個(gè)推理。
在AI硬件加速方面,英特爾GPU、AI加速器(例如Gaudi)、以及第四代至強(qiáng)可擴(kuò)展處理器,都加入了專門針對(duì)矩陣運(yùn)算的加速器(英特爾AMX),便于在最新的至強(qiáng)服務(wù)器上加速矩陣運(yùn)算,加速神經(jīng)網(wǎng)絡(luò)運(yùn)算。
“除了專用的硬件加速,為了實(shí)現(xiàn)AI無所不在,計(jì)算也要無所不在?!贝鹘饳?quán)強(qiáng)調(diào),“英特爾的計(jì)算設(shè)備、計(jì)算能力本身是無所不在的,不管是筆記本電腦的CPU、集成顯卡、獨(dú)立顯卡,還是數(shù)據(jù)中心的至強(qiáng)服務(wù)器,都是廣泛存在的,這可以視作通用計(jì)算的能力。如果我們能利用xPU技術(shù),在這些通用的、無所不在的、甚至是消費(fèi)級(jí)的計(jì)算上提供AI能力,那就真的可以做到AI、包括生成式AI的無所不在?!?/p>
普通PC可以運(yùn)行生成式AI?
基于對(duì)“生成式AI無所不在”的愿景,戴金權(quán)列舉了一個(gè)消費(fèi)者最容易體驗(yàn)的場(chǎng)景——筆記本電腦。
根據(jù)英特爾的展示,在一臺(tái)搭載了第12代酷睿i5的筆記本電腦中,通過軟硬件優(yōu)化,可以實(shí)現(xiàn)大語言模型的運(yùn)行?;趦蓚€(gè)開源的70億參數(shù)和130億參數(shù)的大語言模型,其中,130億參數(shù)的模型基本上可以跟上人的閱讀速度、與人進(jìn)行交互;而入門級(jí)的60-70億參數(shù)規(guī)模的大語言模型,目前在筆記本上的運(yùn)行速度已經(jīng)有了很大提升。
如果將運(yùn)行大模型的CPU升級(jí)到酷睿i9,性能又得到了更大提升。如果=進(jìn)一步運(yùn)行在至強(qiáng)處理器上,某種意義上已經(jīng)超過人的閱讀速度了。
除了大語言模型之外,還有一個(gè)非常重要的應(yīng)用是Stable Diffusion,目前英特爾在普通的12代酷睿筆記本上就可以運(yùn)行Stable Diffusion,不需要任何獨(dú)立顯卡,直接利用集成顯卡就可以在二、三十秒內(nèi)生成一張圖片。也就是說,它不需要任何特殊設(shè)備,不需要訪問云端,就可以將任意模型和算法直接部署到本地筆記本上。而如果用戶擁有Arc獨(dú)立顯卡,那么速度可以更快,只要三、四秒就可以生成一張圖片。
戴金權(quán)解釋說,這些案例展示了普通筆記本電腦、甚至是輕薄本運(yùn)行大語言模型、生成式AI的潛力,體現(xiàn)了“生成式AI無處不在”愿景中最接近普通消費(fèi)者的場(chǎng)景實(shí)現(xiàn)。他強(qiáng)調(diào),不論是消費(fèi)級(jí)CPU、嵌入式GPU、Arc獨(dú)顯GPU,還是服務(wù)器至強(qiáng)可擴(kuò)展處理器,或是數(shù)據(jù)中心GPU、Gaudi AI加速器,英特爾希望以不同的算力應(yīng)對(duì)不同的應(yīng)用、場(chǎng)景和用途,也就是說,將xPU架構(gòu)結(jié)合oneAPI,通過軟件優(yōu)化、軟件庫(kù)支持等,提供全方位的“智能計(jì)算”能力來支持生成式AI應(yīng)用,真正做到讓生成式AI無所不在。
如何做到“可信賴的AI”?
生成式AI火爆了一段時(shí)間后,業(yè)界開始關(guān)注它從“可用”到“可信賴”的演變。那么,如何真正做到“可信賴的AI”?
戴金權(quán)表示,從英特爾自身來說,首先,關(guān)于AI的工作,無論是數(shù)據(jù)、模型、應(yīng)用等,都有一個(gè)“負(fù)責(zé)任的AI”流程,其中定義了如何消除偏見、如何使用正確的數(shù)據(jù)等。
第二,要注意到大語言模型在帶來生產(chǎn)力提升的同時(shí),也有可能帶來數(shù)據(jù)安全和隱私問題。英特爾在這方面做了大量工作,通過硬件級(jí)的安全技術(shù),比如英特爾TDX、英特爾SGX,加上軟件層構(gòu)建的面向大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的隱私計(jì)算平臺(tái)(BigDL PPML, Privacy Preserving Machine Learning),再結(jié)合大語言模型和stable diffusion,就可以從數(shù)據(jù)和模型兩方面去保護(hù)生成式AI應(yīng)用,確保數(shù)據(jù)安全和隱私性。
第三,生成式AI的一些內(nèi)容是由機(jī)器生成的,例如前幾年的Deepfake(基于AI的人體圖像合成技術(shù)的應(yīng)用),英特爾Lab過去兩年做了很多工作,可以通過算法判定生成的內(nèi)容是不是類似于Deepfake這樣的應(yīng)用,即判斷AI生成的是否是假視頻。
除此之外,在筆記本上運(yùn)行Stable Diffusion大語言模型,不僅降低了AI的使用門檻,另一方面也起到了保護(hù)數(shù)據(jù)模型的作用,因?yàn)檎麄€(gè)生成式AI、大語言模型都可以部署在本地,算法、應(yīng)用、數(shù)據(jù)都在本地。
據(jù)了解,在監(jiān)測(cè)和管理大規(guī)模生成式AI解決方案、并將其整合至企業(yè)現(xiàn)有的工作流程方面,英特爾和波士頓咨詢公司展開了合作,通過利用英特爾搭載有至強(qiáng)可擴(kuò)展處理器和Habana Gaudi的AI超級(jí)計(jì)算機(jī),以及可隨時(shí)投產(chǎn)的規(guī)?;旌显栖浖?,能夠在波士頓咨詢公司專有數(shù)據(jù)上訓(xùn)練領(lǐng)域特定的基礎(chǔ)模型。該基礎(chǔ)模型可洞察基于過去50多年中高度保密的專有數(shù)據(jù)。同時(shí),所有的AI訓(xùn)練和推理都完全符合波士頓咨詢公司的安全標(biāo)準(zhǔn)。
此次合作所產(chǎn)出的聯(lián)合解決方案旨在解決各種實(shí)際的業(yè)務(wù)問題,例如,為資產(chǎn)管理行業(yè)提供自動(dòng)化投資組合的管理代理;通過專有數(shù)據(jù)為航空公司提供維護(hù)運(yùn)營(yíng);以及提供帶有自定義機(jī)密代碼庫(kù)的、更為安全的軟件開發(fā)代理等。
生成式AI熱潮如何影響軟硬件架構(gòu)發(fā)展?
談及生成式AI帶來的深遠(yuǎn)影響,戴金權(quán)表示,未來,一個(gè)很可能的場(chǎng)景就是生成式AI會(huì)被大量使用、提高工作效率,未來工作流程進(jìn)入自動(dòng)化。英特爾希望做到“AI無所不在“,因此不論是本地、云端還是邊緣端,可以實(shí)現(xiàn)從非常小尺寸的設(shè)備擴(kuò)展到大規(guī)模數(shù)據(jù)中心的xPU架構(gòu),這是能夠支持未來“生成式AI無所不在”的一個(gè)趨勢(shì)。
從軟件角度來看,大模型當(dāng)前基本以Transformer架構(gòu)作為基礎(chǔ)構(gòu)件,那么,它對(duì)內(nèi)存的需求,包括內(nèi)存帶寬、內(nèi)存容量以及相應(yīng)的計(jì)算需求,業(yè)界都在進(jìn)行大量的研究工作,以便能夠更好地進(jìn)行加速。
從發(fā)展的眼光來看,Transformer等大模型可能會(huì)有更大的尺寸,將來可能是今天的幾倍、幾十倍甚至更高,結(jié)合多模態(tài)融合等需求,將會(huì)對(duì)軟件算法的設(shè)計(jì),比如低精度、低比特、壓縮、稀疏化,包括注意力機(jī)制設(shè)計(jì)等產(chǎn)生不同需求。他強(qiáng)調(diào),軟件算法設(shè)計(jì)的多樣化,是有助于滿足生成式AI和大語言模型算力需求的重要組成部分。
綜上,戴金權(quán)認(rèn)為這些需求可能會(huì)進(jìn)一步引導(dǎo)將來訓(xùn)練、推理芯片的架構(gòu)設(shè)計(jì)等。此外,大模型還在快速發(fā)展中,可能在更長(zhǎng)的時(shí)間段(比如十年、幾十年)有很大發(fā)展,包括不同算法級(jí)別、不同場(chǎng)景的適配等等,而這些都會(huì)對(duì)AI芯片甚至所有計(jì)算芯片帶來深遠(yuǎn)影響。