加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

Meta Llama 3.1模型炸裂發(fā)布,英特爾端到端AI產(chǎn)品組合已實(shí)現(xiàn)優(yōu)化!

07/25 14:24
2499
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

繼今年4月推出Llama 3之后,Meta昨日正式發(fā)布了功能更強(qiáng)大的AI大模型Llama 3.1。Llama 3.1涵蓋多個不同規(guī)模及功能的全新模型,其中包括目前可獲取的、最大的開放基礎(chǔ)模型—— Llama 3.1 405B(4050億參數(shù))。

英特爾宣布其橫跨數(shù)據(jù)中心、邊緣以及客戶端的AI產(chǎn)品組合已支持上述最新模型,并通過開放生態(tài)系統(tǒng)軟件實(shí)現(xiàn)針對性優(yōu)化,涵蓋PyTorch及英特爾 PyTorch擴(kuò)展包(Intel Extension for PyTorch)、DeepSpeed、Hugging Face Optimum庫和vLLM等。此外,企業(yè)AI開放平臺(OPEA)亦為這些模型提供支持,OPEA這一全新的開放平臺項目是由LF AI & Data基金會發(fā)起,旨在聚合生態(tài)之力,推動創(chuàng)新,構(gòu)建開放、多供應(yīng)商的、強(qiáng)大且可組合的生成式AI解決方案。

Llama 3.1多語言大模型組合包含了80億參數(shù)、700億參數(shù)以及4050億參數(shù)(文本輸入/文本輸出)預(yù)訓(xùn)練及指令調(diào)整的生成式AI模型。其每個模型均支持128k長文本和八種不同的語言。其中,4050億參數(shù)的Llama 3.1模型在基本常識、可操作性、數(shù)學(xué)、工具使用和多語言翻譯方面具有行業(yè)領(lǐng)先的能力。同時,該模型亦幫助開發(fā)者社區(qū)解鎖諸如合成數(shù)據(jù)生成和模型蒸餾(Model Distillation)等全新功能。

為了推動“讓AI無處不在”的愿景,英特爾在打造AI軟件生態(tài)方面持續(xù)投入,并為行業(yè)內(nèi)一系列全新AI模型提供針對英特爾AI硬件的軟件優(yōu)化。以下是英特爾部分AI產(chǎn)品組合運(yùn)行Llama 3.1模型的初步性能結(jié)果,包括英特爾至強(qiáng)處理器、搭載英特爾酷睿 Ultra處理器和英特爾銳炫顯卡的AI PC產(chǎn)品。

運(yùn)行Llama 3.1時展現(xiàn)出卓越性能

作為通用計算的基石,英特爾至強(qiáng)處理器為全球用戶提供強(qiáng)大算力,現(xiàn)已通過各大云服務(wù)商面市。英特爾至強(qiáng)處理器在其每個核心中均內(nèi)置了英特爾高級矩陣擴(kuò)展(AMX)AI引擎,可將AI性能提升至新水平。根據(jù)基準(zhǔn)測試,在第五代英特爾至強(qiáng)平臺上以1K token輸入和128 token輸出運(yùn)行80億參數(shù)的Llama 3.1模型,可以達(dá)到每秒176 token的吞吐量,同時保持下一個token延遲小于50毫秒。圖1展示了運(yùn)行支持128k長文本的80億參數(shù)Llama 3.1模型時,下一個token延遲可低于100毫秒。

圖1. 基于第五代英特爾至強(qiáng)可擴(kuò)展處理器的Llama 3.1推理延遲

由英特爾酷睿Ultra處理器和英特爾銳炫顯卡驅(qū)動的AI PC可為客戶端和邊緣提供卓越的設(shè)備端AI推理能力。憑借諸如英特爾酷睿平臺上的NPU,以及銳炫顯卡上英特爾Xe Matrix Extensions加速等專用的AI硬件,在AI PC上進(jìn)行輕量級微調(diào)和應(yīng)用定制比以往更加容易。對于本地研發(fā),PyTorch及英特爾PyTorch擴(kuò)展包等開放生態(tài)系統(tǒng)框架可幫助加速。而對于應(yīng)用部署,用戶則可使用英特爾OpenVINO工具包在AI PC上進(jìn)行高效的模型部署和推理。AI工作負(fù)載可無縫部署于CPU、GPU以及NPU上,同時實(shí)現(xiàn)性能優(yōu)化。

圖2. 在配備內(nèi)置英特爾銳炫顯卡的英特爾酷睿Ultra 7 165H AI PC上,Llama 3.1推理的下一個token延遲

圖3. 在使用英特爾銳炫A770 16GB限量版顯卡的AI PC上,Llama 3.1推理的下一個token延遲

利用Llama 3.1和OPEA部署企業(yè)RAG解決方案

英特爾AI平臺和解決方案能夠有助于企業(yè)部署AI RAG。作為OPEA的發(fā)起成員之一,英特爾正幫助引領(lǐng)行業(yè)為企業(yè)AI打造開放的生態(tài)系統(tǒng),同時,OPEA亦助力Llama 3.1模型實(shí)現(xiàn)性能優(yōu)化。

基于可組合且可配置的多方合作組件,OPEA為企業(yè)提供開源、標(biāo)準(zhǔn)化、模塊化以及異構(gòu)的RAG流水線(pipeline)。此次測試中,微服務(wù)部署于OPEA藍(lán)圖的每一支細(xì)分領(lǐng)域中,包括防護(hù)(Guardrail)、嵌入(Embedding)、大模型、數(shù)據(jù)提取及檢索。端到端RAG流水線通過Llama 3.1進(jìn)行大模型的推理及防護(hù),使用BAAI/bge-base-en-v1.5模型進(jìn)行嵌入,基于Redis向量數(shù)據(jù)庫,并通過Kubernetes(K8s)系統(tǒng)進(jìn)行編排。

圖4:基于Llama 3.1的端到端RAG流水線,由英特爾Gaudi 2加速器和至強(qiáng)處理器提供支持

目前,英特爾AI PC及數(shù)據(jù)中心AI產(chǎn)品組合和解決方案已面向全新Llama 3.1模型實(shí)現(xiàn)優(yōu)化,OPEA亦在基于英特爾至強(qiáng)等產(chǎn)品上全面啟用。未來,英特爾將持續(xù)投入軟件優(yōu)化,支持更多全新的模型與用例。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
TSW-103-07-T-S 1 Samtec Inc Board Connector, 3 Contact(s), 1 Row(s), Male, Straight, 0.1 inch Pitch, Solder Terminal, Black Insulator, Receptacle, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.32 查看
5019301100 1 Molex 1.25MM WTB CRIMP TERM MALE

ECAD模型

下載ECAD模型
$0.18 查看
CRCW06032K20FKEA 1 Vishay Intertechnologies Fixed Resistor, Metal Glaze/thick Film, 0.1W, 2200ohm, 75V, 1% +/-Tol, 100ppm/Cel, Surface Mount, 0603, CHIP, HALOGEN FREE AND ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.12 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜