Matt Shumer宣布推出Reflection 70B,并稱其為世界頂級開源模型。它在MMLU、MATH、IFEval、GSM8K等測試中橫掃全場,各項(xiàng)基準(zhǔn)測試成績均超過GPT-4o,還戰(zhàn)勝了405B的Llama 3.1。PerfXCloud(澎峰云)大模型開發(fā)與服務(wù)平臺第一時(shí)間支持并在平臺完成上線,趕快來體驗(yàn)吧!
Reflection 70B
- 卓越的基準(zhǔn)測試性能:Reflection 70B已在多個(gè)基準(zhǔn)測試中經(jīng)過嚴(yán)格測試,包括MMLU和HumanEval。
測試結(jié)果表明,Reflection 70B性能大幅超越Llama模型,并與當(dāng)前頂尖LLM相抗衡。?具體來說,Reflection 70B在與頂級閉源模型(Claude 3.5 Sonnet,GPT-4o)比較中,表現(xiàn)出色。在MMLU、MATH、IFEval、GSM8K中測試基準(zhǔn)上,都擊敗了GPT-4o。
更值得一提的是,僅憑70B參數(shù)徹底擊敗405B的Llama 3.1,差距顯而易見。
- 「錯(cuò)誤識別」和「錯(cuò)誤糾正」能力:Reflection 70B運(yùn)用Reflection-Tuning的技術(shù),使得模型能夠在最終確定回復(fù)之前,先檢測自身推理的錯(cuò)誤并糾正。Reflection 70B引入了幾個(gè)用于推理和糾錯(cuò)的特殊token,使用戶能夠以更結(jié)構(gòu)化的方式與模型交互。在推理過程中,模型會(huì)在特殊標(biāo)簽內(nèi)輸出其推理,以便在檢測到錯(cuò)誤時(shí)進(jìn)行實(shí)時(shí)糾正。?
- 增強(qiáng)的CoT(思維鏈)效力:Reflection 70B將規(guī)劃單獨(dú)作為一個(gè)步驟,利用CoT縝密思考的過程,使得最終輸出結(jié)果更加簡潔明了。這使得該模型在執(zhí)行高精確度要求的任務(wù)時(shí)表現(xiàn)出色,因?yàn)樗鼘⑼评矸殖刹煌襟E以提高精確度。
PerfXCloud
PerfXCloud是澎峰科技為開發(fā)者和企業(yè)量身打造的AI開發(fā)和部署平臺。它專注于滿足大模型的微調(diào)和推理需求,為用戶提供極致便捷的一鍵部署體驗(yàn)。
PerfXCloud為算力中心提供大模型AI科學(xué)與工程計(jì)算的整體運(yùn)營解決方案,助力算力中心升級成為“AI超級工廠”。
模型廣場圖片
目前,PerfXCloud(澎峰云)已上線Reflection 70B、Yi-Coder 1.5B、Yi-Coder 9B、Stable-diffusion、ChatTTS以及面壁小鋼炮MiniCPM系列等各主流大模型,并面向基石用戶免費(fèi)開放llama3.1 405B的API調(diào)用接口。趕快注冊申請成為基石用戶來體驗(yàn)吧!