日前,中國電動汽車百人會發(fā)布調(diào)研報(bào)告《全球及我國新能源汽車產(chǎn)業(yè)發(fā)展趨勢與政策走向》。報(bào)告指出,探索大模型在汽車領(lǐng)域的應(yīng)用仍面臨諸多挑戰(zhàn),并給出了相應(yīng)建議。
1ONE
目前,國內(nèi)企業(yè)面臨訓(xùn)練芯片“卡脖子”問題。
大模型云端訓(xùn)練需要上萬片高端GPU訓(xùn)練芯片,尤其是端到端自動駕駛訓(xùn)練數(shù)據(jù)量已達(dá)到PB級,訓(xùn)練芯片需求更大。特斯拉端到端自動駕駛FSD V12在超過10萬塊GPU芯片支撐下才實(shí)現(xiàn)周級迭代。國內(nèi)多數(shù)車企僅有上千塊GPU,很難發(fā)揮海量數(shù)據(jù)價(jià)值并實(shí)現(xiàn)較好的訓(xùn)練效果。
大模型在云端提供服務(wù)也需要大量算力支撐,以ChatGPT為例,按照每天獨(dú)立訪問量2500萬次計(jì)算,預(yù)計(jì)需要3萬多片A100芯片。目前,美國對華禁售A100、H100高性能GPU芯片,甚至也限制出售“閹割”版的A800、H800。
同時(shí),國產(chǎn)芯片仍存在制程落后、性能不足等問題,部分芯片在大規(guī)模訓(xùn)練時(shí)故障率較高,使用體驗(yàn)仍有欠缺,導(dǎo)致我國車企的算力擴(kuò)展遇到很大阻力。
國內(nèi)大模型訓(xùn)練數(shù)據(jù)量少且質(zhì)量不高。數(shù)量方面,據(jù)Epoch AI估算,全球用于訓(xùn)練通用大模型的數(shù)據(jù)中,書籍、科研論文等高質(zhì)量語言數(shù)據(jù)集可能會在2024 年前耗盡,大模型訓(xùn)練或?qū)⒚媾R無數(shù)據(jù)可用的窘境。中文語料數(shù)據(jù)僅占約1.3%,Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流數(shù)據(jù)集都以英文為主,即使是最流行的Common Crawl數(shù)據(jù)集,中文數(shù)據(jù)也只占4.8%。另外,大模型理解和掌握客觀世界規(guī)律,需要學(xué)習(xí)大量來自知識和價(jià)值觀層的數(shù)據(jù),此類中文語料短缺嚴(yán)重,甚至無法通過機(jī)器翻譯進(jìn)行彌補(bǔ)。聚焦自動駕駛領(lǐng)域,特斯拉擁有超過1000萬個(gè)有效視頻片段數(shù)據(jù),且其在全球有超過600萬輛智能汽車在通過影子模式持續(xù)采集數(shù)據(jù),平均每輛車一天就能搜集到一個(gè)典型的極端工況樣本。與之相比,國內(nèi)車企場景數(shù)據(jù)普遍不足百萬,且出于數(shù)據(jù)合規(guī)的考慮,車企之間數(shù)據(jù)的共享流通仍有阻塞,導(dǎo)致國內(nèi)車企的高價(jià)值場景數(shù)據(jù)較特斯拉相差超過一個(gè)數(shù)量級。
質(zhì)量方面,高質(zhì)量數(shù)據(jù)集,需要企業(yè)在數(shù)據(jù)治理方面投入巨大的資金和精力,包括頂層設(shè)計(jì)、標(biāo)注規(guī)范、標(biāo)注質(zhì)量把控以及發(fā)布后更新升級等各個(gè)方面,但國內(nèi)企業(yè)在數(shù)據(jù)挖掘和數(shù)據(jù)治理領(lǐng)域的積累和沉淀不足。汽車行業(yè)屬于傳統(tǒng)制造業(yè),數(shù)據(jù)的沉淀更是差強(qiáng)人意。這使得大模型在汽車行業(yè)落地應(yīng)用過程中,存在明顯的訓(xùn)練數(shù)據(jù)分布不均衡及完備性較差等問題。例如,國內(nèi)車企的絕大部分?jǐn)?shù)據(jù)分布在幾個(gè)密集的場景里,“頭部效應(yīng)”非常明顯,真正需要的極端工況數(shù)據(jù)卻非常少。且國內(nèi)車企車型多而單一車型存量少,不同車型的傳感器功能不一樣,采集的數(shù)據(jù)各有差異。與特斯拉車型相對集中且傳感器方案比較統(tǒng)一相比,國內(nèi)車企數(shù)據(jù)的復(fù)用性很差。
數(shù)據(jù)問題不解決,大模型可能會形成“偏科”,導(dǎo)致產(chǎn)生嚴(yán)重的“幻覺”問題,由于汽車行業(yè)本身對安全性和可靠性的要求極高,這也會大大限制大模型的應(yīng)用落地。
落地商業(yè)模式不清晰。一方面,大模型處于發(fā)展初期,主要以Token使用量收費(fèi)。從TO B模式來看,車企每年的預(yù)算、成本、營收是固定的,以Token使用量來收費(fèi)的模式動態(tài)性太大,車企難以接受。
另一方面,“軟件+服務(wù)”的模式,在國內(nèi)很難得到認(rèn)可。在汽車行業(yè)“內(nèi)卷”越來越嚴(yán)重的當(dāng)下,純license模式也難以持續(xù),企業(yè)付費(fèi)意愿不高。此外,大模型商業(yè)化的價(jià)值,還是以提升車企產(chǎn)品銷量的傳統(tǒng)方式為主,車企、大模型企業(yè)雙方還未找到可以合作共贏的路徑。
缺乏良性合作生態(tài)支撐。一是貫穿實(shí)時(shí)信息以及垂類信息的數(shù)據(jù)生態(tài)還未形成,導(dǎo)致大模型對實(shí)時(shí)動態(tài)和垂直領(lǐng)域的理解能力比較差。例如,GPT-3.5訓(xùn)練數(shù)據(jù)集截止到2021年,無法理解和處理2022年的信息。
二是大模型上車會對整車軟件架構(gòu)、硬件能力、交互策略產(chǎn)生很大影響。目前國內(nèi)大模型產(chǎn)品非常多且迭代速度非???,如何在保證產(chǎn)品競爭力的前提下與大模型企業(yè)合作,車企仍存疑惑。
三是開源大模型沒有一個(gè)是由中國完全主導(dǎo)的,勢必會影響國內(nèi)AI技術(shù)的迭代速度與創(chuàng)新能力。在全球化競爭日益激烈的背景下,沒有主導(dǎo)的開源大模型,可能使中國AI企業(yè)在國際市場上處于不利地位。
缺乏大模型能力評價(jià)標(biāo)準(zhǔn)。行業(yè)和消費(fèi)者對大模型上車的期望都很高,但對其表現(xiàn)的訴求“千人千面”。有些人希望大模型無所不能,對所有的問題都能答復(fù)。有些人希望簡潔,只要按照指令操作即可。如何評價(jià)大模型在具體場景下的能力,仍然沒有明確、統(tǒng)一的標(biāo)準(zhǔn)。例如,當(dāng)前大模型在語音交互的語言理解、邏輯推理、信息歸納等能力方面,已經(jīng)有很多評價(jià)指標(biāo),但是在上車評價(jià)方面,仍面臨識別準(zhǔn)確率的評判局限、響應(yīng)速度評價(jià)單一、用戶體驗(yàn)受主觀性和復(fù)雜性拘束、缺乏多場景綜合評估等挑戰(zhàn)。
2TWO
建議
加強(qiáng)大模型對汽車行業(yè)顛覆性影響的認(rèn)識。汽車行業(yè)的根本是制造業(yè),大模型創(chuàng)新發(fā)展的速度遠(yuǎn)遠(yuǎn)超出了汽車產(chǎn)業(yè),兩個(gè)產(chǎn)業(yè)融合會對汽車產(chǎn)業(yè)產(chǎn)生深刻甚至顛覆性的影響。汽車行業(yè)需要從戰(zhàn)略上刷新認(rèn)知,順應(yīng)技術(shù)發(fā)展趨勢,加快擁抱和接納大模型的速度,充分利用大模型加快汽車產(chǎn)業(yè)智能化發(fā)展的步伐。
建立適應(yīng)大模型發(fā)展的管理機(jī)制。智能汽車的快速發(fā)展是多部門共同推進(jìn)的結(jié)果,大模型在汽車行業(yè)的落地應(yīng)用是一個(gè)系統(tǒng)性工程,需要算力、算法、信息傳輸?shù)榷鄬用婺芰Φ墓餐С?,更需要政府部門統(tǒng)籌推進(jìn),建立一個(gè)適應(yīng)大模型發(fā)展的管理機(jī)制。在技術(shù)相對落后的情況下,發(fā)揮我國多系統(tǒng)協(xié)同的能力和優(yōu)勢,從而探索出差異化的發(fā)展道路。
加強(qiáng)試點(diǎn)示范。目前,國內(nèi)通過備案的大模型達(dá)117個(gè),但真正實(shí)現(xiàn)商業(yè)變現(xiàn)的很少,關(guān)鍵是沒有找到核心的應(yīng)用場景。建議選擇具有代表性的車企和大模型企業(yè),開展試點(diǎn)示范項(xiàng)目,通過應(yīng)用驅(qū)動的方式,探索大模型在汽車領(lǐng)域的高價(jià)值應(yīng)用場景,形成可復(fù)制、可推廣的經(jīng)驗(yàn)?zāi)J?,促進(jìn)大模型的可持續(xù)健康發(fā)展。
加快推動算力共享。以美國為代表的發(fā)達(dá)國家的AI和芯片,已經(jīng)形成軟硬件相互促進(jìn)的合力。為彌補(bǔ)算力短板,建議政府部門和行業(yè)機(jī)構(gòu)推動建立算力聯(lián)盟,把部分公共屬性的算力統(tǒng)籌起來。或者鼓勵(lì)企業(yè)揭榜掛帥,將國內(nèi)各公司分散的算力集中起來,推動算力資源共享,解決AI基建不足的問題。
促進(jìn)汽車數(shù)據(jù)共享與流通。一方面,加快制定汽車數(shù)據(jù)定價(jià)、權(quán)責(zé)劃分、流通交易等基礎(chǔ)制度,消除相關(guān)法規(guī)壁壘,促進(jìn)汽車數(shù)據(jù)大規(guī)模流通,增加可供大模型訓(xùn)練的數(shù)據(jù)量。
另一方面,借鑒北京市政府開放市區(qū)級單位高質(zhì)量政務(wù)數(shù)據(jù)的做法,在合法、保證隱私的前提下逐步放開部委、地方政府的政務(wù)數(shù)據(jù)并積極引導(dǎo)行業(yè)機(jī)構(gòu)釋放部分高質(zhì)量數(shù)據(jù),形成通用型數(shù)據(jù)集并對外公開,比如地理信息涉密等級、AI內(nèi)容生成涉及的道德、倫理、法規(guī)等相關(guān)信息。
此外,加大對數(shù)據(jù)合成、仿真數(shù)據(jù)方面的支持力度,適當(dāng)鼓勵(lì)并推動合成數(shù)據(jù)的應(yīng)用,彌補(bǔ)國內(nèi)車企數(shù)據(jù)不足的短板。
構(gòu)建開放性合作生態(tài)。發(fā)揮好車企的鏈主角色,推動形成面向全行業(yè)的開放平臺。車企把握數(shù)據(jù)入口,供應(yīng)商提供算法、算力,共同打造能力共享、靈活組合的開放性生態(tài),協(xié)同推動汽車行業(yè)大模型的發(fā)展。
加快建立大模型上車與評價(jià)標(biāo)準(zhǔn)體系。在行業(yè)機(jī)構(gòu)的牽頭下,根據(jù)差異化落地場景,分步驟推動大模型上車評價(jià)標(biāo)準(zhǔn)和宣傳體系的建立。可優(yōu)先推動進(jìn)展較快的人機(jī)交互等應(yīng)用場景。