AI時代,什么樣的數(shù)據(jù)才是MLOPS需要的數(shù)據(jù)?用什么方法來標注數(shù)據(jù)?智能駕駛數(shù)據(jù)解決方案如何研發(fā)迭代?
時下,道路上搭載L2級以上智能駕駛系統(tǒng)的車輛逐漸增多,安全問題備受關注。為了在競爭中脫穎而出,加速智能駕駛應用安全落地,智能駕駛企業(yè)必須依靠海量的高質(zhì)量標注數(shù)據(jù)來訓練優(yōu)化算法模型。
伴隨人工智能(AI)大模型應用的快速進展,作為AI技術(shù)底層基礎的數(shù)據(jù),既需要高質(zhì)量、大規(guī)模,也需要多樣性。特別是相比其他應用場景,智能駕駛的落地場景更加復雜,需要有大量場景化的高質(zhì)量數(shù)據(jù)做支撐。
從感知到數(shù)據(jù)標注
智能駕駛車輛通過雷達、激光雷達、攝像頭、超聲波等各種傳感器收集數(shù)據(jù),實時感知周圍環(huán)境,為實現(xiàn)行車安全提供最基礎的數(shù)據(jù)。隨著環(huán)境感知、智能決策、控制與執(zhí)行系統(tǒng)等核心技術(shù)的快速發(fā)展與日漸成熟,智能駕駛汽車已經(jīng)開始從實驗室走向道路實地測試及商業(yè)化落地應用。
6月,梅賽德斯-奔馳擊敗特斯拉,L3級有條件智能駕駛技術(shù)獲得美國加州機動車輛管理局(DMV)認證,成為首個被授權(quán)在美國人口最多的州銷售搭載上述系統(tǒng)量產(chǎn)車的車企;接著又宣布將在年內(nèi)培訓超過600名全球數(shù)據(jù)和AI專家。8月,美國加州公用事業(yè)委員會(CPUC)批準Cruise和Waymo在舊金山提供7×24小時、區(qū)域不限、全無人、可收費服務。一夜之間,對Robotaxi的所有限制全面解禁。
作為智能駕駛領頭羊,Waymo L4級實際路測里程已超過2000萬英里(3218.6萬公里)。國內(nèi)智能駕駛同步企業(yè)百度實際路測里程也已超過1000萬公里。由此可見,智能駕駛技術(shù)不斷突破的一個關鍵支撐是背后龐大的數(shù)據(jù)量,更少不了數(shù)據(jù)標注的“用心陪伴”。
數(shù)據(jù)標注既要質(zhì)量、效率又要顧及成本
基于深度學習算法的智能駕駛技術(shù)離不開數(shù)據(jù)標注和訓練。數(shù)據(jù)標注的精度決定算法的準確率,訓練的廣度決定算法的適應性和魯棒性。路測數(shù)據(jù)均為非結(jié)構(gòu)化數(shù)據(jù)集,未經(jīng)驗證的原始數(shù)據(jù)中存在數(shù)據(jù)重復、矛盾、錯誤、缺乏分類等問題,都可能影響算法的訓練與調(diào)優(yōu)。
特別是開放道路智能駕駛對感知系統(tǒng)的實時性和安全性要求極高,相關算法的準確度與場景適配度需要達到很高的水準,這對數(shù)據(jù)標注的規(guī)模與數(shù)據(jù)產(chǎn)出質(zhì)量提出了更高的要求。
現(xiàn)在,用數(shù)據(jù)閉環(huán)來提升智能駕駛能力已成為大多數(shù)智能駕駛公司的共識。不過,現(xiàn)實中駕駛場景難以窮盡、極其復雜且不可預測,這就需要AI模型的快速迭代升級。
事實上,智能駕駛的成熟不僅是數(shù)量和效率的問題,質(zhì)量和成本也不容忽視。特別是標注成本將決定智能駕駛能否早日走進人們?nèi)粘I睢?/strong>
有人調(diào)侃說:“人工智能有多少智能,就有多少人工”,數(shù)據(jù)標注也差不多。只有用“智能”替代“人工”,讓標注自動化,才能提高數(shù)據(jù)標注效率,并降低成本。
顯而易見,要想提高數(shù)據(jù)標注效率,就要有高效的數(shù)據(jù)標注工具和平臺,通過高效的預標注、輔助標注等相關算法,打通數(shù)據(jù)閉環(huán),真正滿足算法側(cè)的需求。
AI大模型無疑是提升標注質(zhì)量和效率、降低成本的一把“金鑰匙”,替代人工標注并大幅提升效率,縮減標注時間和成本。
從AI工程化解決方案到大模型
2015年,云測數(shù)據(jù)總經(jīng)理賈宇航還在美國舊金山,彼時街道上已有不少Robotaxi在試驗路測,無人化趨勢就此展開。2017年前后,AI及數(shù)據(jù)行業(yè)機遇顯現(xiàn),云測數(shù)據(jù)正式對外商業(yè)化,希望通過提供高質(zhì)量數(shù)據(jù)為AI應用場景提供支撐,成為場景化數(shù)據(jù)服務專家,發(fā)力智能駕駛、智慧家居、智慧金融和智慧城市四大領域。
面向智能駕駛,云測數(shù)據(jù)率先推出了激光雷達點云標注工具,實現(xiàn)了多模態(tài)3D融合標注。一路走來,云測數(shù)據(jù)一直將場景化、高質(zhì)量數(shù)據(jù)概念貫徹始終。
在AI商業(yè)化落地過程中,云測數(shù)據(jù)從研發(fā)、預研到持續(xù)在線優(yōu)化,推出了智能駕駛數(shù)據(jù)服務解決方案,利用行業(yè)基礎數(shù)據(jù)集覆蓋預研階段數(shù)據(jù)需求,以場景化數(shù)據(jù)服務覆蓋各種傳感器,通過定點開發(fā)和使用閉環(huán)數(shù)據(jù)滿足客戶實際標注需求。在持續(xù)優(yōu)化迭代中,云測數(shù)據(jù)以數(shù)據(jù)閉環(huán)工具鏈集成為抓手,用數(shù)據(jù)服務幫助客戶持續(xù)優(yōu)化迭代算法,有效獲取智能駕駛需要的數(shù)據(jù)。
2021年,云測數(shù)據(jù)推出智能駕駛AI數(shù)據(jù)解決方案1.0,進一步彰顯了數(shù)據(jù)閉環(huán)系統(tǒng)集成的重要性。今年,AI高速發(fā)展,BEV Transformer等大模型浮出水面,引入了激光雷達,攝像頭數(shù)量也在增加,需要處理的數(shù)據(jù)維度更多,數(shù)據(jù)量和文件尺寸更大,復雜性非常高。
此時,云測數(shù)據(jù)的數(shù)據(jù)閉環(huán)能力、自動標注能力、數(shù)據(jù)管理工具鏈、人工效能評估等方面能力也羽翼漸豐。圍繞更擅長的場景,云測數(shù)據(jù)對1.0進行了全面升級,通過系統(tǒng)集成將大模型預標注能力與人工標注完美結(jié)合,提升了數(shù)據(jù)集和場景化數(shù)據(jù)服務能力,尤其是全面提升了數(shù)據(jù)標注、流轉(zhuǎn)效率。
事實上,目前國內(nèi)有100多家公司推出了大模型,呈現(xiàn)一種“亂戰(zhàn)”局面。一些入局大模型的公司也在加快布局數(shù)據(jù)標注團隊,打造全鏈條AI服務商。作為第三方數(shù)據(jù)服務公司的云測數(shù)據(jù)又有何優(yōu)勢可言呢?
賈宇航自信地表示:“獨立的第三方數(shù)據(jù)標注服務公司態(tài)度中立,以領域劃分推動行業(yè)發(fā)展,而不是基于某個企業(yè)的某種應用;憑借對前沿趨勢的研判,數(shù)據(jù)標注布局方面投入也更大。”
AI領域研發(fā)包括很多內(nèi)容,從算法、框架、算力或傳感器到數(shù)據(jù)標注。這么多排列組合帶來了一個痛點,因為標準不同,每個to B或研發(fā)企業(yè)都會遇到大量遷移的問題。只有硬件標準、算法框架和數(shù)據(jù)標注規(guī)則統(tǒng)一,才有助于企業(yè)充分積累經(jīng)驗?,F(xiàn)在,大家對數(shù)據(jù)標注標準中的標注流程、方法和正確率很少提及。為此,云測數(shù)據(jù)正在與行業(yè)協(xié)會和許多車企推進行業(yè)標準的制定。
他說:“AI技術(shù)正處于規(guī)?;逃秒A段,標準不統(tǒng)一會影響行業(yè)發(fā)展。只有標準化的東西越來越多,定制化的內(nèi)容才能越來越少;才能挖掘一個企業(yè)真正的實力,讓時間產(chǎn)生‘復利’。”
數(shù)據(jù)服務直面挑戰(zhàn)和機遇
在智能駕駛快速發(fā)展和應用落地進程中,AI數(shù)據(jù)服務面臨著怎樣的挑戰(zhàn)?在賈宇航看來,隨著技術(shù)的不斷發(fā)展,AI數(shù)據(jù)的高要求既是挑戰(zhàn)更是機遇。如:自動駕駛中所面臨場景是開放道路,需要的數(shù)據(jù)是海量的;針對不同場景的Corner case如何識別和判斷,從而保障覆蓋更多場景下的數(shù)據(jù)質(zhì)量;以及通過數(shù)據(jù)閉環(huán)體系,提升數(shù)據(jù)處理、流轉(zhuǎn)效率,加速推動算法研發(fā)發(fā)展等等。
回顧過去,在數(shù)據(jù)標注質(zhì)量方面,現(xiàn)階段數(shù)據(jù)標注處理難度與幾年前比有本質(zhì)的區(qū)別,需要結(jié)合3D點云加圖像及時序在3D空間進行3D框標注可行駛區(qū)域。有鑒于此,如何確保數(shù)據(jù)標注的質(zhì)量和準確性,考驗的是數(shù)據(jù)公司的服務經(jīng)驗、標注員的能力及工具鏈的支撐。
時效性要求也是車企的剛性需求,數(shù)據(jù)服務公司需要通過工具鏈、服務解決方案的持續(xù)迭代和人員培養(yǎng)來適應新的需求。
從車企角度看,產(chǎn)品研發(fā)要經(jīng)歷預研、研發(fā)和持續(xù)迭代期。預研階段主要是利用行業(yè)基礎數(shù)據(jù)集,如特定目標檢測或可行駛區(qū)域、智能駕艙的人臉、姿態(tài)等;研發(fā)階段是將證明可行的方案放在特定車型上完成傳感器定點和算法驗證。之后,需要用專門的傳感器完成數(shù)據(jù)采集、清洗和標注。在這個過程中,云測數(shù)據(jù)主要承擔訓練數(shù)據(jù)全生命周期的AI數(shù)據(jù)處理工作。
進入持續(xù)迭代階段,車企要在灰度發(fā)布和實際投產(chǎn)中搭建自己的數(shù)據(jù)閉環(huán),將不同的bad case持續(xù)回流到系統(tǒng)中,然后進行數(shù)據(jù)清洗和人工標注。在這個階段,云測數(shù)據(jù)可以提供系統(tǒng)集成、數(shù)據(jù)處理平臺工具能力,以持續(xù)優(yōu)化并迭代算法。
升級賦能 彰顯效率、質(zhì)量和成本優(yōu)勢
2021年云測數(shù)據(jù)發(fā)布的智能駕駛數(shù)據(jù)解決方案1.0基于產(chǎn)品、服務、工具三駕馬車,以時間延續(xù)為主線一站式滿足了智能駕駛研發(fā)初期到落地的數(shù)據(jù)訓練需求。在智能駕駛規(guī)模化量產(chǎn)階段,其中很多技術(shù)已經(jīng)商用,數(shù)據(jù)閉環(huán)系統(tǒng)已在搭建和完善中。
云測數(shù)據(jù)智能駕駛數(shù)據(jù)解決方案2.0以系統(tǒng)集成能力為核心,創(chuàng)建了新一代AI工程化數(shù)據(jù)處理工作臺,在質(zhì)量、效率和成本等方面具有明顯的優(yōu)勢。
2.0集成了不同模型的預標注能力,包括圖像整幀、自選物體、區(qū)域、點云批次識別和文本識別等,重新定義了基于預標注的人工標注效能,如能效看板、綜合看版等。
針對特定算法類型的數(shù)據(jù)持續(xù)優(yōu)化迭代,涵蓋點云4D疊幀、語義分割聯(lián)合標注和智能ID軌跡預測。數(shù)據(jù)集也更加豐富,納入了更多場景數(shù)據(jù),標注方法也從原來以點線面體為主進化到融合4D標注規(guī)則和標注工藝。在服務方面,數(shù)據(jù)標注精度、反饋給企業(yè)的時效性有了大幅提升。
在數(shù)據(jù)標注效率方面,與人工標注相比,BEV空間標注效率約提升1.5倍以上。例如,人工標注3D點云拉框需要先選擇屬性,再選擇車頭朝向?,F(xiàn)在,人工只需大致框選一個區(qū)域,就完成了自動貼合,基于一些特定標簽類別就能實現(xiàn)自動選擇。其效率比人工拉框至少快了1.5倍到兩倍。又如4D標注地面箭頭,原來需要每幀標注,現(xiàn)在基于4D標注加空間坐標,只要標注對應一幀,通過映射即可將30幀結(jié)果疊在一起,完成多傳感器融合4D標注,效率更高。
至于2.0為什么要支持人工和自動標注交互,賈宇航解釋說,現(xiàn)在算法還不很完善,還需要人工標注。區(qū)域內(nèi)算法識別相對精準,而區(qū)域框線邊界還需要人工微調(diào)個幾像素?,F(xiàn)在,人工標注的應用主要是算法完全沒見過的一些場景,或更換傳感器時算法不能很好識別的情況。而當算法逐漸具備了更強能力,就可以實現(xiàn)自動標注,但這個自動標注結(jié)果還不足以用于算法訓練,還需要人工進行一些校驗,以確保識別結(jié)果的準確性。
從趨勢看,伴隨自動標注能力提升,標注將逐步從手工衍化為算法自動標注、人工校驗和人工標注。隨著算法的實際量產(chǎn),數(shù)據(jù)閉環(huán)能力增強,整體標注數(shù)據(jù)量和手工數(shù)據(jù)標注量依然在逐年上升。以往是百分之百人工標注,現(xiàn)在是人工標注、自動標注、人工校驗各有一定占比。未來可能自動標注占比會越來越大。不過,雖然人工標注的占比在減小,但伴隨人工智能行業(yè)的逐步發(fā)展數(shù)據(jù)量日漸增加,人工標注的量仍會持續(xù)增加。
賈宇航說:“2.0和1.0相比,在保證數(shù)據(jù)標注質(zhì)量的前提下,最重要的是在效率提升的同時依然保持了高質(zhì)量的輸出,AI數(shù)據(jù)訓練過程綜合效率提升200%?!?/strong>之前3D點云標注對工具鏈的性能要求就很高,持續(xù)優(yōu)化和提升的4D標注性能可確保BEV標注有足夠的性能和效率提升。效率的提升主要體現(xiàn)在改變了原來的異步操作,如數(shù)據(jù)傳到工具,標注后導出結(jié)果,再遷移到企業(yè)服務器上進行訓練?,F(xiàn)在,完全通過API流程接口實時流轉(zhuǎn),效率更高。
2.0在支持了更多智能駕駛標注類型,如現(xiàn)在諸多企業(yè)基于BEV+Transformer算法研發(fā),對BEV視角環(huán)視拼接加點云融標注成為了主流。支持特定類型也使云測數(shù)據(jù)能更快速響應客戶數(shù)據(jù)標注需求。
技術(shù)迭代將使智能駕駛數(shù)據(jù)數(shù)據(jù)應用呈現(xiàn)多元化。在成本方面,通過對線上回流數(shù)據(jù)進行標注,不斷迭代模型,數(shù)據(jù)將越用越智能;將標注數(shù)據(jù)流轉(zhuǎn)至仿真平臺用于評測,往復使用可高效利用數(shù)據(jù)價值;人工檢查糾正算法結(jié)果,輸出業(yè)務信息閉環(huán),可以通過人機交互實現(xiàn)降本增效。
利用數(shù)據(jù)服務 推進智能駕駛商用落地
綜上所述,針對當下智能駕駛應用場景更加豐富、數(shù)據(jù)閉環(huán)已成為智能駕駛量產(chǎn)落地核心飛輪的發(fā)展趨勢,云測數(shù)據(jù)以集成數(shù)據(jù)底座為核心,全面升級了數(shù)據(jù)標注及數(shù)據(jù)管理工具鏈;還結(jié)合數(shù)據(jù)應用開發(fā)基于數(shù)據(jù)流轉(zhuǎn)的數(shù)據(jù)應用接口,從數(shù)據(jù)維度支持客當前主流模型開發(fā)所需任務類型;人工標注與自動標注算法的交互能力升級,全面提升了數(shù)據(jù)標注效率。
與此同時,云測數(shù)據(jù)還在參編行業(yè)標準,與國內(nèi)外主流車企、Tier1、頭部激光雷達和算力芯片公司以及一些Robotaxi公司精誠合作,利用數(shù)據(jù)服務幫助客戶提效提質(zhì)。
數(shù)據(jù)標注恰似沙里淘金,難度之大可想而知,既要堅持,又要有獨門絕技。賈宇航表示,云測數(shù)據(jù)將圍繞智能駕駛領域,結(jié)合企業(yè)算法研發(fā)優(yōu)勢持續(xù)迭代產(chǎn)品,同時不斷提升人員標注能力,從數(shù)據(jù)維度支持客戶大模型應用;在人工智能數(shù)據(jù)服務方面,將推出面向垂直行業(yè)大模型產(chǎn)業(yè)化部署數(shù)據(jù)解決方案。未來,云測數(shù)據(jù)將立足企業(yè)的長久發(fā)展,釋放企業(yè)創(chuàng)新力量,全方位推進智能駕駛的商用落地進程。