6月19日-23日,全球人工智能計算機視覺領(lǐng)域頂級國際會議CVPR 2022(Computer Vision and Pattern Recognition,即國際計算機視覺與模式識別)在美國新奧爾良舉行,并同步進行線上會議。商湯科技及聯(lián)合實驗室共71篇論文入選本屆CVPR,再創(chuàng)新高,其中有接近四分之一被錄用為Oral(口頭報告),涵蓋三維視覺、自動駕駛等多個備受關(guān)注的前沿研究領(lǐng)域和方向,繼續(xù)鞏固在全球計算機視覺研究領(lǐng)域的領(lǐng)跑勢頭。
自成立以來,商湯及聯(lián)合實驗室已在各學(xué)術(shù)頂會發(fā)表論文超過700篇,在各項競賽中贏得超過70個世界冠軍。與此同時,一直以來商湯沒有把論文數(shù)量作為衡量公司技術(shù)發(fā)展的標(biāo)準(zhǔn)。商湯科技聯(lián)合創(chuàng)始人、研究院院長王曉剛博士表示:“我們希望通過為科研工作者提供高效科研的良好環(huán)境,鼓勵和引導(dǎo)年輕的研究者從解決業(yè)界實際問題角度出發(fā),做高水平、高質(zhì)量的研究?!?/p>
在本屆CVPR上,商湯科技還參與了多項學(xué)術(shù)競賽,同樣取得了令人矚目的成績。例如,商湯科技與中科院自動化所、上海人工智能實驗室聯(lián)合參加Embodied AI 2022 (2022具身智能挑戰(zhàn)賽),在RxR-Habitat賽道斬獲冠軍。作為全球embodied AI研究領(lǐng)域權(quán)威性競賽,比賽要求用自然語言控制解決室內(nèi)機器人的導(dǎo)航問題。商湯的方法達到90%以上效果提升,導(dǎo)航準(zhǔn)確率從24.08%提升至45.82%,導(dǎo)航保真度從37.39%提升到55.43%。同時,在為推動基于深度學(xué)習(xí)的視覺編碼技術(shù)而舉辦的CLIC(Challenge on Learned Image Compression)競賽中,商湯科技團隊提供的方案成功獲得圖像編碼賽道冠軍,不僅在全部三個測試碼點上取得了最優(yōu)主觀評測分?jǐn)?shù),還擁有所有深度學(xué)習(xí)方案中最快的解碼速度。
推動技術(shù)賦能產(chǎn)業(yè),以創(chuàng)新引領(lǐng)行業(yè)突破
商湯科技一直以來鼓勵研究團隊,關(guān)注產(chǎn)業(yè)需求和痛點,將研究工作與實際業(yè)務(wù)場景相結(jié)合。近年來,依托SenseCore商湯AI大裝置等AI基礎(chǔ)設(shè)施的構(gòu)建,商湯在前沿研究領(lǐng)域擁有更強大的支撐,進一步推動了與產(chǎn)業(yè)協(xié)同的深化,以AI技術(shù)創(chuàng)新引領(lǐng)行業(yè)發(fā)展。
例如在《Bailando: 3D Dance Generation via Actor-Critic GPT with Choreographic Memory》這篇論文中,研究人員提出了一種新的音樂到舞蹈框架Bailando,它可以驅(qū)動3D角色跟隨音樂做出舞蹈動作,而且不僅能保證動作的標(biāo)準(zhǔn)與美感,還能在時間上保持與不同音樂節(jié)奏的一致性。當(dāng)前,在AI、云計算等技術(shù)能力提升的背景下,數(shù)字人的應(yīng)用范圍日漸豐富,在社交、游戲、直播、虛擬偶像等領(lǐng)域逐漸融入我們的生活。這一研究無疑為未來數(shù)字人產(chǎn)業(yè)進行更加智能、個性的人物塑造,滿足多樣化需求提供了潛在方向。
點云跟蹤框架PTTR示意圖
近年來,隨著自動駕駛和激光雷達技術(shù)的發(fā)展,基于點云的目標(biāo)跟蹤也獲得了更多的關(guān)注。針對點云數(shù)據(jù)特有的挑戰(zhàn)和現(xiàn)有算法的缺陷,在論文《PTTR: Relational 3D Point Cloud Object Tracking with Transformer》中,商湯研究團隊提出了一個新穎的點云跟蹤框架PTTR,在多個數(shù)據(jù)集上顯著提升了目標(biāo)跟蹤的準(zhǔn)確性,為自動駕駛的安全運行打下了基礎(chǔ)。
商湯科技還聯(lián)合北京航空航天大學(xué)劉祥龍教授團隊,共同舉辦了面向復(fù)雜場景的魯棒機器學(xué)習(xí)大賽——Robust Models towards Open-world Classification。比賽以推動安全可靠AI模型研究為目標(biāo),鼓勵打造更安全、更可靠的AI,支持人工智能技術(shù)更可持續(xù)地發(fā)展。大賽共吸引286只隊伍、416位參賽者參加。6月19日,大賽在CVPR2022 Art of Robustness Workshop上正式公布獲獎名單。
加強基礎(chǔ)設(shè)施與生態(tài)建設(shè),助力成果生成
商湯科技在學(xué)術(shù)研究及技術(shù)創(chuàng)新方面取得的突出成績,離不開領(lǐng)先的軟硬件基礎(chǔ)設(shè)施整合的強大算力基礎(chǔ)和領(lǐng)先的算法能力,以及商湯在學(xué)術(shù)生態(tài)和開源生態(tài)建設(shè)方面的長期積累。商湯通過建設(shè)并不斷完善以SenseCore商湯AI大裝置為核心的基礎(chǔ)設(shè)施,為技術(shù)研發(fā)和落地提供重要基礎(chǔ)支撐。研究人員能夠高效地進行科研,快速實驗并驗證新的想法,加速創(chuàng)新與迭代,促進高水平論文的產(chǎn)生,同時解決產(chǎn)業(yè)落地中的問題。
商湯十分重視學(xué)術(shù)生態(tài)建設(shè)。2017年以來,商湯科技陸續(xù)與上海交通大學(xué)、南洋理工大學(xué)、浙江大學(xué)分別成立聯(lián)合研究院或?qū)嶒炇?與清華大學(xué)建立“感知計算”產(chǎn)學(xué)研深度融合專項計劃,并推動成立全球人工智能高校學(xué)術(shù)聯(lián)盟,通過與學(xué)術(shù)界的緊密聯(lián)系,促進各種學(xué)術(shù)成果的產(chǎn)生以及國際間的學(xué)術(shù)交流與合作。今年6月11日,商湯科技聯(lián)合全球高校人工智能學(xué)術(shù)聯(lián)盟成功舉辦“研無止境:商湯論文分享會”活動,匯聚來自商湯科技以及香港中文大學(xué)、浙江大學(xué)、南洋理工大學(xué)、北京大學(xué)等高校的研究學(xué)者嘉賓,在線解讀在3D視覺、姿態(tài)估計、底層視覺、表征學(xué)習(xí)、場景理解等領(lǐng)域的CVPR 2022 Oral 論文,分享寶貴學(xué)術(shù)經(jīng)驗。
此外,商湯持續(xù)鞏固開源生態(tài)建設(shè)?;谝曈X算法的開源項目OpenMMLab目前在GitHub已經(jīng)擁有超過5萬顆星,并成功向研究者和業(yè)界開源上千個模型?;跊Q策智能的OpenDILab去年在WAIC大會發(fā)布并向?qū)W術(shù)和工業(yè)界開源。在大模型方向,商湯與上海人工智能實驗室及高校聯(lián)合發(fā)布了通用視覺技術(shù)體系書生INTERN,并開源了OpenGVLab,助力通用人工智能基礎(chǔ)研究和生態(tài)構(gòu)建。OpenMMLab還在CVPR期間舉辦了主題為《OpenMMLab:計算機視覺研究和生產(chǎn)基礎(chǔ)平臺》的研討會,邀請學(xué)術(shù)大咖參與分享討論,共建開源生態(tài)。
隨著基礎(chǔ)設(shè)施的構(gòu)建完善,學(xué)術(shù)與開源生態(tài)的培育,人工智能技術(shù)研究的基礎(chǔ)將能夠更加的穩(wěn)固、更加寬廣。商湯將以此為支撐持續(xù)引領(lǐng)人工智能技術(shù)創(chuàng)新,加強AI產(chǎn)業(yè)落地的深化,加快規(guī)?;瘧?yīng)用,推動人工智能技術(shù)與產(chǎn)業(yè)發(fā)展不斷取得突破。
?