即將推出的公測版優(yōu)化了前處理和后處理,以四分之一的成本和能耗獲得更高的吞吐量。
微軟、騰訊和百度正在采用 NVIDIA CV-CUDA 開發(fā)計(jì)算機(jī)視覺 AI。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛近日在宣布 NVIDIA CV-CUDA 公測版時強(qiáng)調(diào)了該開源項(xiàng)目在內(nèi)容理解、視覺搜索和深度學(xué)習(xí)方面的成果。CV-CUDA 是一個云計(jì)算級別的計(jì)算機(jī)視覺開源 GPU 加速庫。
黃仁勛在 NVIDIA GTC 大會主題演講中表示:“80% 的互聯(lián)網(wǎng)流量來自于視頻,用戶生成的視頻內(nèi)容正在推動流量大幅增長并消耗大量能源。我們應(yīng)該加速所有視頻處理并重新降低能耗。”
CV-CUDA 致力于幫助世界各地的公司在 GPU 上建立和擴(kuò)展端到端的、基于 AI 的計(jì)算機(jī)視覺和圖像處理流程。
使用 AI 優(yōu)化互聯(lián)網(wǎng)規(guī)模的視覺計(jì)算
大部分的互聯(lián)網(wǎng)流量來自于視頻和圖像數(shù)據(jù),這推動了內(nèi)容創(chuàng)作、視覺搜索、推薦以及地圖等應(yīng)用的驚人規(guī)模。
這些應(yīng)用使用一套專門的、反復(fù)被使用的計(jì)算機(jī)視覺和圖像處理算法,在神經(jīng)網(wǎng)絡(luò)處理圖像和視頻數(shù)據(jù)之前和之后對這些數(shù)據(jù)進(jìn)行處理。
微軟必應(yīng)的視覺搜索引擎使用 AI 計(jì)算機(jī)視覺在互聯(lián)網(wǎng)圖片中搜索圖片(例如狗糧)
雖然神經(jīng)網(wǎng)絡(luò)通常由 GPU 加速,但支持神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺和圖像處理算法往往是當(dāng)今 AI 應(yīng)用中的 CPU 瓶頸。
CV-CUDA 通過將前處理和后處理步驟從 CPU 轉(zhuǎn)移到 GPU,幫助在單個 GPU 上處理4倍的串流。因此,CV-CUDA能夠以四分之一的云計(jì)算成本處理同樣的工作負(fù)載。
CV-CUDA 庫為開發(fā)者提供30多種高性能的計(jì)算機(jī)視覺算法,包含原生 Python API 和與 PyTorch、TensorFlow2、ONNX 與TensorRT機(jī)器學(xué)習(xí)框架的零拷貝集成。
其結(jié)果是為云 AI 業(yè)務(wù)提供了更高的吞吐量,同時降低計(jì)算成本并減少了碳足跡。
全球?qū)τ?jì)算機(jī)視覺AI的應(yīng)用情況
全球行業(yè)領(lǐng)導(dǎo)者的采用體現(xiàn)了CV-CUDA 為越來越多大規(guī)模視覺應(yīng)用所帶來的益處以及多樣的支持。擁有大規(guī)模圖像處理工作負(fù)載的企業(yè)可以節(jié)省數(shù)千萬乃至數(shù)億美元的費(fèi)用。
微軟正將 CV-CUDA 整合到必應(yīng)視覺搜索中,以支持用戶使用圖像而非文本來搜索,尋找類似的圖像、產(chǎn)品或網(wǎng)頁。
2019年,微軟在 GTC 上分享了他們?nèi)绾卫?NVIDIA 技術(shù)將語音識別、智能回答、文字-語音轉(zhuǎn)換技術(shù)和物體檢測無縫、實(shí)時地結(jié)合起來。
騰訊已部署 CV-CUDA 來加速其廣告創(chuàng)作和內(nèi)容理解流程,該流程每天處理30多萬個視頻。
相比之前經(jīng)過 GPU 優(yōu)化的工作流,在使用CV-CUDA后,這家總部位于深圳的多媒體集團(tuán)在圖像處理方面的能耗和成本均降低了20%。
而總部位于北京的搜索巨頭百度正在將 CV-CUDA 整合到 FastDeploy中。FastDeploy 是百度飛漿深度學(xué)習(xí)框架的開源部署工具包之一,可以為開源社區(qū)的開發(fā)者提供無縫的計(jì)算機(jī)視覺加速。
從內(nèi)容創(chuàng)建到汽車用例
CV-CUDA 的應(yīng)用正在不斷增加。在Alpha版本發(fā)布后的幾個月內(nèi),就有500多家公司提出了100多個用例。
內(nèi)容創(chuàng)作和電子商務(wù)中的圖像會使用前處理和后處理算子來幫助推薦引擎識別、定位和策劃內(nèi)容。
在測繪領(lǐng)域,來自測繪車輛的視頻需要預(yù)處理和后處理算子來訓(xùn)練云端神經(jīng)網(wǎng)絡(luò),從而識別基礎(chǔ)設(shè)施和道路特征。
在自動駕駛模擬和驗(yàn)證軟件的基礎(chǔ)設(shè)施應(yīng)用中,CV-CUDA 使 GPU能夠加速在車輛上發(fā)生的算法,例如顏色轉(zhuǎn)換、失真校正、卷積和雙邊過濾等。
未來,生成式 AI 將改變視頻內(nèi)容創(chuàng)作和管理,使創(chuàng)作者能夠接觸到全球受眾。
位于紐約的初創(chuàng)企業(yè) Runway 已通過集成 CV-CUDA,緩解了其視頻對象分割模型中的一個關(guān)鍵的高分辨率視頻預(yù)處理瓶頸。
在部署 CV-CUDA 后,其速度提高了3.6倍,支持Runway 優(yōu)化其創(chuàng)作工具套件中的實(shí)時內(nèi)容點(diǎn)擊響應(yīng)速度。
Runway 聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Cristóbal Valenzuela表示:“對于創(chuàng)作者來說,將一個想法變?yōu)楝F(xiàn)實(shí)過程中的每一秒都很寶貴。CV-CUDA 為數(shù)百萬使用我們工具的創(chuàng)作者帶來了積極且重要的變化?!?/p>
如需使用 CV-CUDA,請?jiān)L問CV-CUDA GitHub。
或者在 GTC CV-CUDA 專題分會上了解更多信息。點(diǎn)擊鏈接觀看GTC 2023 主題演講回看。