中國有句古話,眼觀六路,耳聽八方,敏銳的觀察和感知能力是人類智慧的基礎(chǔ)。傳統(tǒng)的攝像頭只有感知功能,并不能理解圖像所描述的人和事物。計(jì)算機(jī)視覺利用人工智能(AI)讓智能攝像頭等設(shè)備變得聰明,可以解釋和理解圖像中發(fā)生的事情。通過科技重新打造一個(gè)與人眼一樣強(qiáng)大的傳感器,為計(jì)算機(jī)執(zhí)行以往需要人類視覺才能進(jìn)行的任務(wù),開啟了廣泛而多樣的用例,因此計(jì)算機(jī)視覺正迅速成為物聯(lián)網(wǎng)獲取真實(shí)世界數(shù)據(jù)并處理數(shù)據(jù)的最重要方式之一。
從計(jì)算停車場的汽車數(shù)量,到監(jiān)控零售商店的客流量,或是找出生產(chǎn)線上的瑕疵品,智能攝像頭的計(jì)算機(jī)視覺功能正被應(yīng)用于廣泛的商業(yè)與工業(yè)場景中。在家中,智能攝像頭可以告訴我們包裹何時(shí)己送達(dá)、小狗是否從后院溜了出去,或是嬰兒何時(shí)醒來等待呵護(hù)。
智能攝像頭技術(shù)在商用與消費(fèi)市場的應(yīng)用正呈現(xiàn)指數(shù)級(jí)增長。根據(jù)市場調(diào)研與戰(zhàn)略咨詢公司Yole Développement在2020年發(fā)布的《用于監(jiān)控與安全用途的攝像頭與計(jì)算》報(bào)告,全球僅用于監(jiān)控的攝像頭約有10億臺(tái),預(yù)計(jì)到2024年,這一數(shù)字有望翻倍增長。
這項(xiàng)技術(shù)在安全性、異構(gòu)計(jì)算、圖像處理與云服務(wù)等方面有了長足的進(jìn)展,讓未來的計(jì)算機(jī)視覺產(chǎn)品能具備更勝以往的能力。
智能攝像頭的安全性是計(jì)算機(jī)視覺的首要考量
物聯(lián)網(wǎng)的安全性是科技行業(yè)的重中之重但又極具挑戰(zhàn)。確保所有物聯(lián)網(wǎng)設(shè)備不被惡意人士所利用至關(guān)重要,特別是當(dāng)這些設(shè)備已經(jīng)獲取并存儲(chǔ)了與人、地點(diǎn)及高價(jià)值資產(chǎn)有關(guān)的圖像數(shù)據(jù)。
未經(jīng)授權(quán)訪問負(fù)責(zé)監(jiān)控工廠、醫(yī)院、學(xué)?;蚣彝サ闹悄軘z像頭的數(shù)據(jù),不但嚴(yán)重侵犯了隱私權(quán),也可能導(dǎo)致密謀犯罪、機(jī)密數(shù)據(jù)外泄等難以估量的傷害。智能攝像頭遭到破解的同時(shí)也會(huì)提供一個(gè)破口,讓惡意人士可以訪問網(wǎng)絡(luò)內(nèi)諸如門禁、暖氣與照明控制等其它設(shè)備,甚至控制整個(gè)智能工廠。
我們需要能夠信任智能攝像頭來維護(hù)所有人的安全,而不是為隱私侵犯另辟新徑。Arm堅(jiān)信物聯(lián)網(wǎng)安全的重要性,多年來在此領(lǐng)域持續(xù)開發(fā)和創(chuàng)新,通過包括適用于Cortex®-A與Cortex®-M的Arm TrustZone等產(chǎn)品組合令最終客戶可以放心部署從云到端的物聯(lián)網(wǎng)應(yīng)用。
在未來,基于Armv9架構(gòu)的智能攝像頭芯片,將通過Arm機(jī)密計(jì)算架構(gòu)(Confidential Compute Architecture, CCA)進(jìn)一步強(qiáng)化計(jì)算機(jī)視覺產(chǎn)品的安全性。
除此之外,Arm也持續(xù)推動(dòng)安全性最佳實(shí)踐的共同標(biāo)準(zhǔn),如PSA Certified與PARSEC等。這些標(biāo)準(zhǔn)旨在確保未來所有智能攝像頭都能具有內(nèi)置安全性:從圖像傳感器首次進(jìn)行場景錄像到存儲(chǔ)數(shù)據(jù),無論數(shù)據(jù)是存儲(chǔ)在本機(jī)上或是利用先進(jìn)的安全與數(shù)據(jù)加密技術(shù)存儲(chǔ)在云端。
終端AI驅(qū)動(dòng)智能攝像頭的計(jì)算機(jī)視覺
圖像傳感器技術(shù)與邊緣AI的結(jié)合能讓智能攝像頭通過大量獲取計(jì)算機(jī)視覺的數(shù)據(jù),進(jìn)行日益復(fù)雜的推理。智能攝像頭內(nèi)的新機(jī)器學(xué)習(xí)能力可以滿足多樣化的用例,例如探測人或動(dòng)物、辨識(shí)特定物件,以及讀取車牌號(hào)碼。這些計(jì)算機(jī)視覺的應(yīng)用都需要在終端設(shè)備運(yùn)行機(jī)器學(xué)習(xí)(ML)算法,而不是把數(shù)據(jù)送到云端進(jìn)行推論處理。分布式算力是數(shù)據(jù)時(shí)代的大趨勢,將計(jì)算能力移至距離數(shù)據(jù)更近的地方可以提高決策速度,降低帶寬成本并更好地維護(hù)數(shù)據(jù)安全。
例如,在繁忙的十字路口部署一臺(tái)智能攝像頭,通過計(jì)算機(jī)視覺可以確認(rèn)一天中各時(shí)段等待紅燈的汽車數(shù)量與類型,再利用設(shè)備本身的ML功能來處理數(shù)據(jù)并進(jìn)行推論,在不需要人為干預(yù)的情況下,智能攝像頭便可以自動(dòng)調(diào)整它的時(shí)序,從而自動(dòng)減少交通擁堵并限制排放的增加。
Arm針對(duì)AIoT和邊緣智能的投資體現(xiàn)在我們?nèi)找鎵汛蟮腁I合作生態(tài)系統(tǒng),Arm架構(gòu)對(duì)矢量計(jì)算的支持,各種AI框架模型在Arm處理器上的優(yōu)化,以及Ethos機(jī)器學(xué)習(xí)加速器產(chǎn)品線的普及。Arm Ethos產(chǎn)品系列是具備高度可擴(kuò)展性與高效的NPU,它通過多核心技術(shù),可支持每秒從0.1到10 TOP。同時(shí),Arm也積極尋求與第三方加速器的整合,使AI、多媒體處理更簡易高效地運(yùn)行在Arm架構(gòu)的芯片產(chǎn)品上。軟件在ML領(lǐng)域扮演極其重要的角色,通過Arm NN SDK與TensorFlow Lite for Microcontrollers(TFLM)開源框架,Arm持續(xù)不斷地支持開源社區(qū)和與其他生態(tài)伙伴的合作。
這些機(jī)器學(xué)習(xí)工作負(fù)載框架是基于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)以及高效的Arm Cortex-A CPU、Mali™ GPU、Ethos NPU與Arm Compute庫以及CMSIS-NN。
通過第二代可伸縮矢量擴(kuò)展(SVE2),Armv9架構(gòu)能提供簡單易用的向量計(jì)算(可以平行計(jì)算的個(gè)別數(shù)據(jù)組),支持強(qiáng)化的AI功能。如此一來,開發(fā)者不用重寫或重新編譯代碼,就能直接擴(kuò)充硬件向量長度。在未來,矩陣乘法的擴(kuò)展(強(qiáng)化ML的要素之一)將進(jìn)一步推動(dòng)AI的發(fā)展。
與云互連的智能攝像頭
云與邊緣計(jì)算也有助于加速智能攝像頭的采用。傳統(tǒng)的CCTV架構(gòu)通過網(wǎng)絡(luò)錄像機(jī)(NVR)或數(shù)字錄像機(jī)(DVR)將攝像頭的數(shù)據(jù)存儲(chǔ)于本機(jī)。這種模式有許多的限制,包括需要龐大的存儲(chǔ)空間以及每臺(tái)NVR上有限的實(shí)體連接端口數(shù)量。
遷移到云原生的模式可大幅簡化智能攝像頭的部署:任何數(shù)量級(jí)的攝像頭都可以通過下載到設(shè)備的配置文檔進(jìn)行配置與管理。這也是一種良性循環(huán):來自智能攝像頭的數(shù)據(jù)可以針對(duì)特定的用例來訓(xùn)練存儲(chǔ)在云上的模型,從而使攝像頭更加智能,當(dāng)攝像頭變得更智能,它們需要上傳的數(shù)據(jù)量就會(huì)越小。
云計(jì)算的使用也能結(jié)合來自多臺(tái)智能攝像頭的計(jì)算機(jī)視覺數(shù)據(jù),通過AI傳感器融合實(shí)現(xiàn)流程自動(dòng)化。以我們剛剛提到的部署在十字路口的智能攝像頭為例,云AI算法可以對(duì)來自多臺(tái)智能攝像頭的數(shù)據(jù)進(jìn)行綜合分析,不斷地調(diào)整整個(gè)城市里的交通信號(hào)燈時(shí)序,進(jìn)而保持交通暢通。
Arm支持從云到終端所需的連續(xù)處理能力:Cortex-M微控制器與Cortex-A處理器驅(qū)動(dòng)智能攝像頭,Cortex-A處理器驅(qū)動(dòng)邊緣網(wǎng)關(guān),云與邊緣服務(wù)器則利用了Neoverse平臺(tái)的能力。
智能攝像頭的全新軟硬件需求
計(jì)算機(jī)視覺設(shè)備的計(jì)算需求每年持續(xù)增長,超高分辨率的視頻獲取(8K 60fps)與64位(Armv8-A)的處理能力是目前高端智能攝像頭產(chǎn)品的標(biāo)準(zhǔn)。
因此,下一代智能攝像頭的SoC必須采用異構(gòu)架構(gòu),結(jié)合CPU、GPU、NPU與專屬的硬件,實(shí)現(xiàn)計(jì)算機(jī)視覺、圖像處理、視頻編解碼等功能。
存儲(chǔ)也是另一個(gè)關(guān)鍵的技術(shù)難點(diǎn):盡管終端AI可以在攝像頭本地處理圖像,以降低存儲(chǔ)的需求,但許多用例仍需要將數(shù)據(jù)保存在某個(gè)地方(無論是設(shè)備本機(jī)上,或是邊緣服務(wù)器或云上)以確保安全。
為了確保能妥善存儲(chǔ)高分辨率的計(jì)算機(jī)視覺數(shù)據(jù),H.265和AV1等新的視頻編解碼標(biāo)準(zhǔn)正在成為業(yè)界公認(rèn)的標(biāo)準(zhǔn)。
新的應(yīng)用場景驅(qū)動(dòng)持續(xù)創(chuàng)新
總而言之,來自新應(yīng)用場景的需求正在推動(dòng)對(duì)于計(jì)算與圖像技術(shù)全面持續(xù)改善的需求。新一代的CCTV攝像頭等圖像獲取設(shè)備已是今非昔比,它們所產(chǎn)生的已不再是一張張難以辨識(shí)面容的粗糙圖像。計(jì)算機(jī)視覺的進(jìn)步——效率更高、功能更強(qiáng)大的計(jì)算結(jié)合AI與ML的智能——讓智能攝像頭不僅只是圖像傳感器,而是可以像人類的眼睛一樣理解圖像,通過所見所聞了解認(rèn)識(shí)世界。連接模擬與數(shù)字世界的橋梁正開啟我們過去曾覺得難以置信的全新應(yīng)用場景。