近日,由雷鋒網(wǎng) & AI 掘金志主辦的第三屆中國人工智能安防峰會,在杭州正式召開。
本屆峰會以「洗牌結(jié)束,格局重構(gòu)」為主題,會上代表未來新十年的 15 家企業(yè),為現(xiàn)場 1000 余位聽眾和線上幾十萬觀眾,分享迎接安防新十年的經(jīng)營理念與技術(shù)應(yīng)用方法論。
在下午場的演講環(huán)節(jié)上,的盧深視 CEO 戶磊為峰會帶來了精彩的演講。
戶磊提到,大庫時代,金融、交通、應(yīng)急管理等眾多場景亟需千萬級精準(zhǔn)人臉識別技術(shù)方案。目前行業(yè)內(nèi)現(xiàn)有方案為多引擎,多層級,分庫管理模式,具有系統(tǒng)復(fù)雜、軟硬件開銷大、成本高、效率低等諸多不足。
理想的大庫識別方案應(yīng)該具備以下幾點(diǎn):千萬級別底庫,萬億分之一誤識別率,魯棒性好,高度兼容性,以及價(jià)格適宜。的盧深視是全國首個實(shí)現(xiàn)省級規(guī)模三維人像應(yīng)用的 AI 公司。
在系統(tǒng)架構(gòu)方面,分為三個層次,由前端多維智能感知系統(tǒng)、千萬大庫云端中臺和基于大數(shù)據(jù)的多模態(tài)關(guān)聯(lián)分析與預(yù)測后臺組成。
在技術(shù)架構(gòu)方面,自下而上分為核心算法層、平臺技術(shù)層、業(yè)務(wù)中臺層和應(yīng)用層。在算法層,圍繞 3D 視覺技術(shù)的深度感知算法族、三維重建算法族和人臉識別算法族至關(guān)重要。在業(yè)務(wù)中臺層,如何通過數(shù)據(jù)接入、數(shù)據(jù)管理、大庫管理和人臉比對算法等各技術(shù)模塊的不斷優(yōu)化,從而提升應(yīng)用效率至關(guān)重要。
再者,的盧深視建立三維數(shù)據(jù)標(biāo)準(zhǔn)及評價(jià)打分體系,這是后續(xù)確保三維應(yīng)用效果的基礎(chǔ),的盧深視結(jié)合實(shí)際工程應(yīng)用經(jīng)驗(yàn),提出了數(shù)據(jù)質(zhì)量要求及評價(jià)標(biāo)準(zhǔn)。
戶磊還總結(jié)了的盧深視 3D 識別的優(yōu)勢:
準(zhǔn)確率高,錯誤率低于萬億分之一,滿足金融支付標(biāo)準(zhǔn)。
魯棒性好,基于深度信息能夠做到不受光線影響,針對大角度、濃妝、多膚色多人種等識別場景,也能夠準(zhǔn)確識別。
安全性高,在活體檢測方面,能夠?qū)崿F(xiàn) 2D 平面?zhèn)窝b攻擊方式 100%防御。
以下是戶磊演講全文,雷鋒網(wǎng) AI 掘金志作了不改變原意的整理與編輯:
大家好!我是的盧深視的創(chuàng)始人兼 CEO 戶磊,今天非常感謝各位行業(yè)的專家和嘉賓老師們來聽我分享,也特別感謝主辦方雷鋒網(wǎng),今年在疫情背景下,AI 安防特別需要一個這樣的行業(yè)交流機(jī)會。
一、大庫時代,千萬級刷臉系統(tǒng)落地面臨的挑戰(zhàn)
任何場景的 AI 落地都需要有需求,千萬級精準(zhǔn)人臉識別是有其需求的,尤其是今年新冠疫情,給我們國家和城市包括應(yīng)急管理體系、常住人口信息化管理、大交通等在內(nèi)的領(lǐng)域都帶來了全面的考驗(yàn)。
其實(shí)在這之前已經(jīng)有相應(yīng)的趨勢。自改革開放以來,中國從原來的城鄉(xiāng)二元化結(jié)構(gòu)逐步走向全面的城市化,特別是近 10 年到 15 年,超級城市不斷涌現(xiàn)。
大家應(yīng)該能感受到,除了北上廣深以外,原來所謂的二線城市、準(zhǔn)二線城市規(guī)模逐步增長,千萬級人口的城市不斷出現(xiàn)。
千萬級人口聚集在一個城市,如何管理?如何服務(wù)?這是千萬級庫才能解決的問題。
同時,疫情也帶來一個非常重要的課題,之前的城市管理和城市服務(wù)更多地是考慮一些特殊人群,比如公安領(lǐng)域,考慮的是刑偵追逃,刑偵追逃可能是一個幾萬到幾十萬的小庫。
疫情之后,每個人都可能是病毒的攜帶者或者潛在傳播者,這時,不止特殊人群,我們需要對所有的人進(jìn)行疫情管控,服務(wù)人口的體量一下變成千萬級甚至億級規(guī)模。
同時,隨著生活基礎(chǔ)設(shè)施越來越便利,在大交通和大出行體系中,出現(xiàn)了城市千萬級人流量在封閉場景中流動的應(yīng)用。比如地鐵是一個封閉系統(tǒng),一個城市每天載客客流量在 1200 萬到 1500 萬規(guī)模,這也屬于大庫管理體系。
再比如金融支付,對安全性要求很高,同時它的庫也很大,支付寶和微信的刷臉金融支付,后臺用戶數(shù)目都是億級規(guī)模。
行業(yè)會員領(lǐng)域,尤其是一些連鎖店,可能有幾十萬、百萬甚至千萬的會員體系,他們也需要對會員進(jìn)行精準(zhǔn)的身份識別和個性化服務(wù)。
這些都是千萬級甚至億級大庫的場景,且都有急切的需求,但是現(xiàn)有方案無法充分滿足需求,主要存在以下幾個問題。
多引擎
公安和安防領(lǐng)域一般采用多引擎的方式,比如一家廠商算法不夠準(zhǔn),就采用多廠商、多算法同時進(jìn)行,通過多重比對提高識別準(zhǔn)確率。
這樣帶來一些問題,一是系統(tǒng)重復(fù)建設(shè),資源損耗比較大,整體系統(tǒng)造價(jià)很高;二是不同廠商之間系統(tǒng)缺乏統(tǒng)一標(biāo)準(zhǔn),兼容性也比較差,整個系統(tǒng)很復(fù)雜,維護(hù)很困難;三是可能這種方式還不能完全滿足需求,還是要通過人工逐級排查實(shí)現(xiàn)進(jìn)一步的精準(zhǔn)識別,推動身份的確認(rèn)。
多層級
很多地方會采用區(qū)級、市級、省級逐級排查的方式,這樣會讓不同層級信息無法打通,存在信息孤島,也使得查詢效率低,不具備易用性。
分庫管理
通過特定標(biāo)準(zhǔn)或標(biāo)簽對庫進(jìn)行拆分,把大庫變成小庫,然后進(jìn)行分庫管理和識別,從而提高識別準(zhǔn)確率。這也會帶來一些問題,比如統(tǒng)籌管理難度大,而且對于具備多重身份的人,數(shù)據(jù)會變得冗余,嚴(yán)重影響用戶體驗(yàn)。
總的來說,現(xiàn)有方案會導(dǎo)致系統(tǒng)復(fù)雜、軟硬件開銷大、成本高、效率低。
我們回歸到問題本身,理想的大庫識別方案應(yīng)該具備哪些特點(diǎn)?
首先,需要是千萬級別底庫;準(zhǔn)確率要達(dá)到千萬、萬億分之一的誤識別率;魯棒性要好,快速且安全,有足夠的反攻擊能力;性能要開放,能夠支持多模態(tài)數(shù)據(jù)接入,兼容性要好;要經(jīng)濟(jì)實(shí)用,方案切實(shí)可行且能利舊。
二、標(biāo)桿案例研讀與標(biāo)準(zhǔn)建庫方案
的盧深視成立于 2015 年,是最早一批做三維視覺的 AI 企業(yè),專注三維視覺智能感知技術(shù),在高精度深度感知成像、三維實(shí)時高精度重建、三維跟蹤識別及感知等技術(shù)方向上,處于國際領(lǐng)先水平。
當(dāng)時我們就在想,人臉的三維信息經(jīng)過了精準(zhǔn)重建之后能用來干什么?這些圖像信息里有豐富的人臉特征,加上形狀信息之后,特征會更豐富,也能支撐更大庫的識別。
所以我們當(dāng)時就聚焦 3D 人臉識別這個方向,也非常榮幸,我們承接了一些國家級項(xiàng)目,在某個標(biāo)桿省份實(shí)現(xiàn)了一個省級 3D 人臉應(yīng)用,并且在這個基礎(chǔ)之上真正實(shí)現(xiàn)了千萬級大庫的精準(zhǔn)識別。
這里介紹的是我們在 2015 到 2016 年的一個案例。這是基于的盧深視“哨兵”三維人像多維數(shù)據(jù)管控通道實(shí)現(xiàn)的,通過設(shè)備的部署,協(xié)助用戶實(shí)現(xiàn)了全國首個省級規(guī)模三維人像應(yīng)用,后期,我們把它切換成不需要帶證件識別的直接刷臉識別安檢方式。
這個設(shè)備本身具備“一次通行、多維采集、關(guān)聯(lián)碰撞、全面預(yù)警”的特性,在實(shí)現(xiàn)二維、三維人臉識別的同時還能提供四軌合一的分析,通過集中式管理平臺,還可以實(shí)現(xiàn)行動軌跡與綜合研判分析。
這個案例當(dāng)時為什么能夠做成?大家一般會想,做 3D 人臉識別首先要建庫,但是用戶會覺得麻煩,成本就會特別高。如何在用戶能接受情況下幫助用戶把庫建設(shè)起來,并且實(shí)施好整個系統(tǒng)?
上圖是我們當(dāng)時的一個建設(shè)思路,的盧當(dāng)時采用了“邊建邊用、邊用邊建”的創(chuàng)新模式。
從 2D 人臉到 3D 人臉都是在拍人臉,只不過前端的傳感器不同,相機(jī)從 2D 相機(jī)換成了 3D 相機(jī),其實(shí) 3D 相機(jī)本身包含 2D 信息,這在 2015 年、2016 年是比較前瞻性的應(yīng)用,現(xiàn)在隨處可見,高鐵站的人臉識別設(shè)備、酒店前臺的人臉識別終端都在應(yīng)用。
我們當(dāng)時主要通過四個步驟:
-
通行人員通過三維終端如配合式設(shè)備、通道式設(shè)備、抓拍式設(shè)備或原有二維終端設(shè)備時,終端設(shè)備采集通行人員的人臉信息后實(shí)時向三維人像庫查詢。
-
三維人像庫返回比中的人員身份信息。
-
三維人像庫中暫未錄入通行人員的數(shù)據(jù),終端設(shè)備向客戶已有的二維人像庫查詢,比對通行。
-
未在庫人員數(shù)據(jù)自動錄入到三維人像庫中,通行人員下次通行時即可完成三維比對通行。
它主要是通過對身份證信息中的照片和現(xiàn)場拍的圖像做人臉識別比對,準(zhǔn)確率可以保證,在這樣的前提下,我們把 2D 攝像頭換成 3D 攝像頭,就可以同時采集到 3D 信息。雖然采集的 3D 信息質(zhì)量不一定很高,但是只要有足夠的應(yīng)用頻次,就可以幫助用戶實(shí)現(xiàn)一個高質(zhì)量的 3D 數(shù)據(jù)庫建設(shè),而不需要特地去建一個 3D 人臉數(shù)據(jù)庫。這是我們的建設(shè)流程。
只要思路轉(zhuǎn)換后,就會發(fā)現(xiàn)幫助用戶建庫的方式非常多元,可以有很多入口。人臉取號機(jī)、人證核驗(yàn)設(shè)備、手持式的移動終端等,所有需要做認(rèn)證核驗(yàn)的終端都可以變成入庫設(shè)備,當(dāng)這些終端應(yīng)用到生活的方方面面時,采集的效率和頻次就會足夠高,建設(shè)速度就將加快且成本低。?
這是支撐的盧這一套系統(tǒng)的產(chǎn)品矩陣體系。
三、千萬級刷臉系統(tǒng)關(guān)鍵技術(shù)點(diǎn)剖析
首先從系統(tǒng)架構(gòu)來講,我們把千萬級大庫的建庫以及比對系統(tǒng)分成三個層次:
前端多維智能感知系統(tǒng)
核心是的盧深視高性價(jià)比 3D 結(jié)構(gòu)光相機(jī),它深度集成了高性能三維人臉識別算法,降低了后端的計(jì)算開銷,保證算法準(zhǔn)確率的同時大大降低客戶集成成本,形成前端多維智能感知系統(tǒng)。
千萬大庫云端中臺
支持千萬三維大庫人臉建庫、清洗和檢索,精度遠(yuǎn)超二維的解決方案,同時,的盧與國產(chǎn)芯片做了深度集成,性能超過同等級國外方案,并且可以與智能前端及邊緣節(jié)點(diǎn)協(xié)同處理,最優(yōu)化調(diào)度系統(tǒng)內(nèi)計(jì)算資源,提高計(jì)算資源利用率,降低系統(tǒng)成本。
多模態(tài)關(guān)聯(lián)分析與預(yù)測
在前端感知系統(tǒng)和中臺的基礎(chǔ)之上,基于大數(shù)據(jù)的邏輯推理、時空軌跡關(guān)聯(lián)分析,將 2D/3D 人臉、人體、物品、時間、地點(diǎn)以及人體的體貌特征和形態(tài)動作特征等多維大數(shù)據(jù)融合,深度挖掘數(shù)據(jù)之間的關(guān)聯(lián)性,實(shí)現(xiàn)預(yù)測預(yù)警。
技術(shù)架構(gòu)分為四個層次,分別是核心算法層、平臺技術(shù)層、業(yè)務(wù)中臺和應(yīng)用層。
最底層是核心算法層,其中最重要的是 3D 算法層,基于 RGBD 全信息處理,在恢復(fù)深度信息上我們有一整套深度感知的算法,包括深度對齊、后處理、人臉檢測與跟蹤等等。同時,三維重建算法族也是一個核心層次,它可以真正把一個三維物體的形狀信息進(jìn)行完整恢復(fù),這是一個非常重要的支撐層次。
在這個核心算法之上,我們有平臺技術(shù)層,后端的技術(shù)包括通信計(jì)算、協(xié)同優(yōu)化等技術(shù)。
再往上是業(yè)務(wù)中臺,進(jìn)行數(shù)據(jù)接入、數(shù)據(jù)管理、數(shù)據(jù)清洗、數(shù)據(jù)優(yōu)選。因?yàn)榍懊娼◣爝^程中,設(shè)備來源非常多元,通過業(yè)務(wù)中臺的一系列數(shù)據(jù)處理過程后,才能得到優(yōu)質(zhì)的數(shù)據(jù),然后融到數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)同步,最終支撐各種各樣的應(yīng)用。
這是整個技術(shù)架構(gòu)。
經(jīng)過大家多年的摸索,2D 人臉庫逐漸形成一套標(biāo)準(zhǔn),但是 3D 有深度信息的數(shù)據(jù),這些數(shù)據(jù)如何存儲、有什么特點(diǎn)、有何技術(shù)要求等方面,行業(yè)還沒有形成規(guī)范。
的盧這些年在這方面不斷探索,建立起一整套數(shù)據(jù)標(biāo)準(zhǔn)和評價(jià)體系。我們希望和行業(yè)協(xié)同,將它變成一個行業(yè)標(biāo)準(zhǔn)。
另外,對于深度識別的設(shè)備,即傳感器本身,需要具備怎樣的深度采集能力和精準(zhǔn)感知能力?
我們對大庫情形下的識別精度也有一整套測試的方法和標(biāo)準(zhǔn)。市面上通行的相機(jī)比較強(qiáng)調(diào)絕對精度,但絕對精度對于人臉和人體物體的精細(xì)特征來講,并不是一個非常重要的指標(biāo)。事實(shí)上,相對形狀的相對精度和對于形狀的擬合度是一個比較重要的指標(biāo),恢復(fù)人臉肌理的特征也是比較重要的部分。我們有一套深度質(zhì)量的評價(jià)體系,對這些要素進(jìn)行綜合性的打分,從而形成對前端相機(jī)的整體評價(jià)。
3D 人臉識別技術(shù)算法與 2D 人臉識別有所不同,通常來講,2D 人臉識別通過攝像頭獲取圖像數(shù)據(jù)信息后進(jìn)行人臉檢測,然后進(jìn)行特征提取和信息比對。
而 3D 的流程比較復(fù)雜,前端是符合標(biāo)準(zhǔn)的 3D 攝像頭,在獲取了圖像數(shù)據(jù)并進(jìn)行了人臉檢測之后,還需要進(jìn)行 RGBD 數(shù)據(jù)配準(zhǔn)與 3D 信息重建,把人臉信息進(jìn)行完整的三維恢復(fù)。同時,在恢復(fù)的三維人臉模型上提取三維人臉特征,最后進(jìn)行比對。
在后臺應(yīng)用上,我們一整套后臺應(yīng)用服務(wù)器,能夠單獨(dú)部署,也可以集成部署,并且支撐高并發(fā)請求的快速處理和及時響應(yīng)。
同時,我們針對寒武紀(jì) MLU270 的體系結(jié)構(gòu)特點(diǎn)改進(jìn)了深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)最佳并發(fā)處理模式,提高吞吐率,充分利用硬件平臺算力。在保證精度基本不損失的情況下,突破了三維人臉識別算法的 INT8 量化技術(shù)。
另外強(qiáng)調(diào)一下多模態(tài)架構(gòu)的理念。物理世界中的物體都是 3D 的,獲取到完整的 3D 信息對于系統(tǒng)精準(zhǔn)感知和識別的進(jìn)一步提升非常重要,換句話說,增加數(shù)據(jù)維度是最有效提升系統(tǒng)感知能力的方式,可以以此突破深度學(xué)習(xí)發(fā)展的瓶頸。
我們認(rèn)為,多模態(tài)的架構(gòu)是未來的趨勢,3D 也只是這個多模態(tài)架構(gòu)中的一個方向,但它是一個比較易得的方向,因?yàn)樗粫淖冊瓉?2D 人臉識別中各種各樣的交互和體驗(yàn),同時還能提升整個系統(tǒng)的準(zhǔn)確性和完全性。當(dāng)然,以后我們還會融合更多技術(shù),把這個系統(tǒng)做的更好、更安全、更可靠。
總結(jié)一下 3D 識別的優(yōu)勢:
-
準(zhǔn)確性高。千萬大庫下錯誤率低于萬億分之一,具有極高的安全性。
-
魯棒性好。不受光線影響,可以實(shí)現(xiàn) 7X24 無間斷地安全保障,對于大角度、濃妝識別的準(zhǔn)確率更高,體驗(yàn)感也更好,大角度可識別;對不同膚色人種識別率幾乎不受影響。
-
安全性高。對于活體檢測,可以做到 2D 平面?zhèn)窝b攻擊方式 100%防御。
總結(jié)一下的盧深視大庫識別方案。精準(zhǔn),可以做到萬億分之一誤識別率;具備千萬級別底庫前提下精準(zhǔn)識別的能力;高效,魯棒性好,快速且安全;支持多模態(tài),兼容性好;具有切實(shí)可行的建設(shè)方案,可利舊,性價(jià)比高。
四、的盧深視提供“三維全棧”技術(shù)支撐
的盧深視公司基于三維機(jī)器視覺和人工智能技術(shù),提供實(shí)體空間人像身份、行為、軌跡的精準(zhǔn)感知和整體解決方案。公司團(tuán)隊(duì)是國內(nèi)極少在深度感知成像、三維重建、三維識別測量定位等全棧式三維技術(shù)領(lǐng)域具備國際領(lǐng)先能力的原創(chuàng)團(tuán)隊(duì)。
我們認(rèn)為 3D 是一個很大的賽道,這個賽道中的關(guān)鍵點(diǎn)不僅在于算法,還在于硬件傳感器,它要面對不同的應(yīng)用場景。我們常提到的開放場景的空間傳感和識別,物體的傳感和識別,都是我們的研究方向。
我們總部在北京,在合肥、杭州都有研發(fā)中心,深圳是我們的營銷中心,同時我們在很多地方建設(shè)了本地化的服務(wù)網(wǎng)絡(luò),跟很多高校也有深度合作。
我們的技術(shù)定位,是以“人”為標(biāo)的物,構(gòu)建“光電+算法”全棧 3D 機(jī)器視覺及其智能構(gòu)架。
我用“機(jī)器視覺”這個詞呼應(yīng)一下前面華為機(jī)器視覺總裁段愛國講的,我們也認(rèn)為,以后視覺的發(fā)展核心不再是給人看,而是給機(jī)器看。3D 在這個環(huán)節(jié)中是非常重要的一個元素。
因?yàn)閳D像視覺發(fā)展多年,都是圍繞讓人眼看著更好去不斷演進(jìn)的,3D 的數(shù)據(jù),特別是深度數(shù)據(jù),是人眼不太能感知到的數(shù)據(jù),或者說人眼對這個數(shù)據(jù)不太敏感,但是對機(jī)器很重要,機(jī)器需要這些更豐富、更準(zhǔn)確、更相關(guān)的數(shù)據(jù)來更好的完成它的任務(wù)。
其實(shí)光本身的信息中還有很多諸如相位、偏振態(tài)信息,這些都可以進(jìn)一步提升機(jī)器視覺應(yīng)用的準(zhǔn)確性和安全性,從而擴(kuò)展它應(yīng)用的范圍。
在這個維度中,我們主要是聚焦于人全息特征的精準(zhǔn)識別和分析,在 3D 人臉方向,我們經(jīng)驗(yàn)比較豐富,另外,我們也在研究人的體貌特征分析技術(shù),以及結(jié)合各種各樣的數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)的識別的應(yīng)用。
從基礎(chǔ)研究路徑看,3D 與 2D 不同,3D 傳感器非常重要,但目前還處于產(chǎn)業(yè)初級階段。算法、數(shù)據(jù)、傳感和應(yīng)用,這四個維度交織演進(jìn),是我們終極的技術(shù)演進(jìn)路徑。
最后回到今天的主題,隨著人臉識別在各行各業(yè)得到更多用戶的認(rèn)可,千萬級大庫應(yīng)用的進(jìn)一步升級也會成為重要課題。任何一個系統(tǒng)隨著廣泛的應(yīng)用都受到更多的關(guān)注,也會催生更多新的需求,我們堅(jiān)持回到技術(shù)本身,從技術(shù)上提升應(yīng)用能力。