一家企業(yè)的技術(shù)實(shí)力究竟怎么樣,國(guó)際頂級(jí)賽事的比拼,絕對(duì)是一塊試金石。
最近,在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking(文檔排序)任務(wù)中,來(lái)自度小滿金融科技的AI-NLP團(tuán)隊(duì)就刷新了記錄,超越三星、微軟、谷歌、斯坦福、清華大學(xué)等一眾參賽者,榮登榜首(截至2021年3月12日)。
2018年,度小滿金融才開始獨(dú)立運(yùn)營(yíng),并組建了技術(shù)團(tuán)隊(duì)。兩年多的時(shí)間,一家金融科技公司究竟是如何一步步實(shí)現(xiàn)了國(guó)際頂級(jí)賽事的能力飛躍?對(duì)于一家商業(yè)公司來(lái)說(shuō),學(xué)術(shù)領(lǐng)域的突破又意味著什么,是否能轉(zhuǎn)化為真實(shí)的產(chǎn)業(yè)價(jià)值,改變普通人的金融生活?
這些都是“第一名”的光環(huán)背后,更值得我們關(guān)注的東西。
過(guò)去的成績(jī):技術(shù)基因決定故事走向
看到這個(gè)新聞,大家的第一反應(yīng)可能是“是微軟飄了還是谷歌提不動(dòng)刀了”,這個(gè)比賽究竟是干嘛的?
簡(jiǎn)單說(shuō)一下MS MARCO挑戰(zhàn)賽。它是自然語(yǔ)言處理NLP領(lǐng)域的權(quán)威比賽,基于微軟構(gòu)建的大規(guī)模英文閱讀理解數(shù)據(jù)集MARCO(Microsoft Machine Reading Comprehension),需要參賽者為用戶輸入的問(wèn)題找尋到最貼切、最需要的答案,并對(duì)答案進(jìn)行排序。
以這次度小滿技術(shù)團(tuán)隊(duì)刷新紀(jì)錄的文檔排序Document Ranking(文檔排序)任務(wù)為例,就至少面臨以下幾個(gè)挑戰(zhàn):
首先,MARCO數(shù)據(jù)集采用的是來(lái)自搜索引擎 BING 的用戶真實(shí)搜索行為和點(diǎn)擊日志,最大程度地模擬和還原了用戶使用搜索引擎的真實(shí)場(chǎng)景,因此數(shù)據(jù)標(biāo)注并不完全,這會(huì)直接影響模型的性能表現(xiàn);
其次,MARCO數(shù)據(jù)集規(guī)模非常大,包含數(shù)百萬(wàn)個(gè)問(wèn)題和對(duì)應(yīng)的近千萬(wàn)篇文檔,而每一個(gè)問(wèn)題都會(huì)提供多篇來(lái)自搜索結(jié)果的網(wǎng)頁(yè)文檔,相當(dāng)于要在一堆文檔中判斷出哪一個(gè)是用戶真正想要的,這需要機(jī)器對(duì)多篇文檔進(jìn)行綜合理解才能判斷出答案。
此外,MS MARCO挑戰(zhàn)賽由于權(quán)威性高、應(yīng)用價(jià)值大,吸引非常多的工業(yè)界巨頭和學(xué)術(shù)機(jī)構(gòu)來(lái)參與,競(jìng)爭(zhēng)十分激烈。要贏過(guò)來(lái)自海外谷歌、韓國(guó)三星AI研究院、斯坦福大學(xué),國(guó)內(nèi)的清華大學(xué)等等的其他隊(duì)伍,難度更是直線上升。
而度小滿NLP團(tuán)隊(duì)提交的模型,不僅以0.416的eval分?jǐn)?shù)大幅領(lǐng)先其他團(tuán)隊(duì),還在第一名的位置維持了一個(gè)多月的時(shí)間,這不得不讓人好奇,他們到底是怎么做到的?
經(jīng)過(guò)訪談我們得知,度小滿NLP團(tuán)隊(duì)首次提出了DML文本排序算法,通過(guò)自主研發(fā)的自適應(yīng)預(yù)訓(xùn)練語(yǔ)言模型對(duì)query(用戶搜索的真實(shí)問(wèn)題)和document文本進(jìn)行深度理解,利用了數(shù)十萬(wàn)數(shù)據(jù)來(lái)訓(xùn)練模型,經(jīng)過(guò)召回、重排等多個(gè)階段,給出最終排序。
完成突破的過(guò)程毫無(wú)疑問(wèn)是充滿艱苦的。度小滿的技術(shù)人員透露,參賽隊(duì)伍每天幾乎都工作10-15個(gè)小時(shí),中間做了非常多的創(chuàng)新和嘗試,不斷優(yōu)化和改進(jìn)算法??稍捰终f(shuō)回來(lái),技術(shù)創(chuàng)新最終比拼的還是“腦力”。度小滿金融2018年才開始獨(dú)立運(yùn)營(yíng),兩年內(nèi)就能積累起挑戰(zhàn)國(guó)際AI巨頭的實(shí)力嗎?
原來(lái),度小滿在成立初始,就抱著將NLP等科技引入金融業(yè)務(wù)當(dāng)中的理想,建立起了一支AI團(tuán)隊(duì)。其中一部分人來(lái)自百度,眾所周知,百度是中國(guó)NLP領(lǐng)域的一面技術(shù)旗幟,曾獲得過(guò)包括國(guó)家科技進(jìn)步獎(jiǎng)在內(nèi)的諸多權(quán)威獎(jiǎng)項(xiàng),這種技術(shù)基因也為度小滿所沿襲。而另一方面,度小滿也以十分嚴(yán)格的標(biāo)準(zhǔn)吸納技術(shù)人才,建構(gòu)起了一支實(shí)力強(qiáng)勁的技術(shù)隊(duì)伍。
團(tuán)隊(duì)建起來(lái)了,安心支持自家的核心業(yè)務(wù)就好,為什么非得去國(guó)際賽場(chǎng)上“找虐”呢?
一方面,金融領(lǐng)域需要各種語(yǔ)言、語(yǔ)義相關(guān)的NLP技術(shù)和新方法來(lái)提升業(yè)務(wù)能力,來(lái)對(duì)風(fēng)控模型、用戶畫像等進(jìn)行升級(jí),用更先進(jìn)的算法來(lái)提升項(xiàng)目,也是度小滿從成立之初就追求的。而國(guó)際頂級(jí)賽事,自然成了不容錯(cuò)過(guò)的絕佳“練兵場(chǎng)”。
桃李不言,下自成蹊。度小滿在NLP領(lǐng)域的突破,看似奇異,背后卻有著綿長(zhǎng)的技術(shù)信仰、強(qiáng)烈的業(yè)務(wù)訴求支撐其前行。
現(xiàn)實(shí)的困境:NLP如何為小微企業(yè)插上翅膀
所有過(guò)往,皆為序章。
比起度小滿為什么要參加國(guó)際比賽,可能更讓人難以理解的是,刷新紀(jì)錄對(duì)你我普通人來(lái)說(shuō)有什么意義?這種疑問(wèn),恰恰說(shuō)明科技賦能產(chǎn)業(yè)的改造潛力遠(yuǎn)比我們想象中更深。
詩(shī)人塞繆爾·約翰遜曾說(shuō),語(yǔ)言是科學(xué)的唯一工具。事實(shí)上,今天度小滿NLP領(lǐng)域所追尋的突破,也是在為金融科技和普通人之間搭建起一座橋梁。
度小滿所提交的模型,其所具備的強(qiáng)有力的文本理解和匹配能力,可以輕松應(yīng)用于金融、征信等多個(gè)領(lǐng)域中,賦能給中小企業(yè)者。
我們知道,中小企業(yè)融資難是個(gè)重要而復(fù)雜的問(wèn)題。在現(xiàn)實(shí)中小微企業(yè)融資有著幾座難以逾越的高山:
1.融資成本高:由于小微企業(yè)的經(jīng)營(yíng)規(guī)模小,風(fēng)險(xiǎn)系數(shù)高,一般還沒(méi)有抵押物,許多金融機(jī)構(gòu)不愿意放貸,或是設(shè)定更高的利息水平;
2.風(fēng)控難度大:數(shù)據(jù)碎片化,缺乏長(zhǎng)期信用評(píng)級(jí),無(wú)法完整地了解小微企業(yè)的整體情況,判斷其償債能力,往往難以獲得銀行和資本市場(chǎng)的信任;
3.周轉(zhuǎn)場(chǎng)景多,現(xiàn)金流壓力大,而傳統(tǒng)融資渠道審核慢、放款慢,著急情況下很容易被黑灰產(chǎn)或不良小貸機(jī)構(gòu)欺騙。
在近幾年的政府的工作報(bào)告中,多次提及要“幫助小微企業(yè)降低綜合融資成本”。而通過(guò)公開數(shù)據(jù)我們發(fā)現(xiàn),度小滿針對(duì)小微企業(yè)主的年化貸款利率僅有3.65%。而全國(guó)銀行業(yè)新發(fā)放普惠性小微貸款的利率平均達(dá)到5.93%(2020年數(shù)據(jù))。2020年,度小滿累積為小微企業(yè)主提供了3000億元的無(wú)抵押信用貸款,人均放款額同比增加35%。
更低的利率,不低的額度,度小滿憑什么這么敢?技術(shù),就是所有不確定性中最大的確定性。
度小滿在MS MARCO比賽中所運(yùn)用到的數(shù)據(jù)挖掘、閱讀理解等NLP技術(shù),就已經(jīng)在度小滿的小微風(fēng)控模型中投入了實(shí)際應(yīng)用,通過(guò)對(duì)企業(yè)公章、征信報(bào)告等非結(jié)構(gòu)化信息進(jìn)行深度挖掘和理解,為風(fēng)控模型提供了更豐富的特征和數(shù)據(jù)維度,從而可以更高效精準(zhǔn)地識(shí)別風(fēng)險(xiǎn)因素,提升小微企業(yè)的融資效率,幫助其抵御黑產(chǎn)侵害。
而在小微企業(yè)融資場(chǎng)景中,同樣存在很多這樣的信息,比如有的用戶并沒(méi)有提供相關(guān)信息或行為,系統(tǒng)就需要對(duì)這些沒(méi)有標(biāo)注的樣本,準(zhǔn)確地判斷出其風(fēng)險(xiǎn)等級(jí)。
推動(dòng)AI、NLP技術(shù)走向產(chǎn)業(yè)側(cè),或許是提升小微企業(yè)融資效率、降低融資成本的解決方案中,最重要的議題之一。
就拿度小滿來(lái)說(shuō),首先,借助NLP技術(shù)跨越信任的高山。對(duì)非結(jié)構(gòu)化數(shù)據(jù)的挖掘,能夠從經(jīng)營(yíng)行為、營(yíng)業(yè)范圍、財(cái)務(wù)年報(bào)等等更多維度的信息中加深對(duì)用戶的洞察,準(zhǔn)確判斷出對(duì)方的資質(zhì),解決傳統(tǒng)風(fēng)控模型樣本不足、評(píng)級(jí)不準(zhǔn)的問(wèn)題,為資本市場(chǎng)與小微企業(yè)之間建立信任;
其次,利用AI智能化地識(shí)別出更多風(fēng)險(xiǎn)指標(biāo)。傳統(tǒng)風(fēng)控模型需要人根據(jù)業(yè)務(wù)需要和經(jīng)驗(yàn),確定哪些特征是有幫助的,而度小滿借助AI可以讓機(jī)器自動(dòng)去學(xué)習(xí)相關(guān)特征,可以將數(shù)據(jù)得到充分利用,效率更高,征信結(jié)果更準(zhǔn)確。
最后,通過(guò)技術(shù)協(xié)同來(lái)提升金融服務(wù)的可靠性與安全性。AI、NLP領(lǐng)域的技術(shù)能力并沒(méi)有讓度小滿忽視傳統(tǒng)金融工具的價(jià)值,事實(shí)上,在讓智能系統(tǒng)給出判斷的同時(shí),度小滿也會(huì)結(jié)合一些業(yè)內(nèi)成熟應(yīng)用的統(tǒng)計(jì)方法作為參考,對(duì)小微企業(yè)的償債能力和風(fēng)險(xiǎn)系數(shù)進(jìn)行綜合評(píng)估。
在度小滿的努力中,自然語(yǔ)言的奧秘被拆解,化成千行百業(yè)的智能化升級(jí)契機(jī),小微企業(yè)可以在復(fù)雜變幻的商業(yè)環(huán)境中更快速地獲得支持、尋覓新機(jī)。這或許可以回答很多人的疑問(wèn):為什么企業(yè)要跟學(xué)術(shù)機(jī)構(gòu)一起在頂級(jí)賽事上同臺(tái)競(jìng)技?
答案就在于,每一次技術(shù)領(lǐng)域的點(diǎn)滴突破,都有可能改變一些行業(yè)的既有規(guī)則,化不可能為可能,助力更多小微企業(yè)飛向更光明的未來(lái)。
未來(lái)的企望:科技與產(chǎn)業(yè)的更多握手可能
可以看到,想要在資本市場(chǎng)和小微企業(yè)之間建構(gòu)起信任橋梁,既需要技術(shù)積累,又要有對(duì)實(shí)體經(jīng)濟(jì)、小微企業(yè)業(yè)態(tài)的真實(shí)洞察與服務(wù)理念,這恰好也是度小滿一直以來(lái)努力的方向。
除了前面提到的風(fēng)控等場(chǎng)景之外,其實(shí)在小微企業(yè)的金融需求中,還存在許多痛點(diǎn)。比如需要反復(fù)前往網(wǎng)點(diǎn)當(dāng)面證明自己的資質(zhì)、等待人工審核等等,在這些環(huán)節(jié)中,度小滿也從用戶角度結(jié)合技術(shù)想了很多解決防范。
比如利用OCR技術(shù)將對(duì)方提供的電子化票據(jù)進(jìn)行識(shí)別處理,在線上就能審核,實(shí)現(xiàn)申請(qǐng)秒批,有效緩解小微企業(yè)的資金壓力。
借助AI預(yù)測(cè),度小滿也會(huì)在貸后運(yùn)用機(jī)器人流程自動(dòng)化(RPA)還款提醒,降低后期的運(yùn)維成本,也讓小微企業(yè)主避免因逾期還款而帶來(lái)的負(fù)面影響。
對(duì)于合作伙伴來(lái)說(shuō),借助度小滿的技術(shù)能力,可以對(duì)更多潛在優(yōu)質(zhì)客戶進(jìn)行準(zhǔn)確識(shí)別,帶來(lái)業(yè)務(wù)上的良性增長(zhǎng)。
也可以說(shuō),度小滿目前所扮演的,既是風(fēng)險(xiǎn)的守門員,也是增長(zhǎng)的主推手,這是極為稀缺的產(chǎn)業(yè)角色。
從技術(shù)特征上推演,NLP技術(shù)的潛力能夠落地的場(chǎng)景和需求還有很多。具體要如何激發(fā)出技術(shù)的能量,這個(gè)問(wèn)題就交給度小滿去操心吧。對(duì)于小微企業(yè)主來(lái)說(shuō),只需要安心經(jīng)營(yíng)未來(lái),不必為資金貸款終日憂心,這就是平凡至美的人間煙火味。
技術(shù)的根系越深遠(yuǎn),越能歷久彌長(zhǎng)地將價(jià)值輸送到每一個(gè)產(chǎn)業(yè)細(xì)枝末節(jié)當(dāng)中,直至浸潤(rùn)每一個(gè)人的心田。