最新版本的Cloudera Data Platform采用通過NVIDIA技術加速的Spark 3.0,能夠幫助操作團隊實現(xiàn)8倍性能提升,從而成功運行一項原本不可能完成的工作。
Deborah Tylor憑借堅持不懈的精神以及正確的的工具,完成了一項原本不可能完成的任務。
作為一名數(shù)據(jù)科學家,Tylor的任務是整理美國國家稅務局超過300 TB的數(shù)據(jù)庫,尋找可能有助于識別身份盜竊和其他欺詐行為的規(guī)律。但即使她讓一大批CPU服務器工作了一整夜,也無法完成這項數(shù)據(jù)整理工作。
她在早上回來時發(fā)現(xiàn)這項工作失敗了,于是她再次嘗試,但再次失敗了。
就在這時候,Cloudera的解決方案工程師Nasheb Ismaily敲開了Tylor的老板——Rahul Tikekar的門。Rahul Tikekar是美國國稅局數(shù)據(jù)分析師技術支持團隊的經(jīng)理。Ismaily詢問Tikekar的團隊是否需要使用自帶GPU加速Apache Spark 3.0軟件的Cloudera Data Platform(CDP)。
Tikekar表示:“我抓住了這次機會。雖然我們的獨立服務器配備了NVIDIA顯卡,但我們卻無法在分布式集群上使用Spark來運行它們,所以這對我們來說是一個絕佳的機會?!?/p>
突破障礙
對軟件進行快速測試后,在沒有修改任何代碼的情況下,Tylor在這項工作中的許多步驟就立即加快了5倍,但有幾個部分仍然滯后。
Ismaily召集了NVIDIA數(shù)據(jù)科學家團隊來檢查代碼的核心內(nèi)容。他們很快就發(fā)現(xiàn)一些數(shù)據(jù)結構非常糟糕的任務仍在CPU上運行。于是他們編寫了代碼來處理這些工作并將其插入Spark的RAPIDS軟件接口中。RAPIDS是一個在GPU上運行數(shù)據(jù)分析的開放資源庫。
Tylor又進行了一次測試,結果發(fā)現(xiàn)一切都能在分布式Spark集群的GPU上順利運行,而且速度提升非常明顯。她在一個四節(jié)點的集群上運行了整個程序。
美國國稅局研究和應用分析與統(tǒng)計部門技術主管Joe Ansaldi表示:“通過Cloudera和NVIDIA的這一技術整合,我們能夠利用以數(shù)據(jù)為依據(jù)的洞察來推動關鍵任務用例。”
“我們目前正在應用這一技術整合,這使得我們的數(shù)據(jù)工程和數(shù)據(jù)科學工作流程以一半的成本獲得了超過10倍的速度提升?!?Ansaldi補充道。
Spark 3.0 + GPU = 新視野
美國國稅局團隊正在探索這項技術應用可能帶來的一些回報。
憑借由GPU驅(qū)動的服務器所組成的Spark集群,該團隊能夠加速目前所有的工作并運行其他以前被認為不可能實現(xiàn)的工作。并且這些工作可以幫助該團隊處理他們所掌握的大數(shù)據(jù)集。
Tikekar表示:“在Spark 3.0之前,我們不可能完成這些工作,但現(xiàn)在我們通過GPU大幅提升了速度并且可以期待以此解決之前無法解決的問題?!?/p>
繪制AI路線圖
該團隊計劃把其成功經(jīng)驗運用在數(shù)據(jù)準備,也就是數(shù)據(jù)分析中的提取/轉(zhuǎn)換/加載(ETL)方面的工作上。下一步重大計劃是加速各類AI推理工作。
Tikekar表示:“與Cloudera和NVIDIA的這一合作幫助我們能夠在集群中駕馭GPU。當出現(xiàn)此類技術進步時,需要一段時間來認識它們的力量并開發(fā)可以使用它們的應用,所以Deborah Tylor確實為我們制定了新的路線圖——她是整件事中的主角。”
具體而言,該團隊接下來致力于通過建立大型深度學習神經(jīng)網(wǎng)絡來進行自然語言處理和分析。
豐富的機器學習應用
這正是許多企業(yè)今天在尋求的機器學習轉(zhuǎn)型。
“我個人認為機器學習具有令人難以置信的潛力,使過去難以實現(xiàn)的事情成為可能。”Tikekar表示。作為一位計算機科學博士,他于13年前加入國稅局,此前曾在南俄勒岡大學任教十年。
“例如,現(xiàn)在我們可以掃描表格,然后使用光學字符識別來閱讀其中的片段。但有了AI之后,我們可以更加高效地閱讀表格并找到有助于識別身份盜竊或減少浪費的規(guī)律。很多應用在許多方面都受益于AI?!?他補充道。
如想進一步了解使用NVIDIA GPU加速Cloudera的CDP 7.1.6,請觀看2020年10月發(fā)布的GTC演講(注冊后可免費觀看)。兩家公司也是在那時宣布了合作關系。
?