人工智能在過去兩年被谷歌引爆,于是該領(lǐng)域的創(chuàng)業(yè)公司如雨后春筍般生長(zhǎng)起來,有的做專用芯片,有的做算法,有的做機(jī)器人…人工智能到底是什么?是讓機(jī)器代替人類完成重復(fù)的生產(chǎn)線勞動(dòng)嗎?這樣理解為免太簡(jiǎn)單。人工智能絕對(duì)不只是讓機(jī)器完成模仿,從而替代重復(fù)性工作,真正的人工智能需要機(jī)器經(jīng)過訓(xùn)練和學(xué)習(xí),接近或者超越人類的智能行為。
人工智能訓(xùn)練模型的時(shí)候,數(shù)據(jù)是最重要的因素,只有通過大數(shù)據(jù)訓(xùn)練,才能讓訓(xùn)練的模型更接近于實(shí)際需求。比如,自動(dòng)駕駛的模型訓(xùn)練,現(xiàn)在基本是靠自動(dòng)駕駛汽車上路測(cè)試收集數(shù)據(jù)訓(xùn)練模型,路上的汽車只有采集到更多可能的場(chǎng)景,才能確保訓(xùn)練出的模型更接近實(shí)際路況。在人工智能訓(xùn)練中一般會(huì)遇到兩個(gè)問題:第一,數(shù)據(jù)量不夠如何訓(xùn)練模型?第二,數(shù)據(jù)量太大如何快速進(jìn)行標(biāo)注?
MathWorks產(chǎn)品市場(chǎng)經(jīng)理趙志宏
通過模型產(chǎn)生數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)
如果沒有數(shù)據(jù)能做人工智能嗎?這是很多初創(chuàng)公司的困惑。在筆者的概念里,正常的 AI 開發(fā)流程是,先采集數(shù)據(jù),再訓(xùn)練模型。在最近的 MathWorks EXPO 大會(huì)上,MathWorks 產(chǎn)品市場(chǎng)經(jīng)理趙志宏先生給出了一個(gè)不一樣的答案,他表示,“數(shù)據(jù)、輸出和模型是整個(gè) AI 開發(fā)流程的一個(gè)步驟。如果開發(fā)者想做人工智能,又無法獲取足夠的數(shù)據(jù),可以采用數(shù)字模型來產(chǎn)生數(shù)據(jù)?!北热纾和ㄟ^人工智能的方式來預(yù)測(cè)風(fēng)力發(fā)電機(jī)的故障需要故障數(shù)據(jù),而采集風(fēng)力發(fā)電機(jī)的故障數(shù)據(jù)需要大量的時(shí)間和成本,幾乎不現(xiàn)實(shí)。利用風(fēng)力發(fā)電機(jī)在設(shè)計(jì)時(shí)已經(jīng)建立好的 Simulink 模型,通過校正讓這個(gè)模型非常接近風(fēng)力發(fā)電機(jī)實(shí)際運(yùn)行情況,然后在模型中制造故障,就可以很容易地產(chǎn)生出想要的故障數(shù)據(jù),進(jìn)而訓(xùn)練機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。
趙志宏先生表示,“基于模型設(shè)計(jì)的優(yōu)勢(shì)是,它是在真正做出產(chǎn)品之前建好一個(gè)模型,這個(gè)模型與實(shí)際產(chǎn)品非常的接近,不管是從數(shù)字計(jì)算、行為計(jì)算產(chǎn)生的結(jié)果與真正的結(jié)果都非常接近。很多工程師在設(shè)計(jì)產(chǎn)品的時(shí)候已經(jīng)把這個(gè)模型建好了,在這個(gè)模型上加入故障情況就很容易產(chǎn)生故障數(shù)據(jù),這比在實(shí)際設(shè)備上產(chǎn)生的故障要容易很多。因此,可以進(jìn)行故障預(yù)測(cè)和維護(hù)?!?/p>
通過深度學(xué)習(xí)對(duì)大數(shù)據(jù)進(jìn)行標(biāo)注
隨著傳感器的大量采用,數(shù)據(jù)量進(jìn)入洪荒時(shí)代,給人工智能進(jìn)行特征標(biāo)記帶來困難,這時(shí)候可以采用深度學(xué)習(xí)進(jìn)行標(biāo)記。趙志宏先生解釋,“深度學(xué)習(xí)的特點(diǎn)是不需要人工手動(dòng)找出特征值,系統(tǒng)可以自動(dòng)從數(shù)據(jù)里提取特征值。MATLAB 提供輔助自動(dòng)標(biāo)記的工具和功能。著名的汽車配件公司 AUTOLIV 就在 MATLAB 提供的功能上開發(fā)了 LiDAR 三維點(diǎn)云語義分割的算法來進(jìn)行自動(dòng)數(shù)據(jù)標(biāo)注。它對(duì) LiDAR 三維點(diǎn)云的每一點(diǎn)進(jìn)行自動(dòng)標(biāo)注,把這個(gè)點(diǎn)聚類成一個(gè)目標(biāo)模型,然后再把目標(biāo)具體代表的實(shí)物辨別出來?!?/p>
以膨化食品智能檢測(cè)為例,研究人員可以在用戶咬食品的時(shí)候提取特征,用咬合聲音和咬合力度衡量食品的松脆度,有了這兩個(gè)特征,還需要開發(fā)一個(gè)機(jī)器學(xué)習(xí)的分類器,而 MATLAB 提供了分類學(xué)習(xí)器。開發(fā)者通過這個(gè)工具不需要一個(gè)一個(gè)去試各種分類器的算法,使用 MATLAB 提供的 APP 去一次性嘗試所有算法。開始運(yùn)行 APP 后,用戶選好數(shù)據(jù)和需要訓(xùn)練的分類器,然后進(jìn)行訓(xùn)練。在訓(xùn)練過程中,用戶可以看到每個(gè)分類器的整體結(jié)果,選擇精確度最高的一個(gè),然后進(jìn)行更多的調(diào)查和研究。如果用戶沒有研究過 AI,可以用 MATLAB 提供的 APP 進(jìn)行學(xué)習(xí),去嘗試所有機(jī)器學(xué)習(xí)的算法。
在 MATLAB 里面做深度學(xué)習(xí)難嗎?用趙志宏先生的話說,只需要寫 5 行的 MATLAB 代碼,用戶就可以建出一個(gè)能夠識(shí)別食品的網(wǎng)絡(luò)。筆者已經(jīng)多年沒接觸過 MATLAB 了,所以無從考證,工程師朋友們?nèi)绻枰梢赃M(jìn)行嘗試。
和開源代碼如何協(xié)作?
現(xiàn)在市面上的開源非常熱,工程師們可以在開源社區(qū)快速獲得需要的代碼,在人工智能領(lǐng)域也有很多開源資源,作為封閉資源的 MATLAB 和開源代碼相比更新速度可能會(huì)較慢,而且加上是收費(fèi)模式,工程師們也擔(dān)心兩者的融合問題。當(dāng)筆者問到這個(gè)問題的時(shí)候,趙志宏先生解釋,“開源代碼背后有很多的開發(fā)人員啊,為開源代碼做貢獻(xiàn),我們也有自己的開發(fā)團(tuán)隊(duì)。我們并不把開源代碼和 MATLAB 定義為嚴(yán)格的競(jìng)爭(zhēng)關(guān)系,實(shí)際上我們各有特點(diǎn)和長(zhǎng)處,有時(shí)候我們是可以與開源代碼共用。有一些開源代碼可以在 MATLAB 里面運(yùn)行或者直接調(diào)用,我們?cè)诠餐瑸榭萍歼M(jìn)步做貢獻(xiàn)。我們雖然是付費(fèi)軟件,但是提供的不僅是工具,還有很多的服務(wù)?!?/p>
“當(dāng)用戶使用 MATLAB 時(shí)遇到問題,我們后面有很強(qiáng)的技術(shù)支持團(tuán)隊(duì)幫用戶解決這些問題。另外,我們的工具不僅是針對(duì)某一功能產(chǎn)生正確的結(jié)果,我們還考慮把這個(gè)功能做得非常的容易使用。比如針對(duì) AI 應(yīng)用,我們把界面做得非常適合該專業(yè)領(lǐng)域,而且兼顧讓用戶感覺在使用熟悉的 MATLAB 或者 Simulink 的界面。這是我們的優(yōu)勢(shì),如果用戶在 MATLAB 或者 Simulink 中增加新功能,學(xué)習(xí)門檻不會(huì)很高,容易上手設(shè)計(jì)。除了提供工具,我們還給用戶提供了很多便利,這是從開源工具中所得不到的東西?!壁w志宏先生補(bǔ)充。
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)允許,不得轉(zhuǎn)載!