關(guān)于深度學(xué)習(xí),它正在快速接近其極限。雖然事實可能的確如此,但我們?nèi)晕茨茉谌粘I钪懈惺艿饺娌渴鹕疃葘W(xué)習(xí)的影響。
MIT:算力將探底,算法需改革
近日,MIT 發(fā)出警告:深度學(xué)習(xí)正在接近現(xiàn)有芯片的算力極限,如果不變革算法,深度學(xué)習(xí)恐難再進步。
根據(jù)麻省理工學(xué)院,MIT-IBM Watson AI 實驗室,Underwood 國際學(xué)院和巴西利亞大學(xué)的研究人員在最近的研究中發(fā)現(xiàn),持續(xù)不斷的進步將需要通過改變現(xiàn)有技術(shù)或通過尚未發(fā)現(xiàn)的新方法來更有效地使用深度學(xué)習(xí)方法。
目前深度學(xué)習(xí)的繁榮過度依賴算力的提升,在后摩爾定律時代可能遭遇發(fā)展瓶頸,在算法改進上還需多多努力。
深度學(xué)習(xí)不是偶然的計算代價,而是設(shè)計的代價。共同的靈活性使它能夠出色地建模各種現(xiàn)象,并且性能優(yōu)于專家模型,這也使其在計算上的成本大大提高。
研究人員估計,三年的算法改進相當(dāng)于計算能力提高 10 倍??傮w而言,在深度學(xué)習(xí)的許多領(lǐng)域中,訓(xùn)練模型的進步取決于所使用的計算能力的大幅度提高。另一種可能性是,要改善算法本身可能需要互補地提高計算能力。
在研究過程中,研究人員還對預(yù)測進行了推斷,以了解達到各種理論基準所需的計算能力以及相關(guān)的經(jīng)濟和環(huán)境成本。
即使是最樂觀的計算,要降低 ImageNet 上的圖像分類錯誤率,也需要進行 10 的五次方以上的計算。
根據(jù)多項式和指數(shù)模型的預(yù)測,通過深度學(xué)習(xí)獲得相應(yīng)性能基準所需的算力(以 Gflops 為單位),碳排放量和經(jīng)濟成本,最樂觀的估計,ImageNet 分類誤差要想達到 1%,需要 10^28 Gflops 的算力,這對硬件來說是不小的壓力。
?
爆炸式增長結(jié)束,頂部提升有機會
用于深度學(xué)習(xí)模型的計算能力的爆炸式增長已經(jīng)結(jié)束了,并為各種任務(wù)的計算機性能樹立了新的基準。但是這些計算限制的可能影響迫使機器學(xué)習(xí)轉(zhuǎn)向比深度學(xué)習(xí)更高效的技術(shù)。
過去算力的提升歸納了兩個原因:
一個是底部的發(fā)展,即計算機部件的小型化,其受摩爾定律制約;
另一個是頂部的發(fā)展,是上面提到的軟件、算法、硬件架構(gòu)的統(tǒng)稱。
在后摩爾定律時代,提升計算性能的方法,雖然底部已經(jīng)沒有太多提升的空間,但頂部還有機會。
在軟件層面,可以通過性能工程(performance engineering)提高軟件的效率,改變傳統(tǒng)軟件的開發(fā)策略,盡可能縮短軟件運行時間,而不是縮短軟件開發(fā)時間。另外,性能工程還可以根據(jù)硬件的情況進行軟件定制,如利用并行處理器和矢量單元。
在算法層面,在已有算法上的改進是不均勻的,而且具有偶然性,大量算法進展可能來源于新的問題領(lǐng)域、可擴展性問題、根據(jù)硬件定制算法。
在硬件層面,由于摩爾定律的制約,顯然需要改進的是硬件的架構(gòu),主要問題就是如何簡化處理器和利用應(yīng)用程序的并行性。
通過簡化處理器,可以將復(fù)雜的處理核替換為晶體管數(shù)量需求更少的簡單處理核。由此釋放出的晶體管預(yù)算可重新分配到其他用途上,比如增加并行運行的處理核的數(shù)量,這將大幅提升可利用并行性問題的效率。
現(xiàn)代 AI 模型需要消耗大量電力,而且對電力的需求正以驚人的速度增長。在深度學(xué)習(xí)時代,構(gòu)建一流 AI 模型所需要的計算資源平均每 3.4 個月翻一番。深度學(xué)習(xí)時代 AI 模型需規(guī)?;瘮U展
在當(dāng)今以深度學(xué)習(xí)為中心的研究范式當(dāng)中,AI 的主要進步主要依賴于模型的規(guī)?;瘮U展:數(shù)據(jù)集更大、模型更大、計算資源更大。
在訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)需要為每一條數(shù)據(jù)執(zhí)行一整套冗長的數(shù)學(xué)運算(正向傳播與反向傳播),并以復(fù)雜的方式更新模型參數(shù)。
在現(xiàn)實環(huán)境中部署并運行 AI 模型,所帶來的能源消耗量甚至高于訓(xùn)練過程。實際上,神經(jīng)網(wǎng)絡(luò)全部算力成本中的 80%到 90%來自推理階段,而非訓(xùn)練階段。
因此,數(shù)據(jù)集規(guī)模越大,與之對應(yīng)的算力與能源需求也在飛速增長。模型中包含的參數(shù)量越大,推理階段所帶來的電力需求就越夸張。
深度學(xué)習(xí)是 AI 核心,但局限性明顯
深度學(xué)習(xí)是近年來人工智能技術(shù)發(fā)展的核心,雖然取得了巨大成功,但它具有明顯的局限性。與人類視覺系統(tǒng)相比,深度學(xué)習(xí)在通用性、靈活性和適應(yīng)性上要差很多,而在遇到復(fù)雜的自然圖像時,深度學(xué)習(xí)可能還會遇到機制性困難。
研究人員表示,目前形式的深度神經(jīng)網(wǎng)絡(luò)似乎不太可能是未來建立通用智能機器或理解思維的最佳解決方案,但深度學(xué)習(xí)的很多機制在未來仍會繼續(xù)存在。
深度網(wǎng)絡(luò)還存在巨大挑戰(zhàn),而我們要實現(xiàn)通用人工智能和理解生物視覺系統(tǒng),就必須克服這些挑戰(zhàn)。
雖然深度網(wǎng)絡(luò)會是解決方案的一部分,但還需要涉及組合原則和因果模型的互補方法,以捕捉數(shù)據(jù)的基本結(jié)構(gòu)。此外,面對組合性爆炸,需要要再次思考如何訓(xùn)練和評估視覺算法。
每一次人工智能低谷來臨之前,都會有科學(xué)家夸大和炒作他們創(chuàng)造的潛力,僅僅說他們的算法就能夠很好地完成某項任務(wù)是不夠的。
對大多數(shù)問題來說,深度學(xué)習(xí)并不是正確的解決方法,不要試圖為所有的問題尋找通用人工智能解決方案,因為它根本就不存在。
結(jié)尾:
深度學(xué)習(xí)的發(fā)展可能已達極限,但其影響還將持續(xù)深遠。為了避免在“人工智能冬天”中被淘汰的命運,能做的最好的事情就是明確你要解決的問題,并理解其本質(zhì);然后,尋找為特定問題提供解決方案的直觀路徑的方法。