加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 一篇頂級雜志的封面論文開創(chuàng)了光子AI計算領域
    • 突破摩爾定律限制,光子計算芯片大有可為
    • 歷經四年,終將科研成果轉化為光子計算系統(tǒng)“PACE”
    • 硅光芯片也是CMOS工藝,生態(tài)無需重新獨立培養(yǎng)
    • 寫在最后
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

突破摩爾定律限制,光子計算是實現超級算力的歸途

2022/01/20
3137
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

一年前,筆者針對武漢華為光工廠項目(二期)正式封頂的消息寫了一篇關于海思造芯的文章《武漢華為光芯片工廠封頂,海思造芯第一槍?》,那里面也聊到了光子芯片的組成、工作原理,以及華為在光子芯片領域的布局和野心。

那今天為什么又要再聊光子芯片這個話題呢?一方面光子芯片,也就是我們常說的硅光芯片確實是實現突破摩爾定律限制的一項技術,規(guī)模型發(fā)展是大勢所趨;另一方面,前年寫的這篇文章里的光子芯片主要指的是光通信芯片,和今天要講的光子計算芯片至少是不同應用領域的兩件事兒,所以有必要再單獨拉出來談一談。

接觸光子計算這個概念其實是在2019年,當時日本電信電話株式會社(NTT)表示要在處理器中引入光網絡技術,已經開發(fā)出了超小型光電變換元件,并在開發(fā)高性能、低耗電的光電融合型信息處理芯片。屆時,該芯片將應用于異構計算系統(tǒng),節(jié)能、高通量數據處理以及超低延遲檢測、模式匹配處理等領域。

出于對光子芯片的好奇,筆者開始翻閱相關的信息,看到了諸如“人工神經網絡的訓練可以直接在光子芯片上進行”的理論,并關注到了從MIT 團隊誕生出的兩家初創(chuàng)公司 Lightelligence 和 LightMatter。

 
圖 | 世界第一款光子芯片原型板卡

從2019年開始,除了理論驗證,市場上開始出現一些原型產品,比如Lightelligence就曾在2019年4月對外宣布開發(fā)出了世界第一款光子芯片原型板卡,在這個原型產品上成功用光子芯片運行了Google Tensorflow自帶的卷積神經網絡模型來處理MNIST數據集。Lightmatter也在2021年秋季推出了搭載光子計算芯片的PCIe卡,這是Lightmatter專為數據中心AI推理工作負載而設計的,也是其首款商業(yè)化的產品。

也是在這段時間內,華為公開了一份名為“光計算芯片、系統(tǒng)及數據處理技術”的發(fā)明專利,申請日期是2019年8月,專利公開號為CN112306145A。接著在2021年華為全球分析師大會上,華為董事、戰(zhàn)略研究院院長徐文偉表示,“到2030年,算力需求將增加100倍,如何打造超級算力將是一個巨大的挑戰(zhàn),未來模擬計算、光子計算面臨巨大的應用場景,所以目前華為也在研究模擬計算與光子計算。”

初創(chuàng)企業(yè)在前面闖,行業(yè)巨頭帶節(jié)奏,可見光子計算才是實現超級算力的歸途。這更加激起了筆者的好奇心,光子計算到底是怎么實現的?目前技術演進到了哪一步?生態(tài)落地有何困難?恰逢一系列問題涌上心頭之時,Lightelligence的市場人員找到我,并告知要在2021年12月舉辦一場關于“最新光子計算處理器”的發(fā)布會,這下有機會深入了解一下Lightelligence和它的光子計算了。

一篇頂級雜志的封面論文開創(chuàng)了光子AI計算領域

Lightelligence中文名為曦智科技,是一位89年的杭州小伙在MIT(麻省理工學院)博士畢業(yè)后創(chuàng)立的,這個小伙就是曦智科技創(chuàng)始人兼CEO的沈亦晨。

 
圖 | 曦智科技創(chuàng)始人兼CEO沈亦晨博士

關于為何會選擇光子計算作為創(chuàng)業(yè)方向,沈亦晨表示,“光子AI計算這個技術是我在MIT主要的研究方向,2016年我所在的研究團隊打造了首個光學計算系統(tǒng),2017年就以封面文章的形式發(fā)表在了頂級期刊Nature Photonics雜志上,國際著名光學科學家、斯坦福大學終身正教授David Miller, 曾評價稱這一系列的研究成果極大地推動了集成光學在未來取代傳統(tǒng)電子計算芯片的發(fā)展。于是一篇論文在全球范圍內啟發(fā)了許多人投入到光子 AI 芯片的開發(fā)中,可以說是開創(chuàng)了光子AI計算領域,吸引了近二十家初創(chuàng)公司相繼成立,不少大公司也都相繼進入這個方向,而曦智科技就是其中的一員。”

曦智科技目前在波士頓、上海、杭州、南京等地設有辦公室及實驗室,全球員工近200人,核心團隊中有超過10位MIT的博士(主要背景是硅光和AI兩個方向),業(yè)界非常有經驗的專家(比如帶數字、模擬、封裝的團隊的Maurice Steinman),以及頂級IT公司出來的高管(帶領軟件和算法團隊)。

突破摩爾定律限制,光子計算芯片大有可為

2012年以后,神經網絡的大小和計算模型的大小出現了爆炸式的增長,平均每3-4個月,計算模型的大小就會翻一倍。所以,今天最大的神經網絡的模型大概是2012年的15-30萬倍左右,并且還在持續(xù)增長,但是有明顯受制于算力底層限制的趨勢,換言之,底層算力制約了人工智能的進一步發(fā)展。

那么,算力為什么會在發(fā)展上難以跟上模型大小的速度呢?總結下來有三大主要瓶頸:算力、數據傳輸和存儲。算力瓶頸主要來源于兩方面:

一. 摩爾定律的限制。在過去近50年里,晶體管的密度可以每18-20個月翻一倍,但從物理的角度來講,一個原子的大小就有接近0.3個納米,當半導體制程達到3納米后,已經非常接近物理極限,所以要復刻過去的每18-20個月翻一倍幾乎沒有可能。

二. 功耗和發(fā)熱。2015年以后,隨著晶體管越來越小,晶體管上的隧穿現象越來越嚴重,所以即使能把晶體管做得更小,單個晶體管在進行運算時的功耗也沒辦法進一步降低,片上的熱無法更有效散發(fā)出去,限制了算力的提高。

而算力瓶頸直接決定了單位面積電芯片上能做的計算密度,對業(yè)界來說,進一步提高算力的唯一辦法就是進一步擴大電芯片的面積。面對該想法,美國一家公司做了一顆像餐盤一樣大的芯片,面積是英偉達芯片的70-80倍,但功耗是英偉達芯片的200倍。這表明隨著芯片面積越做越大,它的能耗比并不是隨面積正比例提升的。這是因為隨著面積的增大,需要更長的銅導線在不同芯片、不同點之間傳遞數據,但是銅導線的發(fā)熱量是依據長度正比例增加的。所以,隨著芯片面積越來越大,在數據傳輸上的功耗就會顯著增長,這也從本質上制約了用一塊更大的電芯片去完成算力突破的想法。

類似的,把多個芯片通過一些電的互聯后去協(xié)同做計算,由于片間互聯帶寬非常有限,加上銅導線功耗無法繞開,效果也是差強人意。通常,通過電來互聯100個芯片或者板卡后,它的算力可能只比單個板卡提高10倍左右,這是電芯片難以破除的困境。

于是,光子芯片被認為是最適合解決這些困境的底層技術。首先,在數據搬運上面,光已經在光通信領域充分證明它的優(yōu)勢;其次,現在的大數據AI大多是在做線性運算,而恰好光的矩陣乘法并行能力非常強,延時遠遠低于電芯片,并且光在傳播的時候本身不會發(fā)熱;最重要的是,這種光子計算系統(tǒng)已經被曦智科技這樣的團隊搭建出來,并經過了實際驗證,不是純理論的東西。

歷經四年,終將科研成果轉化為光子計算系統(tǒng)“PACE”

從2017年至今,曦智科技團隊歷時四年多,將光子AI計算從理論的科研成果,轉化成了能跑卷積神經網絡模型處理MNIST數據集的光子芯片原型板卡,再到今天能跑AI和深度學習以外應用案例的光子計算系統(tǒng)“PACE”的誕生,把最早4×4的乘法器,提升到了把上萬個光器件集成在一塊芯片上面,單顆光芯片上的器件集成度提高了3個數量級,系統(tǒng)時鐘達1GHz,運行特定循環(huán)神經網絡速度可達目前高端GPU的數百倍,這是光子計算領域一個長足的進步。

 
圖 | 曦智科技光子處理器PACE

沈亦晨在介紹“光子計算”技術時,將其分為三個部分:通過光來做矩陣的乘積累加運算oMAC、片上光網絡oNOC和片間光網絡oNET。

oMAC就是通過光來做矩陣的乘積累加運算,它是一種模擬計算,通過光模擬信號代替?zhèn)鹘y(tǒng)電子進行數據處理,數據可以加載在光的強度或者相位上面,通過在波導里的傳播相互干涉,同時進行運算。

oNOC是片上的光網絡,主要通過用波導代替銅導線的方式,在片上進行數據傳輸,包括實現片與片之間的光通信,以及大芯片上光的總線通信,在光芯片上構建一個固定通信網絡拓撲,通過光相連,實現基于片上光網絡的數據交互,然后采用一些波分復用的方式來傳播數據。它的優(yōu)勢主要是帶寬高、功耗小、延時低和通用性強(通用性體現在可以將不同類型的電子芯片和它結合,為訪問存儲芯片或者在不同的計算芯片之間提供一個更高速、更低功耗互聯的方式)。

片間光網絡oNET就是把片上的東西進一步拓展到多個板卡和更多的服務器之間,通過直接用光纖的方式把芯片和芯片直接互聯起來,類似以一種光方式做芯片之間數據的傳輸。

 
圖 | 全球第一個示范出光子優(yōu)勢的計算系統(tǒng)PACE

沈亦晨表示,“PACE是全球僅有的,第一個示范出光子優(yōu)勢的計算系統(tǒng),也是已知全球集成度最高的光子芯片,能夠展示光子計算在人工智能和深度學習以外的應用案例。PACE如果和英偉達的GPU 3080跑同一個循環(huán)神經網絡算法,花的時間可以做到GPU的1%以內。

從組成結構的角度,PACE由兩部分組成:光芯片和電芯片,兩者通過3D封裝技術倒裝堆疊在一起。電芯片上主要做數據的存儲和數?;旌系恼{度,光芯片上主要做數據的計算。

據悉,PACE能夠解決伊辛問題(Ising)和最大割/最小割問題(Max-cut/Min-cut)等現在全球最難以解決或者難以高效解決的數學問題——NP-Complete Problem,中文譯為多項式復雜程度非確定性問題,涉及比如生物信息里蛋白質結構的預測、物流交通調度、芯片設計、材料研發(fā)等。

硅光芯片也是CMOS工藝,生態(tài)無需重新獨立培養(yǎng)

以“PACE”為例,65/45納米的CMOS工藝線就可以滿足現在光計算芯片所有的要求。硅光芯片未來的技術迭代也不會對制程有特別的要求,更多是從其他方面進行技術迭代,比如主頻、波長數量還有不同的模式。

為何要做這段解釋?一方面可以表明光子芯片的工藝制程要求不高,另一方面也讓我們了解到硅光芯片其實是CMOS工藝,在電學、熱學,包括仿真上都有相當成熟的軟可以件直接使用,進行光電混合設計。唯一的不同就是對于光來說,在封裝方案里需要有一個接口,把光源導到光芯片上去,或者把激光器封裝到整個板卡里面,這部分可能是創(chuàng)新的地方。

 
圖 | 光電結合的信號處理示意

對于生態(tài)的兼容性,沈亦晨表示,“硅光芯片作為一種底層的硬件支持,采用的是光電混合結構,和軟件相關的都是數字芯片。所有的指令、編譯、軟件,首先會加載到數字電芯片上面,數字電芯片會把這些指令和交互點做一個切分和分解,所以只需要在編譯器和底層驅動上添加一些新的功能。比如說要做矩陣乘法的時候,數字芯片會發(fā)出一個指令讓光芯片去做矩陣乘法。但是,絕大部分的指令其實和現有指令比較接近,比如絕大部分的非線性指令、一些數據的調度指令,都是基于現有數字電芯片去做的。所以,從軟件和生態(tài)適配的角度來講,本質上與現有生態(tài)是一樣的,無非就是換了幾個核心功能。電動車為例,電動車的發(fā)動機和能源系統(tǒng)用的是電池,汽油車用的是汽油,但不代表客戶開車的時候需要重新考一遍駕照。我們的光電芯片也可以這么理解,不影響客戶或者用戶的軟件系統(tǒng),用戶還是去和數字電芯片做交互。” 

“不過,對于光子芯片這個大生態(tài)來講,還是需要更多時間去培養(yǎng),首先要往現有生態(tài)上去靠,在軟件方面兼容現有的生態(tài),和一線晶圓廠、封裝廠建立戰(zhàn)略合作,聯合友商把供應鏈慢慢做到成熟。針對市場側,曦智科技會先切入大數據的應用場景,包括云計算智能駕駛、金融上的量化交易、生物藥物研發(fā)等,目前我們已經和一些全球頂級云服務供應商、主要金融機構等有深度的合作。” 沈亦晨補充道。

寫在最后

“明年我們會推出更通用化的產品,當它去跑像Transformer這樣模型的時候,并不能預期它會像PACE這樣有上百倍的優(yōu)勢。但是,尤其是基于大模型,若將光的互聯和光的計算一起加上去,還是能夠跑出3-5倍的算力優(yōu)勢。對于第一代產品來說,這樣就能夠足夠打到市場里面去。”這是曦智科技的短期布局和規(guī)劃。

在被問到這幾年賽道中逐步涌現了十幾家光子計算的初創(chuàng)公司,國內的大公司也慢慢開始布局光計算時,沈亦晨自信地回答道,“這說明我們這個行業(yè)越來越受到大家的認可,有越來越多的人愿意參與進來,這對生態(tài)建設是件好事。我們團隊的起步是所有公司里最早的,光計算不像數字電路,用一個相當成熟的設計流程完成設計,一年、兩年之內就有可能超過所有其他的數字芯片。光芯片需要相當長的研發(fā)周期,從器件的設計到封裝的方式,到最后軟硬一體化的優(yōu)化,都是需要經過時間積累的。任何一家公司,哪怕是有幾百億、幾千億的公司,要從現在開始做出像PACE這樣一個產品,也會需要至少三年時間。除了先發(fā)優(yōu)勢外,團隊也是我們的核心競爭力。我們現在有最強的、最完整的做光電混合計算的團隊,集聚從硅光到數字,到模擬,到軟件的各路人才,是一個已經磨合了四年的團隊,這是我們最大的財富。”
 

相關推薦

電子產業(yè)圖譜

與非網副主編 通信專業(yè)出身,從事電子研發(fā)數余載,擅長從工程師的角度洞悉電子行業(yè)發(fā)展動態(tài)。