加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 90后清華大牛組團(tuán)創(chuàng)業(yè),出道即巔峰!
    • 首創(chuàng)20萬字超長輸入,千億大模型進(jìn)入“長文本”時(shí)代
    • 10億美元新融資,能否成為AI時(shí)代的Super?App?
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

超70億元!這家獨(dú)角獸再獲新一輪融資

02/21 10:20
2909
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

張通社 zhangtongshe.com

近日,月之暗面最近完成了一輪超過10億美金(折合人民幣約71.9億元)的融資,投資方包括紅杉中國、小紅書、美團(tuán)和阿里。

這一輪融資使月之暗面的估值達(dá)到了約25億美金(折合人民幣約179.9億元),成為國內(nèi)大模型領(lǐng)域的頭部企業(yè)之一。這是自從ChatGPT引發(fā)全球熱潮以來國內(nèi)AI大模型公司獲得的單輪最大金額融資。

月之暗面是一家聚焦AGI(artificial general intelligence,通用人工智能)的AI初創(chuàng)大模型供應(yīng)商,分別在北京、上海、海南等多地注冊有公司。其中,2023年8月,在臨港新片區(qū)環(huán)湖西二路注冊成立上海月之暗面科技有限公司,注冊資本為5850萬美元,法定代表人為楊植麟。

據(jù)悉,月之暗面成立不足一年,但深受資本青睞:早在2023年6月,月之暗面已完成3億美元天使輪融資,投資方為真格基金、紅杉中國。

一家如此年輕的創(chuàng)始團(tuán)隊(duì),為何被資本和業(yè)界一致寄予厚望?

90后清華大牛組團(tuán)創(chuàng)業(yè),出道即巔峰!

在百模大戰(zhàn)當(dāng)下,誰會(huì)是中國的OpenAI?2023年6月,科技媒體The Information盤點(diǎn)了中國AI初創(chuàng)企業(yè)Top5,分別為MiniMax、瀾舟科技、智譜AI、光年之外(已被美團(tuán)收購)以及月之暗面。

月之暗面團(tuán)隊(duì)創(chuàng)始人楊植麟——唯一一位以個(gè)人名字入榜的選手,本科畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,博士就讀于全美自然語言處理排名第一的卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所(LTI),師從蘋果AI研究負(fù)責(zé)人Ruslan Salakhutdinov、谷歌首席科學(xué)家William Cohen。

在博士期間,楊植麟用4年時(shí)間完成了一般6年才能完成的博士課程,并連續(xù)作為第一作者發(fā)表了兩項(xiàng)關(guān)鍵研究成果——Transformer-XL和XLNet。Transformer-XL成為首個(gè)全面超越RNN的注意力語言模型,相關(guān)論文是NeurIPS 2019與ACL 2019的最高引論文之一;XLNet則在20項(xiàng)任務(wù)上超越谷歌BERT模型。截至目前,楊植麟本人學(xué)術(shù)引用量自2019年起已超2萬余次。

讀博的過程中,楊植麟也創(chuàng)立了第一家AI公司“循環(huán)智能”。7年之后他再度出發(fā),與兩位清華校友周昕宇、吳育昕共同創(chuàng)立了月之暗面。

周昕宇是月之暗面的算法團(tuán)隊(duì)負(fù)責(zé)人,清華大學(xué)2011級(jí)本科生,和楊植麟韜同為計(jì)算機(jī)系的學(xué)生。周昕宇在畢業(yè)后選擇加入曠視,工作內(nèi)容是算法量產(chǎn)。就職期間,他和曠視研究院基礎(chǔ)科研負(fù)責(zé)人、ResNet作者之一張祥雨合作研究移動(dòng)端模型,以共同一作的身份撰寫ShuffleNet論文,被CVPR接受。這項(xiàng)工作后來影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機(jī)毫秒級(jí)人臉解鎖技術(shù)。

值得一提的是,在清華時(shí),周昕宇就和楊植麟共同創(chuàng)建了樂隊(duì),并創(chuàng)作了一首歌,有關(guān)“做了一個(gè)創(chuàng)業(yè)成功一夜暴富的白日夢”,而月之暗面這個(gè)公司名,就來源于楊植麟最喜歡的專輯《The Dark Side of The Moon》。

吳育昕和楊植麟一樣,先后畢業(yè)于清華和CMU,研究方向?yàn)橛?jì)算機(jī)視覺中的檢測和識(shí)別問題。畢業(yè)后他先是在Meta的FAIR工作,曾和AI大神何愷明共同提出組歸一化(GN)的方法。期間,他還創(chuàng)建了detectron2,這是Meta最受歡迎的AI項(xiàng)目之一。在Google Scholarship上,吳育昕的被引次數(shù)超過了19000次。

楊植麟認(rèn)為,公司最主要的一個(gè)特色其實(shí)是人才密度?!拔覀兿Mㄟ^這種很高的人才密度以及組織力量,能夠打造一個(gè)很快迭代的組織機(jī)器,讓人才能夠快速基于我們現(xiàn)有和未來發(fā)展出的技術(shù),開發(fā)出比較好的產(chǎn)品?!?/p>

目前,月之暗面團(tuán)隊(duì)成員人數(shù)在100人至200人之間。團(tuán)隊(duì)現(xiàn)已匯聚了來自CMU LTI、Google、Meta、Amazon等全球頂級(jí)機(jī)構(gòu)人才。

一位行業(yè)內(nèi)人士指出,市場上大模型相關(guān)的人才非常稀缺,真正有相關(guān)經(jīng)驗(yàn)、有計(jì)劃、有認(rèn)知、愿意創(chuàng)業(yè)且在合適年齡的人其實(shí)并沒有那么多,在算法創(chuàng)新方面的人才稀缺程度則比之更甚。這也是月之暗面被資本熱捧的重要原因。

首創(chuàng)20萬字超長輸入,千億大模型進(jìn)入“長文本”時(shí)代

2022年,Chat GPT橫空出世,成為史上最快傳播的應(yīng)用。作為人工智能實(shí)驗(yàn)室Open AI開發(fā)的聊天機(jī)器人模型,它正在科技領(lǐng)域引領(lǐng)一個(gè)新潮流。面對強(qiáng)大的Chat GPT,月之暗面團(tuán)隊(duì)創(chuàng)始人楊植麟表示:“Chat GPT剛發(fā)的時(shí)候,我非常激動(dòng),我好奇這個(gè)世界到底能做什么樣的AI,我能多大程度去復(fù)制、甚至做得比人腦更好。同時(shí),我也陷入到非常沮喪的狀態(tài)——我會(huì)開始想在這個(gè)浪潮里我還能貢獻(xiàn)什么,又開始興奮起來:現(xiàn)在是非常好的timing,不管發(fā)生什么,一定要做?!?/p>

在公司成立之初,楊植麟便推出千億參數(shù)級(jí)大模型moonshot,以及搭載該模型的智能助手Kimi Chat。除了聯(lián)網(wǎng)搜索、知識(shí)查詢、文本生成、翻譯、圖片識(shí)別等基礎(chǔ)功能,Kimi Chat進(jìn)行文本搜索所得出的內(nèi)容是深入研究、挖掘更全面的信息。

大模型應(yīng)用效果通常取決于兩個(gè)核心指標(biāo),一是模型參數(shù)量,決定了大模型的“計(jì)算”能力;二是能夠接收多少文本輸入,即長文本技術(shù),決定了大模型的“內(nèi)存”能力。月之暗面在千億參數(shù)模型的基礎(chǔ)上,重點(diǎn)突破了長文本技術(shù)的挑戰(zhàn)。

Kimi Chat最多支持20萬漢字的超長文本輸入,是目前全球市場上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長上下文輸入長度。作為對比,Anthropic的Claude-100k模型支持約8萬字,而OpenAI的GPT-4-32k只支持約2.5萬字。

同時(shí),楊植麟強(qiáng)調(diào),Kimi Chat通過創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化,在千億參數(shù)下實(shí)現(xiàn)了無損的長程注意力機(jī)制,但不依賴于滑動(dòng)窗口、降采樣、小模型等常見的對性能損害較大的“捷徑”方案。

月之暗面將長文本技術(shù)稱之為大模型“登月計(jì)劃”的第一步。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”,使大模型的應(yīng)用更加深入和廣泛。比如通過多篇財(cái)報(bào)進(jìn)行市場分析、處理超長的法務(wù)合同、快速梳理多篇文章或多個(gè)網(wǎng)頁的關(guān)鍵信息、基于長篇小說設(shè)定進(jìn)行角色扮演等等。

楊植麟認(rèn)為,簡單的捷徑無法達(dá)到理想的產(chǎn)品化效果。因此,月之暗面的技術(shù)路線,就是不走捷徑,踏實(shí)地解決算法與工程的雙重挑戰(zhàn),在算力、存儲(chǔ)、帶寬等技術(shù)層面做了極致的優(yōu)化。

從LLM(大語言模型)到LLLM(長文本大語言模型),Kimi Chat只是Moonshot的第一步。不過,如今的Moonshot已經(jīng)寄托著楊植麟對未來的一些很“黑鏡”的預(yù)想:在未來,如果機(jī)器能夠掌握一個(gè)人一生的信息,人們就會(huì)擁有自己的AI分身,這個(gè)AI分身共享了你的所有記憶,無異于另一個(gè)你。

10億美元新融資,能否成為AI時(shí)代的Super?App?

從商業(yè)模式的角度來看,大模型產(chǎn)品分為to B與to C兩大陣營。以Chat GPT和Character.ai為例,這兩個(gè)產(chǎn)品已經(jīng)積累了大量的數(shù)據(jù)和用戶反饋,有大量的跡象證明已經(jīng)通過這種的產(chǎn)品產(chǎn)生了新的入口,新一代AI在“有用”和“有趣”兩個(gè)方向上,都會(huì)有巨大潛力。盡管在商業(yè)落地的探索中,月之暗面保持著開放的心態(tài),但其核心定位放在to C上。

楊植麟認(rèn)為,AI Native的產(chǎn)品會(huì)在to C領(lǐng)域產(chǎn)生新的流量入口,成為AI時(shí)代的Super App,這是一個(gè)非常大的機(jī)會(huì)。而要想做Super App,就必須用自研模型,因?yàn)椤爸挥凶匝心P筒拍茉谟脩趔w驗(yàn)上產(chǎn)生差異化”。

開源模型無法構(gòu)建產(chǎn)品壁壘。比如,在海外有幾百個(gè)基于開源擴(kuò)散模型Stable Diffusion的應(yīng)用出現(xiàn),但最后其實(shí)沒有任何一個(gè)跑出來。其次,無法在開源技術(shù)的基礎(chǔ)上通過數(shù)據(jù)的虹吸效應(yīng)讓模型持續(xù)地優(yōu)化,因?yàn)殚_源模型本身是分布式部署,沒有一個(gè)集中的地方接收數(shù)據(jù)。因此,楊植麟堅(jiān)定地表示,不管是從底層邏輯還是當(dāng)前的現(xiàn)象,都需要通過閉源模型構(gòu)建產(chǎn)品壁壘。

目前,在視覺領(lǐng)域,團(tuán)隊(duì)成員發(fā)明了MoCo,引爆了基于對比學(xué)習(xí)的視覺預(yù)訓(xùn)練范式,也是過去三年CVPR引用量最高的工作;發(fā)明了ShuffleNet,最高效的視覺網(wǎng)絡(luò)結(jié)構(gòu)之一;主導(dǎo)開發(fā)了detectron2,一個(gè)被廣泛使用的視覺開源項(xiàng)目并被集成到Meta全線VR/AR產(chǎn)品中。

強(qiáng)化學(xué)習(xí)方面,團(tuán)隊(duì)成員作為一作提出了基于關(guān)系學(xué)習(xí)的少樣本方法,得到斯坦福大學(xué)、谷歌、MIT、亞馬遜等團(tuán)隊(duì)的使用和擴(kuò)展,并獲得過OpenAI RL聯(lián)創(chuàng)及負(fù)責(zé)人John Schulman親自邀請加盟。

所以,對于當(dāng)下而言,相比于商業(yè)模式,他認(rèn)為現(xiàn)階段的核心議題是產(chǎn)品創(chuàng)新。做到產(chǎn)品創(chuàng)新的關(guān)鍵,在于公司的人才和組織能力?!按竽P陀悬c(diǎn)類似登月計(jì)劃,本身需要自頂向下的規(guī)劃和統(tǒng)籌,但同時(shí),我們需要鼓勵(lì)自下而上的創(chuàng)新,保持一定程度的開放性和組織的扁平化,這樣創(chuàng)新就更容易發(fā)生。

2023年7月6日,楊植麟出席在上海舉辦的第六屆世界人工智能大會(huì)(WAIC 2023),與業(yè)內(nèi)眾多專業(yè)人士探討了包括“大模型核心理論研究突破、多模態(tài)對大模型的優(yōu)化、算法安全及算法的發(fā)展路線選擇”等諸多前沿話題,引發(fā)廣泛思考。

2024年1月30日-31日,上海期智研究院2023年-2024年度科研項(xiàng)目進(jìn)展工作會(huì)議在期智研究院舉行。人工智能、交叉智能、現(xiàn)代密碼學(xué)、高性能計(jì)算、量智能方向的23位課題負(fù)責(zé)人就各自研究成果進(jìn)行了分享交流,并對本領(lǐng)域的發(fā)展趨勢及PI的分享了各自的見解。楊植麟在現(xiàn)場展示了長文本大語言模型Long-Context LLMs。

大模型領(lǐng)域的競爭已然掀起狂瀾,群雄并起。而在未來,希望月之暗面通過AI快速疊代模型底座和產(chǎn)品,實(shí)現(xiàn)大模型技術(shù)落地,普惠大眾,并成長為AI時(shí)代的Super App。

文字:李楊琳

編輯:吳曉晴

校對:任甄妮

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATXMEGA256A3U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64
$7.71 查看
ATMEGA1284P-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$5.69 查看
ATSAMA5D35A-CU 1 Microchip Technology Inc IC MCU 32BIT 160KB ROM 324LFBGA
$13.36 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號(hào):張通社;源于張江,聯(lián)通創(chuàng)新,服務(wù)社會(huì)!張通社以鏈接每一家科技企業(yè)為目標(biāo),以數(shù)據(jù)為驅(qū)動(dòng),為地方政府、科技園區(qū)、投資機(jī)構(gòu)、銀行、券商、律所、會(huì)所、知識(shí)產(chǎn)權(quán)等企業(yè)服務(wù)機(jī)構(gòu)第一時(shí)間提供科技企業(yè)的需求信息,解決科技企業(yè)與服務(wù)機(jī)構(gòu)之間的信息不對稱問題。