張通社 zhangtongshe.com
近日,月之暗面最近完成了一輪超過10億美金(折合人民幣約71.9億元)的融資,投資方包括紅杉中國、小紅書、美團(tuán)和阿里。
這一輪融資使月之暗面的估值達(dá)到了約25億美金(折合人民幣約179.9億元),成為國內(nèi)大模型領(lǐng)域的頭部企業(yè)之一。這是自從ChatGPT引發(fā)全球熱潮以來國內(nèi)AI大模型公司獲得的單輪最大金額融資。
月之暗面是一家聚焦AGI(artificial general intelligence,通用人工智能)的AI初創(chuàng)大模型供應(yīng)商,分別在北京、上海、海南等多地注冊有公司。其中,2023年8月,在臨港新片區(qū)環(huán)湖西二路注冊成立上海月之暗面科技有限公司,注冊資本為5850萬美元,法定代表人為楊植麟。
據(jù)悉,月之暗面成立不足一年,但深受資本青睞:早在2023年6月,月之暗面已完成3億美元天使輪融資,投資方為真格基金、紅杉中國。
一家如此年輕的創(chuàng)始團(tuán)隊(duì),為何被資本和業(yè)界一致寄予厚望?
90后清華大牛組團(tuán)創(chuàng)業(yè),出道即巔峰!
在百模大戰(zhàn)當(dāng)下,誰會(huì)是中國的OpenAI?2023年6月,科技媒體The Information盤點(diǎn)了中國AI初創(chuàng)企業(yè)Top5,分別為MiniMax、瀾舟科技、智譜AI、光年之外(已被美團(tuán)收購)以及月之暗面。
月之暗面團(tuán)隊(duì)創(chuàng)始人楊植麟——唯一一位以個(gè)人名字入榜的選手,本科畢業(yè)于清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,博士就讀于全美自然語言處理排名第一的卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所(LTI),師從蘋果AI研究負(fù)責(zé)人Ruslan Salakhutdinov、谷歌首席科學(xué)家William Cohen。
在博士期間,楊植麟用4年時(shí)間完成了一般6年才能完成的博士課程,并連續(xù)作為第一作者發(fā)表了兩項(xiàng)關(guān)鍵研究成果——Transformer-XL和XLNet。Transformer-XL成為首個(gè)全面超越RNN的注意力語言模型,相關(guān)論文是NeurIPS 2019與ACL 2019的最高引論文之一;XLNet則在20項(xiàng)任務(wù)上超越谷歌BERT模型。截至目前,楊植麟本人學(xué)術(shù)引用量自2019年起已超2萬余次。
讀博的過程中,楊植麟也創(chuàng)立了第一家AI公司“循環(huán)智能”。7年之后他再度出發(fā),與兩位清華校友周昕宇、吳育昕共同創(chuàng)立了月之暗面。
周昕宇是月之暗面的算法團(tuán)隊(duì)負(fù)責(zé)人,清華大學(xué)2011級(jí)本科生,和楊植麟韜同為計(jì)算機(jī)系的學(xué)生。周昕宇在畢業(yè)后選擇加入曠視,工作內(nèi)容是算法量產(chǎn)。就職期間,他和曠視研究院基礎(chǔ)科研負(fù)責(zé)人、ResNet作者之一張祥雨合作研究移動(dòng)端模型,以共同一作的身份撰寫ShuffleNet論文,被CVPR接受。這項(xiàng)工作后來影響了包括蘋果3D人臉解鎖在內(nèi)的各種手機(jī)毫秒級(jí)人臉解鎖技術(shù)。
值得一提的是,在清華時(shí),周昕宇就和楊植麟共同創(chuàng)建了樂隊(duì),并創(chuàng)作了一首歌,有關(guān)“做了一個(gè)創(chuàng)業(yè)成功一夜暴富的白日夢”,而月之暗面這個(gè)公司名,就來源于楊植麟最喜歡的專輯《The Dark Side of The Moon》。
吳育昕和楊植麟一樣,先后畢業(yè)于清華和CMU,研究方向?yàn)橛?jì)算機(jī)視覺中的檢測和識(shí)別問題。畢業(yè)后他先是在Meta的FAIR工作,曾和AI大神何愷明共同提出組歸一化(GN)的方法。期間,他還創(chuàng)建了detectron2,這是Meta最受歡迎的AI項(xiàng)目之一。在Google Scholarship上,吳育昕的被引次數(shù)超過了19000次。
楊植麟認(rèn)為,公司最主要的一個(gè)特色其實(shí)是人才密度?!拔覀兿Mㄟ^這種很高的人才密度以及組織力量,能夠打造一個(gè)很快迭代的組織機(jī)器,讓人才能夠快速基于我們現(xiàn)有和未來發(fā)展出的技術(shù),開發(fā)出比較好的產(chǎn)品?!?/p>
目前,月之暗面團(tuán)隊(duì)成員人數(shù)在100人至200人之間。團(tuán)隊(duì)現(xiàn)已匯聚了來自CMU LTI、Google、Meta、Amazon等全球頂級(jí)機(jī)構(gòu)人才。
一位行業(yè)內(nèi)人士指出,市場上大模型相關(guān)的人才非常稀缺,真正有相關(guān)經(jīng)驗(yàn)、有計(jì)劃、有認(rèn)知、愿意創(chuàng)業(yè)且在合適年齡的人其實(shí)并沒有那么多,在算法創(chuàng)新方面的人才稀缺程度則比之更甚。這也是月之暗面被資本熱捧的重要原因。
首創(chuàng)20萬字超長輸入,千億大模型進(jìn)入“長文本”時(shí)代
2022年,Chat GPT橫空出世,成為史上最快傳播的應(yīng)用。作為人工智能實(shí)驗(yàn)室Open AI開發(fā)的聊天機(jī)器人模型,它正在科技領(lǐng)域引領(lǐng)一個(gè)新潮流。面對強(qiáng)大的Chat GPT,月之暗面團(tuán)隊(duì)創(chuàng)始人楊植麟表示:“Chat GPT剛發(fā)的時(shí)候,我非常激動(dòng),我好奇這個(gè)世界到底能做什么樣的AI,我能多大程度去復(fù)制、甚至做得比人腦更好。同時(shí),我也陷入到非常沮喪的狀態(tài)——我會(huì)開始想在這個(gè)浪潮里我還能貢獻(xiàn)什么,又開始興奮起來:現(xiàn)在是非常好的timing,不管發(fā)生什么,一定要做?!?/p>
在公司成立之初,楊植麟便推出千億參數(shù)級(jí)大模型moonshot,以及搭載該模型的智能助手Kimi Chat。除了聯(lián)網(wǎng)搜索、知識(shí)查詢、文本生成、翻譯、圖片識(shí)別等基礎(chǔ)功能,Kimi Chat進(jìn)行文本搜索所得出的內(nèi)容是深入研究、挖掘更全面的信息。
大模型應(yīng)用效果通常取決于兩個(gè)核心指標(biāo),一是模型參數(shù)量,決定了大模型的“計(jì)算”能力;二是能夠接收多少文本輸入,即長文本技術(shù),決定了大模型的“內(nèi)存”能力。月之暗面在千億參數(shù)模型的基礎(chǔ)上,重點(diǎn)突破了長文本技術(shù)的挑戰(zhàn)。
Kimi Chat最多支持20萬漢字的超長文本輸入,是目前全球市場上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長上下文輸入長度。作為對比,Anthropic的Claude-100k模型支持約8萬字,而OpenAI的GPT-4-32k只支持約2.5萬字。
同時(shí),楊植麟強(qiáng)調(diào),Kimi Chat通過創(chuàng)新的網(wǎng)絡(luò)結(jié)構(gòu)和工程優(yōu)化,在千億參數(shù)下實(shí)現(xiàn)了無損的長程注意力機(jī)制,但不依賴于滑動(dòng)窗口、降采樣、小模型等常見的對性能損害較大的“捷徑”方案。
月之暗面將長文本技術(shù)稱之為大模型“登月計(jì)劃”的第一步。支持更長的上下文意味著大模型擁有更大的“內(nèi)存”,使大模型的應(yīng)用更加深入和廣泛。比如通過多篇財(cái)報(bào)進(jìn)行市場分析、處理超長的法務(wù)合同、快速梳理多篇文章或多個(gè)網(wǎng)頁的關(guān)鍵信息、基于長篇小說設(shè)定進(jìn)行角色扮演等等。
楊植麟認(rèn)為,簡單的捷徑無法達(dá)到理想的產(chǎn)品化效果。因此,月之暗面的技術(shù)路線,就是不走捷徑,踏實(shí)地解決算法與工程的雙重挑戰(zhàn),在算力、存儲(chǔ)、帶寬等技術(shù)層面做了極致的優(yōu)化。
從LLM(大語言模型)到LLLM(長文本大語言模型),Kimi Chat只是Moonshot的第一步。不過,如今的Moonshot已經(jīng)寄托著楊植麟對未來的一些很“黑鏡”的預(yù)想:在未來,如果機(jī)器能夠掌握一個(gè)人一生的信息,人們就會(huì)擁有自己的AI分身,這個(gè)AI分身共享了你的所有記憶,無異于另一個(gè)你。
10億美元新融資,能否成為AI時(shí)代的Super?App?
從商業(yè)模式的角度來看,大模型產(chǎn)品分為to B與to C兩大陣營。以Chat GPT和Character.ai為例,這兩個(gè)產(chǎn)品已經(jīng)積累了大量的數(shù)據(jù)和用戶反饋,有大量的跡象證明已經(jīng)通過這種的產(chǎn)品產(chǎn)生了新的入口,新一代AI在“有用”和“有趣”兩個(gè)方向上,都會(huì)有巨大潛力。盡管在商業(yè)落地的探索中,月之暗面保持著開放的心態(tài),但其核心定位放在to C上。
楊植麟認(rèn)為,AI Native的產(chǎn)品會(huì)在to C領(lǐng)域產(chǎn)生新的流量入口,成為AI時(shí)代的Super App,這是一個(gè)非常大的機(jī)會(huì)。而要想做Super App,就必須用自研模型,因?yàn)椤爸挥凶匝心P筒拍茉谟脩趔w驗(yàn)上產(chǎn)生差異化”。
但開源模型無法構(gòu)建產(chǎn)品壁壘。比如,在海外有幾百個(gè)基于開源擴(kuò)散模型Stable Diffusion的應(yīng)用出現(xiàn),但最后其實(shí)沒有任何一個(gè)跑出來。其次,無法在開源技術(shù)的基礎(chǔ)上通過數(shù)據(jù)的虹吸效應(yīng)讓模型持續(xù)地優(yōu)化,因?yàn)殚_源模型本身是分布式部署,沒有一個(gè)集中的地方接收數(shù)據(jù)。因此,楊植麟堅(jiān)定地表示,不管是從底層邏輯還是當(dāng)前的現(xiàn)象,都需要通過閉源模型構(gòu)建產(chǎn)品壁壘。
目前,在視覺領(lǐng)域,團(tuán)隊(duì)成員發(fā)明了MoCo,引爆了基于對比學(xué)習(xí)的視覺預(yù)訓(xùn)練范式,也是過去三年CVPR引用量最高的工作;發(fā)明了ShuffleNet,最高效的視覺網(wǎng)絡(luò)結(jié)構(gòu)之一;主導(dǎo)開發(fā)了detectron2,一個(gè)被廣泛使用的視覺開源項(xiàng)目并被集成到Meta全線VR/AR產(chǎn)品中。
在強(qiáng)化學(xué)習(xí)方面,團(tuán)隊(duì)成員作為一作提出了基于關(guān)系學(xué)習(xí)的少樣本方法,得到斯坦福大學(xué)、谷歌、MIT、亞馬遜等團(tuán)隊(duì)的使用和擴(kuò)展,并獲得過OpenAI RL聯(lián)創(chuàng)及負(fù)責(zé)人John Schulman親自邀請加盟。
所以,對于當(dāng)下而言,相比于商業(yè)模式,他認(rèn)為現(xiàn)階段的核心議題是產(chǎn)品創(chuàng)新。做到產(chǎn)品創(chuàng)新的關(guān)鍵,在于公司的人才和組織能力?!按竽P陀悬c(diǎn)類似登月計(jì)劃,本身需要自頂向下的規(guī)劃和統(tǒng)籌,但同時(shí),我們需要鼓勵(lì)自下而上的創(chuàng)新,保持一定程度的開放性和組織的扁平化,這樣創(chuàng)新就更容易發(fā)生。
2023年7月6日,楊植麟出席在上海舉辦的第六屆世界人工智能大會(huì)(WAIC 2023),與業(yè)內(nèi)眾多專業(yè)人士探討了包括“大模型核心理論研究突破、多模態(tài)對大模型的優(yōu)化、算法安全及算法的發(fā)展路線選擇”等諸多前沿話題,引發(fā)廣泛思考。
2024年1月30日-31日,上海期智研究院2023年-2024年度科研項(xiàng)目進(jìn)展工作會(huì)議在期智研究院舉行。人工智能、交叉智能、現(xiàn)代密碼學(xué)、高性能計(jì)算、量智能方向的23位課題負(fù)責(zé)人就各自研究成果進(jìn)行了分享交流,并對本領(lǐng)域的發(fā)展趨勢及PI的分享了各自的見解。楊植麟在現(xiàn)場展示了長文本大語言模型Long-Context LLMs。
大模型領(lǐng)域的競爭已然掀起狂瀾,群雄并起。而在未來,希望月之暗面通過AI快速疊代模型底座和產(chǎn)品,實(shí)現(xiàn)大模型技術(shù)落地,普惠大眾,并成長為AI時(shí)代的Super App。
文字:李楊琳
編輯:吳曉晴
校對:任甄妮