當(dāng)前位置:主頁(yè) > 最新文章 > 正文
    對(duì)話楊植麟:Moonshot AI即將超10億融資,最終目標(biāo)并非超越OpenAI
    來(lái)源:機(jī)器之心Pro作者:洞察網(wǎng)2023-08-14 17:43:37

    機(jī)器之心原創(chuàng)


    (相關(guān)資料圖)

    今年年初,楊植麟手機(jī)里來(lái)自投資人的微信好友驗(yàn)證請(qǐng)求開始爆發(fā)。急迫尋找人工智能標(biāo)的的眾多投資人聽聞了一個(gè)消息——楊植麟,開始大模型創(chuàng)業(yè)了。

    在GPT創(chuàng)業(yè)群星中,擁有清華系背景以及廣泛學(xué)術(shù)影響力的楊植麟無(wú)疑是耀眼的一顆,擁有漂亮且合適的履歷:2015年從清華計(jì)算機(jī)系畢業(yè)后,楊植麟前往美國(guó)卡內(nèi)基梅隆大學(xué)攻讀博士,師從蘋果AI研究負(fù)責(zé)人Ruslan Salakhutdinov 和谷歌首席科學(xué)家 William Cohen,常規(guī)六年的博士之路被縮短至四年完成。

    博士期間,先后以一作身份,發(fā)表 Transformer-XL 和 XLNet兩項(xiàng)工作,谷歌學(xué)術(shù)被引次數(shù)近兩萬(wàn)。Transformer-XL成為首個(gè)全面超越 RNN 的注意力語(yǔ)言模型,論文成為NeurIPS 2019與ACL 2019的最高引論文之一;XLNet則在20項(xiàng)任務(wù)上超越谷歌BERT模型,一鳴驚人。

    楊植麟從2020年開始確定“大模型是未來(lái)”這個(gè)觀點(diǎn)。當(dāng)時(shí),OpenAI推出GPT3。這個(gè)擁有超過1750億個(gè)參數(shù)的模型,在當(dāng)時(shí)成為人類歷史上最大的神經(jīng)網(wǎng)絡(luò)模型。斯坦福大學(xué)的研究認(rèn)為它已經(jīng)擁有大約7歲兒童的心智水平。

    而這更重要的意義在于,GPT3的出現(xiàn),讓AI的第一性原理逐漸清晰——“足夠多的證據(jù)證明,只要下一個(gè)token預(yù)測(cè)越來(lái)越準(zhǔn)確,就會(huì)有更多的智能產(chǎn)生?!?/p>

    “第一性原理”源自古希臘哲學(xué)家亞里士多德的觀點(diǎn),指的是用來(lái)回歸事物基本條件,將其拆分成各要素解構(gòu)分析,最終得出實(shí)現(xiàn)目標(biāo)的最優(yōu)路徑。

    在這一年之前,楊植麟的論文Transformer-XL曾一度被ICLR 2019拒絕,理由是評(píng)審不認(rèn)為大語(yǔ)言模型的提升在實(shí)際場(chǎng)景會(huì)有更多的價(jià)值。

    共識(shí)的形成需要花費(fèi)大量的時(shí)間。

    回到中國(guó),2020年之后,堅(jiān)信自己已經(jīng)看到AI的第一性原理的楊植麟,開始希望在做嘗試。但此地距離風(fēng)投機(jī)構(gòu)向大模型頻繁開槍,高端人才向大模型公司聚集的場(chǎng)景,還有三年時(shí)間。

    楊植麟選擇了一個(gè)折中的方案——尋找合作,自己團(tuán)隊(duì)提供技術(shù),對(duì)方提供算力資源。但這條路可能要比想象地難走。在一個(gè)非共識(shí)的環(huán)境下,他發(fā)現(xiàn)需要重投入的大模型事業(yè)運(yùn)行效率很低,十分坎坷。這一點(diǎn)對(duì)大廠、對(duì)研究院、對(duì)創(chuàng)業(yè)公司都是一個(gè)很大的挑戰(zhàn)。

    轉(zhuǎn)機(jī)直到去年年底ChatGPT的爆發(fā)才開始出現(xiàn),太平洋的兩岸在很短的時(shí)間里相繼被點(diǎn)燃。在內(nèi)心回答“此地此時(shí)究竟有沒有機(jī)會(huì)”這個(gè)問題前,楊植麟去海外考察了兩個(gè)月,彼岸的“瘋狂”讓他堅(jiān)信:很快,在亞洲做一個(gè)大模型公司,有機(jī)會(huì)了。

    楊植麟終于開始單獨(dú)創(chuàng)業(yè)了,一切進(jìn)展地很快。機(jī)器之心得到的最新消息顯示,楊植麟成立的大模型公司Moonshot AI已經(jīng)組建了超過40人的團(tuán)隊(duì),即將完成第二輪融資,累計(jì)融資金額有望超過2億美元。在機(jī)器之心的專訪中,楊植麟首次向外界披露了Moonshot AI的工作目標(biāo)和未來(lái)愿景。

    時(shí)隔多年,道路上的冰山開始瓦解,布道多年的“天才AI科學(xué)家”終于迎來(lái)了他的magic moment。

    時(shí)機(jī)到來(lái)

    機(jī)器之心:公司名為什么是“Moonshot”?

    楊植麟:我們今年3月1日正式成立,正好是Pink Floyd專輯Dark Side of the Moon發(fā)行50周年。月之暗面意味著神秘,令人好奇和向往,但登月又是一件難度很大很有挑戰(zhàn)的事情,這是我們名字的來(lái)源。

    同時(shí)我認(rèn)為搖滾精神也是我們公司一個(gè)很重要的底色。我一直覺得搞研究是歌劇,陽(yáng)春白雪,很高大上,很純粹,但不太好規(guī)?;?,而技術(shù)創(chuàng)業(yè)是搖滾,從零到一,從最小的狀態(tài)開始做起,不斷革新自我,不給自己設(shè)置邊界,最終做出很好的音樂改變世界,給一代人帶來(lái)能量。

    機(jī)器之心:目前公司最新情況是怎樣的?

    楊植麟:我從去年年底開始基本明確要單獨(dú)做一個(gè)大模型公司。

    目前Moonshot AI已經(jīng)完成首輪融資,公司技術(shù)團(tuán)隊(duì)已有數(shù)十人規(guī)模,擁有2位聯(lián)合創(chuàng)始人,公司在中國(guó)和海外各設(shè)立了一個(gè)辦公點(diǎn)。我們預(yù)期,Moonshot AI的團(tuán)隊(duì)將持續(xù)補(bǔ)充技術(shù)、產(chǎn)品、運(yùn)營(yíng)等方面的人才。

    我們的當(dāng)前的工作重點(diǎn)是研發(fā)下一代跨模態(tài)大模型。我們即將完成的第二輪融資將用于以保證有足夠的資金進(jìn)行GPT-4以及下一代模型的研發(fā)。

    機(jī)器之心:能否詳細(xì)介紹一下你們目前的團(tuán)隊(duì)?

    楊植麟:目前我們整個(gè)團(tuán)隊(duì)人數(shù)超過了四十人,絕大部分是擁有世界級(jí)影響力工作的大模型專家。

    兩位聯(lián)合創(chuàng)始人,周昕宇和吳育昕,也都是清華背景,五位數(shù)的Google Scholar引用,在大模型方面有非常豐富的工程和算法經(jīng)驗(yàn)。

    我們半數(shù)以上的成員擁有海外經(jīng)歷,從海外吸收了先進(jìn)的人才和認(rèn)知,團(tuán)隊(duì)核心成員也參與了Google Gemini、Bard、盤古、悟道等多個(gè)大模型的開發(fā)。

    整體團(tuán)隊(duì)包括了NLP, CV, RL, Infra方面新生代人才,有很多有世界影響力的工作都是我們團(tuán)隊(duì)成員主導(dǎo)的:

    在大模型方向,我們的團(tuán)隊(duì)成員發(fā)明了RoPE相對(duì)位置編碼,是Meta LLaMa和Google PALM等大多數(shù)主流模型的重要組成部分;我們發(fā)明了group normalization,是Stable Diffusion等AI模型成功的關(guān)鍵組件;同時(shí),我的工作Transformer-XL,是歷史上第一個(gè)在詞級(jí)別和字級(jí)別都全面超越RNN的注意力語(yǔ)言模型,解決了語(yǔ)言建模上下文長(zhǎng)度的關(guān)鍵問題,定義了語(yǔ)言建模的新標(biāo)準(zhǔn);我們?cè)cDeepMind和CMU合作研究,首次實(shí)現(xiàn)小樣本性能逼近全監(jiān)督學(xué)習(xí)的高效對(duì)齊方法。

    在視覺領(lǐng)域,我們團(tuán)隊(duì)成員包括發(fā)明了MoCo,引爆了基于對(duì)比學(xué)習(xí)的視覺預(yù)訓(xùn)練范式,也是過去三年CVPR引用量最高的工作;發(fā)明了ShuffleNet,最高效的視覺網(wǎng)絡(luò)結(jié)構(gòu)之一;主導(dǎo)開發(fā)了detectron2,一個(gè)被廣泛使用的視覺開源項(xiàng)目并被集成到Meta全線VR/AR產(chǎn)品中。

    在基礎(chǔ)設(shè)施方面,團(tuán)隊(duì)核心成員曾帶領(lǐng)數(shù)十人從零開發(fā)世界領(lǐng)先的深度學(xué)習(xí)框架,也具備數(shù)千卡集群全自動(dòng)化硬件運(yùn)維告警、數(shù)百億特征檢索、大規(guī)模(數(shù)十PB數(shù)據(jù)、百萬(wàn)臺(tái)機(jī)器)分布式系統(tǒng)數(shù)量級(jí)性能優(yōu)化的經(jīng)驗(yàn)。

    在強(qiáng)化學(xué)習(xí)方面,團(tuán)隊(duì)成員作為一作提出了基于關(guān)系學(xué)習(xí)的少樣本方法,得到斯坦福大學(xué)、Google、MIT、Amazon等團(tuán)隊(duì)的使用和擴(kuò)展,并獲得過OpenAI RL聯(lián)創(chuàng)及負(fù)責(zé)人John Schulman親自邀請(qǐng)加盟。

    機(jī)器之心:下定決心創(chuàng)業(yè)的時(shí)機(jī)是什么?

    楊植麟:本質(zhì)上我認(rèn)為,今年以前,亞洲可能并不存在做大模型公司的機(jī)會(huì)。

    如果更早之前開始做的話,在資本和人才方面很難說有足夠的資源去支持。

    不過,去年年底,我的判斷開始發(fā)生很大變化。當(dāng)時(shí),GPT已經(jīng)在美國(guó)市場(chǎng)引起了很大的關(guān)注,一般來(lái)說美國(guó)以外的市場(chǎng)會(huì)有一點(diǎn)時(shí)間差,但是肯定會(huì)跟上。果不其然,到了第二年春節(jié),美國(guó)以外的市場(chǎng)也開始爆發(fā),幾乎所有VC開始關(guān)注(這個(gè)賽道)。所以我們發(fā)現(xiàn),果然是有機(jī)會(huì)的。

    機(jī)器之心:我們知道那個(gè)時(shí)候你去海外考察了兩個(gè)月,你給自己的任務(wù)是什么?

    楊植麟:對(duì),我是在去年12月份去的海外。當(dāng)時(shí)我給自己的任務(wù)是,一是盡可能多的提升認(rèn)知,二是為后續(xù)的招聘儲(chǔ)備一部分人才。

    當(dāng)時(shí)在國(guó)外,我覺得情況可能比我想的還要瘋狂。除了在推特在討論,無(wú)論是不是技術(shù)人員,餐廳、咖啡館你處處都能聽到人們?cè)谟懻揋PT。當(dāng)時(shí)可能是美國(guó)最狂熱的時(shí)候,有點(diǎn)類似處于Gartner Hype Cycle(技術(shù)成熟度曲線)的上升階段,公眾對(duì)這項(xiàng)技術(shù)的預(yù)期非常高,似乎一夜之間大家覺得通用人工智能已經(jīng)可以實(shí)現(xiàn)了的感覺。這是遠(yuǎn)遠(yuǎn)超出我預(yù)期的部分。

    整體上這趟行程是比較順利的,這一趟應(yīng)該說堅(jiān)定了我們認(rèn)為現(xiàn)在是個(gè)合適時(shí)機(jī)的信念。

    所以我們加速了融資和招人的節(jié)奏。我們?cè)谝粋€(gè)月之內(nèi)敲定了首輪融資,拿到了來(lái)自紅杉等頭部機(jī)構(gòu)6000萬(wàn)美元的啟動(dòng)資金。并且在三個(gè)月內(nèi)組建起了大約四十人的極高人才密度的技術(shù)研發(fā)團(tuán)隊(duì),雖然在海外招聘的難度比較大,也成功招募到了一些核心研發(fā)人才,在海外設(shè)立了一個(gè)辦公點(diǎn)。目前我們也即將完成第二輪融資。

    機(jī)器之心:在這之前的幾年,你怎么做大模型的工作?

    楊植麟:我們選擇了一種折中的方式去做這件事,找一些合作方,我們提供技術(shù),他們提供算力。我認(rèn)為這種形式可能是當(dāng)時(shí)的最佳選擇。因?yàn)樵谀莻€(gè)時(shí)期,單獨(dú)成立一家公司來(lái)做這個(gè)事情并不能獲得足夠的資金支持。

    2020年下半年,我們開始與華為合作,為其中一個(gè)版本的盤古大模型做了核心的技術(shù)研發(fā)。2021年,我?guī)ьI(lǐng)團(tuán)隊(duì)一起參與了智源研究院的悟道大模型研發(fā)。

    這兩段經(jīng)歷,讓我了解了大模型研發(fā)過程中各種可能的問題,并且積累了經(jīng)驗(yàn)。但是這種合作方式也讓我意識(shí)到,你可能只有自己創(chuàng)建一家公司才能真正意義上去實(shí)現(xiàn)這個(gè)目標(biāo)。

    機(jī)器之心:為什么說自己?jiǎn)为?dú)做一家公司才能真正去實(shí)現(xiàn)這個(gè)目標(biāo)?

    楊植麟:在大組織當(dāng)中,如果公司對(duì)這個(gè)項(xiàng)目的投入不夠,那么你項(xiàng)目的優(yōu)先級(jí)會(huì)被放低,而且組織中的多方合作如果在KPI上沒有足夠?qū)R,就無(wú)法取得合力,效率很低。

    我們意識(shí)到,在大模型的研發(fā)中,只有正確的組織才能完成這項(xiàng)工作。也就是說,這所有人都高度集中,人才密度很高,工作效率非常高,并且目標(biāo)完全一致。

    在之前的合作中,實(shí)現(xiàn)這些非常困難,所以在很大程度上阻礙了我們的創(chuàng)新。因此,我認(rèn)為創(chuàng)新需要找到正確的人并找到正確的組織方式,這是可能成功的唯一方法。這也是為什么我認(rèn)為必須創(chuàng)立一家公司的原因。

    大模型公司最重要的是人才與組織

    機(jī)器之心:今年年初開始很多VC找你,你都沒有見。為什么?

    楊植麟:實(shí)質(zhì)上我們認(rèn)為,直到6月前,我們最核心的任務(wù)是招人,組建團(tuán)隊(duì)。

    今年以來(lái),我們看到市場(chǎng)上大模型相關(guān)的人才非常稀缺,真正有相關(guān)經(jīng)驗(yàn)、有計(jì)劃有認(rèn)知、愿意創(chuàng)業(yè)且在合適的年齡的人其實(shí)并沒有那么多。

    至少在這個(gè)階段,我認(rèn)為人才的稀缺性比資本稀缺性更高。因?yàn)橐粋€(gè)這個(gè)團(tuán)隊(duì)到底能不能達(dá)到GPT 4這個(gè)里程碑以及做出來(lái)下一代模型,可能關(guān)鍵的指標(biāo)就是你的團(tuán)隊(duì)是不是一個(gè)對(duì)的團(tuán)隊(duì)。

    我們了解到,其他一些公司,其實(shí)過去幾個(gè)月并沒有怎么進(jìn)人,公司的人才結(jié)構(gòu)并沒有變化,我認(rèn)為這本身是有問題的,因?yàn)槿瞬攀袌?chǎng)已經(jīng)產(chǎn)生了很大的流動(dòng)性,我認(rèn)為我們是應(yīng)該抓住這個(gè)機(jī)會(huì)的。

    這里需要規(guī)避兩種情況,一是低效的團(tuán)隊(duì)結(jié)構(gòu),比如說設(shè)置了十個(gè)合伙人又缺少能夠真正拍板的人,因此合作的效率會(huì)很低。另一種情況,是你完全不補(bǔ)人,可能你仍然完全按照傳統(tǒng)AI公司的組織結(jié)構(gòu),沒有抓住人才市場(chǎng)這一波流動(dòng)性,那么你可能后面的發(fā)展也會(huì)有很多問題。

    所以我們是想盡量避免這兩種,在一個(gè)合理的組織結(jié)構(gòu)下,然后去把人才密度去做到很高,去抓住這一波的紅利。

    機(jī)器之心:人才流動(dòng)性指的是什么?

    楊植麟:人才從從細(xì)分的AI技術(shù)領(lǐng)域NLP、CV、RL等開始向大模型公司集中。

    機(jī)器之心:你說大模型人才目前很稀缺,算法以及工程兩個(gè)方面的人才稀缺程度是否有所不同?

    楊植麟:整體上來(lái)講,行業(yè)人才確實(shí)非常稀缺。全世界范圍內(nèi),有大模型訓(xùn)練經(jīng)驗(yàn)的人才很少。這意味著,在工程實(shí)現(xiàn)方面,比如能夠在開源框架上去做優(yōu)化和提升的人并不多,能應(yīng)對(duì)超大規(guī)模集群的人才也很稀缺。

    而在算法創(chuàng)新方面的人才稀缺程度則比之更甚。比如在強(qiáng)化學(xué)習(xí)方面,能夠做強(qiáng)化學(xué)習(xí)的人非常少,但是對(duì)于一個(gè)大模型公司來(lái)說,強(qiáng)化學(xué)習(xí)能夠讓AI自主去探索,沒有強(qiáng)化學(xué)習(xí)就無(wú)法實(shí)現(xiàn)更高水平的技術(shù)躍升。我們除了有在短期內(nèi)要去超過GPT4這個(gè)目標(biāo),還需要去思考更前沿的技術(shù)方向,比如GPT5可能是怎樣的,我們的機(jī)會(huì)在哪里,這些都需要算法創(chuàng)新。

    這兩方面的人對(duì)我們都非常重要,我們都有所儲(chǔ)備。我們認(rèn)為,工程實(shí)現(xiàn)能力決定了你技術(shù)能力的下限,而算法創(chuàng)新能力決定了技術(shù)上限。

    機(jī)器之心:在招聘過程里,你用什么來(lái)吸引前面提到的這些人才?

    楊植麟:核心包括三點(diǎn),極大的上升空間、長(zhǎng)遠(yuǎn)的愿景以及人才密度。

    我們希望早期團(tuán)隊(duì)中的人認(rèn)可我們長(zhǎng)期的Vision,不論是具體的技術(shù)路線,還是AI帶來(lái)的社會(huì)價(jià)值。另外,頂尖的技術(shù)人才會(huì)帶來(lái)“滾雪球”效應(yīng)。很多人是知道了我們團(tuán)隊(duì)中的一些很強(qiáng)的人,他會(huì)覺得“哎?這幾個(gè)人竟然都在那!我確實(shí)也蠻想跟他們一起工作的”,這是一種很大的激勵(lì)。在早期加入創(chuàng)業(yè)公司,他們的主動(dòng)性和實(shí)際上升空間都很大。

    機(jī)器之心:創(chuàng)造一個(gè)大模型公司,組織上你認(rèn)為最重要的是什么?

    楊植麟:我認(rèn)為最重要的是人才密度和文化。你需要有優(yōu)秀的人才,然后給他們一個(gè)好的文化環(huán)境,讓他們?cè)谝粋€(gè)既定的目標(biāo)和方向下能夠自由創(chuàng)新。

    大模型有點(diǎn)類似登月計(jì)劃,本身需要自頂向下的規(guī)劃和統(tǒng)籌,但同時(shí),我們需要鼓勵(lì)自下而上的創(chuàng)新,保持一定程度的開放性和組織的扁平化,這樣創(chuàng)新就更容易發(fā)生。

    所以我覺得,本質(zhì)上就是要招最好的人,然后給他們提供一個(gè)好的系統(tǒng),讓他們?cè)谶@個(gè)系統(tǒng)里面能夠去創(chuàng)新,并且他們的很多創(chuàng)新能夠成為系統(tǒng)的一部分,這樣你的系統(tǒng)就能繼續(xù)前進(jìn),我覺得這可能是我們現(xiàn)在想做的事情。

    機(jī)器之心:所以你們的Vision是什么?

    楊植麟:我認(rèn)為每項(xiàng)技術(shù)基本都會(huì)歷經(jīng)原理探索期、技術(shù)創(chuàng)新期以及純產(chǎn)品應(yīng)用階段三個(gè)階段。

    第一階段意味著公眾對(duì)于技術(shù)的第一性原理還不清晰,一切剛剛開始萌芽;第二階段則指的是第一性原理已經(jīng)清晰,但是仍然存在技術(shù)創(chuàng)新的空間,領(lǐng)先的公司會(huì)有顯著的技術(shù)優(yōu)勢(shì);最后一個(gè)階段,當(dāng)技術(shù)已經(jīng)足夠成熟了,可獲得性很高了,就是純產(chǎn)品的機(jī)會(huì),網(wǎng)絡(luò)效應(yīng)建立。

    兩三年前,NLP、CV這些技術(shù)都處于第一階段。如今,我們已經(jīng)來(lái)到第二階段,AI的第一性原理已經(jīng)被大量證據(jù)所證明——從GPT1到GPT4,我們會(huì)發(fā)現(xiàn),人類文明的總和,數(shù)字化之后都可以變成硬盤上的數(shù)據(jù),無(wú)論是文字、語(yǔ)音還是視頻,只要我們有合適的辦法,去對(duì)這些數(shù)據(jù)做最大限度的規(guī)模化無(wú)損壓縮,就能實(shí)現(xiàn)非常高程度的“智能”。

    我最喜歡的例子是等差數(shù)列。假設(shè)說目前我有1萬(wàn)個(gè)數(shù)字要去壓縮,在我一無(wú)所知的情況下,我所能做的僅僅只是把這1萬(wàn)個(gè)數(shù)字存下來(lái)。但是,如果我能夠知道這些數(shù)的底層運(yùn)行規(guī)律,我知道等差數(shù)列,那我就只需要存兩個(gè)數(shù)字,其他9998個(gè)數(shù)字就能被還原出來(lái)。

    這就是AI的第一性原理。在第二階段,第一性原理已經(jīng)清晰的情況下,理論上我們只需要一條道走到黑,去想更好的辦法盡可能地去對(duì)整個(gè)人類文明進(jìn)行壓縮,然后就能在技術(shù)上實(shí)現(xiàn)較高程度的智能化。

    而“更好的辦法”也是第二階段與第三階段的分野。在這個(gè)方向上,我們看到大約5年的窗口期之中,我們需要去解決目前看到的問題,不斷技術(shù)創(chuàng)新,讓技術(shù)變得更加通用和低門檻,最終推動(dòng)大規(guī)模的產(chǎn)品化。

    在這個(gè)階段,更好的模型質(zhì)量通常會(huì)直接帶來(lái)更好的用戶體驗(yàn),通過技術(shù)驅(qū)動(dòng)的公司會(huì)擁有更大的產(chǎn)品優(yōu)勢(shì)。如果我們?nèi)タ疵绹?guó)市場(chǎng),目前領(lǐng)先的公司例如OpenAI, Anthropic, Inflection, Character AI, Midjourney,無(wú)一不是通過Model as an application的方式,通過技術(shù)優(yōu)勢(shì)來(lái)形成產(chǎn)品上的體驗(yàn)優(yōu)勢(shì)。

    我們本身是一個(gè)技術(shù)很強(qiáng)的團(tuán)隊(duì),也擁有很強(qiáng)的創(chuàng)新文化。對(duì)于我們來(lái)講,我們看清楚了當(dāng)下AI所處的技術(shù)階段。在這個(gè)階段當(dāng)中,我們可以用一個(gè)技術(shù)驅(qū)動(dòng)方式,實(shí)現(xiàn)產(chǎn)品上的優(yōu)勢(shì),最終實(shí)現(xiàn)網(wǎng)絡(luò)效應(yīng)。所以這對(duì)于我們來(lái)說,就是一個(gè)合適的時(shí)機(jī)。

    機(jī)器之心:想要去解決的“目前看到的問題”指的是什么?

    楊植麟:我們看到,即使對(duì)于OpenAI本身來(lái)說,現(xiàn)在GPT需要解決的問題仍有很多。比如怎么訓(xùn)練出一個(gè)好的視頻模型,能夠讓文本和視頻實(shí)現(xiàn)真正意義上的跨模態(tài)交互。當(dāng)下的跨模態(tài)模型更像是一個(gè)單任務(wù)模型,它只知道怎么去生成這個(gè)圖像,但是大腦部分非常薄弱。

    基于Diffusion Model的技術(shù)路徑,一個(gè)重大問題是你沒有辦法去做真正的跨模態(tài)建模,只能基于很簡(jiǎn)單的文本向量去做decoding。本質(zhì)上,它并沒有對(duì)不同模態(tài)的聯(lián)合概率去做一個(gè)可規(guī)模化的建模,這制約著這些模型去發(fā)揮更大的價(jià)值。從可規(guī)模化這個(gè)點(diǎn)上,我個(gè)人認(rèn)為,長(zhǎng)期來(lái)看,可能Autoregressive model(自回歸模型)能夠更通用得對(duì)不同模態(tài)去建模,長(zhǎng)期會(huì)有更大的上升空間。

    除了跨模態(tài)問題,另一個(gè)很關(guān)鍵的問題是,未來(lái)的大模型肯定不會(huì)停留在壓縮現(xiàn)有的數(shù)據(jù),而是會(huì)自主進(jìn)行探索、在探索過程中生成和篩選數(shù)據(jù)、并進(jìn)行壓縮。一個(gè)很典型的例子是圍棋,如果AI通過壓縮已有的棋譜,很難在圍棋水平上超越最頂尖的人類棋手。

    相同地,如果是我們想訓(xùn)練一個(gè)能達(dá)到IOI金牌水平的編程AI,那么僅僅通過壓縮現(xiàn)有的題解也是很難做到的。我們需要讓編程AI自己去搜索不同的解法,在搜索的過程中評(píng)判解法的可行性,從而對(duì)解空間進(jìn)行更全面的探索。

    在科學(xué)領(lǐng)域也是一樣,如果AI可以自主探索解空間,那么就可以發(fā)現(xiàn)人類還未發(fā)現(xiàn)的新知識(shí)。長(zhǎng)期來(lái)說,通用地解決這個(gè)問題會(huì)產(chǎn)生超級(jí)智能(super intelligence)。

    機(jī)器之心:如果說是AI技術(shù)的發(fā)展要經(jīng)歷上述三個(gè)階段。我們看到ChatGPT的成功應(yīng)該是技術(shù)和產(chǎn)品并行的一次嘗試。

    楊植麟:對(duì)于ChatGPT而言,確實(shí)是在技術(shù)的創(chuàng)新和產(chǎn)生網(wǎng)絡(luò)效應(yīng)兩個(gè)階段是一個(gè)并行的過程。在技術(shù)創(chuàng)新階段,它占據(jù)了優(yōu)勢(shì)并形成了壁壘,然后在盡可能早的時(shí)候,將技術(shù)轉(zhuǎn)變?yōu)榫哂芯W(wǎng)絡(luò)效應(yīng)的產(chǎn)品。

    所以我剛剛雖然提到會(huì)有三個(gè)階段,但是并不是說這一定是線性的。如果能夠利用好自己技術(shù)優(yōu)勢(shì),那么越早將它變成一個(gè)具有網(wǎng)絡(luò)效應(yīng)的產(chǎn)品越好。這之后,因?yàn)橛脩舴答伜蜕鷳B(tài)系統(tǒng)建設(shè)等方面會(huì)給你帶來(lái)巨大的提升。因此,并不是要等待技術(shù)完全普適化才去產(chǎn)品化,而是要盡早地放出有用的產(chǎn)品讓用戶去投票。

    最終目標(biāo)不是超越OpenAI

    機(jī)器之心:你們目前的初始目標(biāo)是實(shí)現(xiàn)GPT4的開發(fā),現(xiàn)在進(jìn)展如何?

    楊植麟:我們首先要做的是預(yù)測(cè),然后才能做規(guī)模化。在投入大量的資金去規(guī)?;埃覀冃枰酪?guī)?;髸?huì)發(fā)生什么。通過很多預(yù)測(cè)工作,總結(jié)規(guī)律,然后預(yù)測(cè)規(guī)模化后的情況。這樣可以涵蓋大概主要的影響因素,剩下的少部分可以通過一些經(jīng)驗(yàn)和試錯(cuò)來(lái)推斷。

    目前我們前期已經(jīng)驗(yàn)證完,開始去用更大的數(shù)據(jù)集去訓(xùn)練,以使訓(xùn)練更穩(wěn)定,保證代碼的正確性,以及優(yōu)化損失函數(shù),訓(xùn)練大模型。

    機(jī)器之心:很多大模型創(chuàng)業(yè)公司的初期目標(biāo)都是超過GPT4,“達(dá)到或者超越”的標(biāo)準(zhǔn)會(huì)是什么?

    楊植麟:我認(rèn)為最重要的標(biāo)準(zhǔn)其實(shí)是模型的壓縮比。

    如果基于第一性原則來(lái)思考,智能的首要任務(wù)就是優(yōu)化壓縮,那么提升壓縮比就意味著智能的增強(qiáng)。在一個(gè)足夠大的數(shù)據(jù)集上,模型的壓縮比有多大就能衡量出模型的優(yōu)劣。例如,OpenAI的GPT-4可能在某些領(lǐng)域已經(jīng)達(dá)到了30多的壓縮比,而一些開源的模型的壓縮比可能只有10出頭,所以空間還是非常大的。

    至于用戶眼中的模型在應(yīng)用里的表現(xiàn),實(shí)際上也是由你的模型壓縮比所決定的。模型的壓縮比如果非常好,剩下的問題就是工作量問題,時(shí)間允許你肯定能把它調(diào)地很好。

    所以我覺得壓縮比是最關(guān)鍵的指標(biāo)。例如,我們現(xiàn)在去監(jiān)測(cè)我們的模型的進(jìn)展,我最主要看的指標(biāo)也是壓縮比,我可以通過算出來(lái)的壓縮比去預(yù)測(cè)它的趨勢(shì),什么時(shí)候能達(dá)到GPT-4的壓縮比,這是可以被預(yù)測(cè)出來(lái)的。

    機(jī)器之心:和如今在創(chuàng)業(yè)的公司一樣,OpenAI也在往前走、快速迭代自己的模型。如果說目標(biāo)是追趕GPT4的話,你認(rèn)為超越OpenAI的可能性大嗎?

    楊植麟:有可能,但這個(gè)過程需要時(shí)間和技術(shù)創(chuàng)新。

    對(duì)于我們來(lái)說,一方面,后發(fā)優(yōu)勢(shì)可以節(jié)省時(shí)間,即利用OpenAI等先行者已經(jīng)做出的工作和探索成果。比如我們不用再像他們之前一樣,花幾年的時(shí)間去確認(rèn)AI的第一性原理,而是可以直接沿著這條路往前走。

    但客觀上,確實(shí)目前的差距很大。短期來(lái)看,我們要看到這個(gè)差距,而不是說現(xiàn)在就說要馬上“趕英超美”。我認(rèn)為如果真的能夠?qū)崿F(xiàn)“超越”這個(gè)目標(biāo)的,應(yīng)該需要依靠接下來(lái)還沒有出現(xiàn)的模型,要去思考下一代模型怎么做。

    長(zhǎng)期來(lái)看,我是比較樂觀的。因?yàn)楹碗娏Σ灰粯?,AI是異質(zhì)化的。全世界各國(guó)的電力都是一樣的,都可以用來(lái)給手機(jī)充電。但是對(duì)于一個(gè)記者、一個(gè)程序員以及一個(gè)畫家,這三者所面向的人工智能的智能維度完全不一樣。

    因此,最后可能人工智能模型不會(huì)存在一個(gè)超越與不超越的問題。比如雖然OpenAI在某些智能領(lǐng)域做得很好,但可能在某些特定場(chǎng)景中,比如生成圖片的美學(xué)價(jià)值上,它暫時(shí)還無(wú)法超過Midjourney。即使OpenAI在某些領(lǐng)域超過了,可能還會(huì)有其他領(lǐng)域存在差距。因此,有很多維度可以用來(lái)定義智能水平。

    由于人工智能的異質(zhì)化,每個(gè)公司可能都有自己擅長(zhǎng)的部分。通用能力上做得很好是一個(gè)前提,但在每個(gè)細(xì)分領(lǐng)域里,還是存在專業(yè)化的差異。例如,character.ai在角色扮演這個(gè)場(chǎng)景中,可能會(huì)做得比GPT-4更好,這就是專業(yè)化的體現(xiàn)。雖然它們的訓(xùn)練路徑和OpenAI很接近,但產(chǎn)品的出發(fā)點(diǎn)可能會(huì)決定了它在這個(gè)領(lǐng)域里專業(yè)化的位置。

    通用人工智能會(huì)存在技術(shù)門檻,這個(gè)世界上只會(huì)有少數(shù)的通用人工智能公司,但每個(gè)跨過一定技術(shù)門檻的公司可以在某些具體的場(chǎng)景或類型的智能上有專業(yè)化優(yōu)勢(shì),并在這些領(lǐng)域做得比其他公司更好,最終形成一些網(wǎng)絡(luò)效應(yīng)。因此,未來(lái)并不會(huì)只有一家AI公司能包辦所有的智能。

    機(jī)器之心: 你有沒有想過,可能我們永遠(yuǎn)無(wú)法追趕上

    楊植麟:就像上面所說的,追趕可能并不是我們的最終目標(biāo),總體上這個(gè)領(lǐng)域有很多維度需要探索,需要很多公司一起。

    爬樓梯,而不是看風(fēng)景

    機(jī)器之心:大模型是個(gè)非常新的技術(shù)方向,從你接觸的情況看,投資人對(duì)這件事的理解程度怎樣?

    楊植麟:我覺得一個(gè)關(guān)鍵需要理解的點(diǎn)是AI-native產(chǎn)品跟傳統(tǒng)產(chǎn)品的區(qū)別。

    在大模型時(shí)代,以往基于移動(dòng)互聯(lián)網(wǎng)的產(chǎn)品邏輯和交互方式已經(jīng)在發(fā)生巨大改變。以往,用戶使用移動(dòng)互聯(lián)網(wǎng)產(chǎn)品的使用路徑非常確定和清晰。但對(duì)于Chat-based UX來(lái)說,所有交互都基于對(duì)話,是完全開放性的,用戶可能看到的結(jié)果出現(xiàn)了指數(shù)級(jí)的增長(zhǎng)。這對(duì)產(chǎn)品經(jīng)理的能力提出了新的要求,需要在無(wú)限的可能性中去通過有限的評(píng)測(cè)來(lái)定義產(chǎn)品。UX有兩個(gè)重要的維度,一個(gè)是靈活度,一個(gè)是直觀度,chat-based UX相比于傳統(tǒng)的GUI顯得非常靈活,但直觀度相對(duì)下降,所以怎么在保持靈活度的前提下提升直觀度,也是一個(gè)重要命題。

    很多人比較在意公司的商業(yè)模式,我認(rèn)為商業(yè)模式不會(huì)成為特別大的問題。目前有很多可以借鑒成熟經(jīng)驗(yàn)的地方,比如可以做訂閱,或者通過聊天方式推薦商品或廣告,以一種更自然且精準(zhǔn)的方式來(lái)實(shí)現(xiàn)。又比如,類似游戲的商業(yè)模式也可以借鑒,比如抽卡等等。

    相比于商業(yè)模式,我認(rèn)為現(xiàn)階段的核心議題還是產(chǎn)品創(chuàng)新,重要性遠(yuǎn)大于商業(yè)模式。

    我們需要通過技術(shù)創(chuàng)新來(lái)實(shí)現(xiàn)出色的產(chǎn)品,而一旦我們擁有產(chǎn)品,就能將流量和用戶關(guān)聯(lián)起來(lái),產(chǎn)生良好的數(shù)據(jù)去驅(qū)動(dòng)模型更加智能。

    因此,理解這個(gè)事情需要大量的學(xué)習(xí)。在這個(gè)時(shí)代變化非常快的情況下,我認(rèn)為每個(gè)人都需要快速學(xué)習(xí),吸收新知識(shí),持續(xù)更新自己的認(rèn)知是非常重要的。

    機(jī)器之心:整體來(lái)看,在大語(yǔ)言模型的研究中,比較難的是什么?

    楊植麟:整體上都很難。你可以看到美國(guó)不少大廠投入了很多資金,但還沒有做出能看的東西,因?yàn)檫@里面本身難度確實(shí)非常大。如果我們仔細(xì)去拆分,或許包括三個(gè)方面:

    首先,算法創(chuàng)新是必需的,這需要大量的投入與研發(fā);其次,很大一部分情況是算法并不是新的,但是你要怎么調(diào),讓它更有效地工作,這是一個(gè)很具體的問題。

    第三,工程實(shí)現(xiàn)是不是正確的,這個(gè)難度也很大。很多時(shí)候你搞了很多bug,非常容易你的loss就炸了。

    所有這些挑戰(zhàn)最后都反映到一個(gè)核心指標(biāo)——人才密度。

    人才密度決定了以上提到的各個(gè)問題的解決程度,能做到多好。這里的人才密度可能又分為幾個(gè)方面:

    第一,團(tuán)隊(duì)有沒有訓(xùn)練過這些東西的經(jīng)驗(yàn)。因?yàn)榻?jīng)驗(yàn)本身就是一個(gè)踩坑的過程,你可以從你以前的經(jīng)驗(yàn)里面去學(xué)習(xí)。

    其次,團(tuán)隊(duì)有沒有信息,比如說你跟這個(gè)圈子離得比較近一點(diǎn),可以更及時(shí)地獲得一些有價(jià)值的信息。

    第三,團(tuán)隊(duì)有沒有面對(duì)未知的問題的創(chuàng)新能力。因?yàn)槟悴豢赡苷f所有東西都是已知的,所有東西都被你的經(jīng)驗(yàn)或者信息覆蓋,這個(gè)基本不可能。那么面對(duì)新的情況的時(shí)候,你這個(gè)團(tuán)隊(duì)有沒有能力去針對(duì)這些新的情況去做很多調(diào)整?比如說,你發(fā)現(xiàn)你可能把模型的batch size加大之后,它的loss就特別差,那么你的團(tuán)隊(duì)有沒有辦法去解決這個(gè)問題?

    對(duì)于一個(gè)公司來(lái)說,最難的是在爬樓梯和看風(fēng)景之間做出取舍??赡苡械娜伺懒艘粌蓪訕侵缶涂焖龠x擇看風(fēng)景,用能力比較基礎(chǔ)的模型去做大肆宣傳,去做商業(yè)化,對(duì)于我們來(lái)說,更重要的是以終為始,堅(jiān)持爬樓梯,攀登高峰。即便中間也會(huì)看看風(fēng)景,最終也是為了爬樓梯服務(wù)的。

    機(jī)器之心: 你在學(xué)術(shù)界最廣為人知的成就是Transformer-XL與XLnet這兩篇論文,產(chǎn)生了很大的影響。不過,2019年你提到一個(gè)故事——XLnet這篇論文曾經(jīng)被ICLR 2019大會(huì)拒絕,理由是評(píng)委不認(rèn)為大語(yǔ)言模型的效果提升在應(yīng)用上會(huì)有很大的影響。現(xiàn)在從大模型行業(yè)整個(gè)發(fā)展階段來(lái)看,這件事可能代表了什么?

    楊植麟:現(xiàn)在看這個(gè)觀察挺有意思。

    當(dāng)時(shí),我覺得就是大模型的第一性原理還沒有清晰,或者說第一性原理還沒有真正成為共識(shí)。因?yàn)楝F(xiàn)在的第一性原理就是,只要你有更好的壓縮比,你就會(huì)有更好的智能,這個(gè)其實(shí)對(duì)應(yīng)的就是大語(yǔ)言模型的目標(biāo)函數(shù)。所以當(dāng)時(shí)(提出Transformer-XL),我們其實(shí)是在原模型的基礎(chǔ)上取得了一個(gè)比較大的提升,讓它的智能程度提升了很多。但當(dāng)時(shí),對(duì)于這件事情是有用的,顯然還沒有出現(xiàn)一個(gè)共識(shí)。

    那其實(shí),本質(zhì)上,我們可以看到一般共識(shí)是要落后于非共識(shí)的思維的。正因?yàn)檫@樣,非共識(shí)可以產(chǎn)生很大的價(jià)值。比如我們現(xiàn)在正在做的事情,雖然是非共識(shí),但是我一點(diǎn)都不care。我直接做工業(yè)化,把這個(gè)東西做出來(lái)效果之后,那么很多人就會(huì)來(lái)跟進(jìn)和關(guān)注。

    OpenAI通過工業(yè)化的方式,而不是一個(gè)純研究的方式去證明了第一性原則是對(duì)的。我覺得這見證了時(shí)代的變遷,一共有三個(gè)階段。第一階段是2018年之前,所有人不知道大語(yǔ)言模型有什么用,到第二個(gè)階段是18到19年,BERT時(shí)代,大語(yǔ)言模型可以提升各種任務(wù),到第三個(gè)階段,20年往后,只剩下一個(gè)任務(wù)就是語(yǔ)言模型。

    GPT3的發(fā)布為第一性原理提供了足夠多的證據(jù),雖然距離真正形成共識(shí)還需要一段時(shí)間,但是它給出了一個(gè)底層依據(jù),明確了優(yōu)化的目標(biāo)。因?yàn)榉较蚝芮宄?,所以它適合做工業(yè)化,而不僅僅是學(xué)術(shù)研究。這也標(biāo)志著從學(xué)術(shù)研究階段向工業(yè)化階段的過渡。在工業(yè)化階段,目前還處于一個(gè)需要?jiǎng)?chuàng)新的階段,因?yàn)槿绾巫岊A(yù)測(cè)越來(lái)越準(zhǔn)確,現(xiàn)在還有一些問題沒有完全解決。

    機(jī)器之心:在我們看來(lái),最近幾年在基礎(chǔ)模型的架構(gòu)上的研究似乎并不多。你認(rèn)為Transformer架構(gòu)將來(lái)會(huì)不會(huì)被替代?

    楊植麟:我認(rèn)為如果時(shí)間足夠長(zhǎng),Transformer肯定會(huì)被替代。

    但在短期三到五年內(nèi),更大的可能性是在Transformer的核心思想上進(jìn)行優(yōu)化。比如,如果你想處理10萬(wàn)的context,你肯定不能使用原始的Transformer。如果你想處理分鐘級(jí)別的長(zhǎng)視頻,使用原始的Transformer可能不是最優(yōu)方案。

    所以,我認(rèn)為在接下來(lái)的三到五年內(nèi),我們可能更傾向于針對(duì)特定問題對(duì)Transformer結(jié)構(gòu)進(jìn)行優(yōu)化,但核心的思想我認(rèn)為應(yīng)該還是比較通用的。

    在這個(gè)過程中,量變產(chǎn)生質(zhì)變,比transformer更好的模型會(huì)自然通過組合演進(jìn)的方式產(chǎn)生。

    機(jī)器之心:

    現(xiàn)在許多公司在做行業(yè)大模型的研發(fā),你的看法是什么?

    楊植麟:我覺得行業(yè)大模型在短期內(nèi)有其存在的道理,利用專有數(shù)據(jù)的優(yōu)勢(shì),可能在某些非常封閉的行業(yè)有所作為。

    但從長(zhǎng)期看,當(dāng)一個(gè)賽道開始接入更多來(lái)自B端和C端的參與方,再封閉的行業(yè),都很難阻止數(shù)據(jù)的擴(kuò)散,超級(jí)入口會(huì)變成數(shù)據(jù)黑洞把各種數(shù)據(jù)吸納進(jìn)來(lái),行業(yè)模型的優(yōu)勢(shì)會(huì)消失。

    另一個(gè)方面看,行業(yè)大模型的計(jì)算量本質(zhì)上是一個(gè)能源轉(zhuǎn)化成智能的過程。如果我投入了更多的能源,我就會(huì)有更多的智能,中間轉(zhuǎn)化率取決于我的算法的有效性。如果我假設(shè)你算法是一樣的,那么你有多少智能就完全取決于你有多少能源。

    而客觀上,這種行業(yè)大模型消耗的能源是要比通用的模型要少好幾個(gè)數(shù)量級(jí),長(zhǎng)期來(lái)說這個(gè)差距還會(huì)擴(kuò)大。這樣的話它產(chǎn)生的智能最終提供的增量?jī)r(jià)值會(huì)趨近于0。

    在一些超級(jí)封閉的行業(yè),如果通用模型還沒有觸及,或者數(shù)據(jù)吸納的效應(yīng)還沒有出現(xiàn),這種情況下短期可能存在一些機(jī)會(huì),但長(zhǎng)期來(lái)看我覺得會(huì)回歸到通用模型。

    行業(yè)大模型的唯一優(yōu)勢(shì)也就是專有數(shù)據(jù)壁壘最終會(huì)被打破,因此我認(rèn)為不是一個(gè)可持續(xù)性的東西,最終肯定不是靠專有數(shù)據(jù)壁壘,而是靠銷售渠道或者提供更好的定制服務(wù)。

    但不同的通用大模型之間的分化是有可能的。這由你的產(chǎn)品的起點(diǎn)決定,通過對(duì)不同類型的用戶的吸引,吸收他們所供應(yīng)的數(shù)據(jù),讓模型在哪些方面更強(qiáng)。

    機(jī)器之心:作為一個(gè)在業(yè)內(nèi)評(píng)價(jià)較高的人,大家對(duì)你寄托的期望是否給你帶來(lái)了壓力?

    楊植麟:我更多的是感到興奮,因?yàn)槲矣X得能有機(jī)會(huì)做這個(gè)事情本身就很幸運(yùn),我對(duì)這個(gè)機(jī)會(huì)充滿了感激。

    并不是所有人都有機(jī)會(huì)去做這個(gè)我非常想做的事情,我會(huì)抓住這個(gè)機(jī)會(huì)并把它做好。所以,我覺得從心態(tài)上說,我并不感到過多的壓力,更多的是珍惜這個(gè)機(jī)會(huì)。

    Moonshot AI公司招聘郵箱:hr@moonshot.ai題圖來(lái)源:The Dark Side of the Moon Cover

    [責(zé)任編輯:linlin]

    標(biāo)簽:

    相關(guān)文章

    評(píng)論排行
    熱門話題
    最近更新
    亚洲成人精品久久| 亚洲精品高清国产一线久久| 少妇中文字幕乱码亚洲影视| 亚洲精品国偷自产在线| 亚洲一区二区三区在线观看精品中文 | 亚洲а∨天堂久久精品9966 | 久久精品国产亚洲AV电影| 久久亚洲精品成人AV| 亚洲精品成人片在线观看精品字幕 | 亚洲综合激情另类小说区| 亚洲a一级免费视频| 亚洲AV无码精品色午夜在线观看 | 国产精品亚洲片在线va| 亚洲日本香蕉视频观看视频| 久久综合亚洲鲁鲁五月天| 亚洲人成影院在线| 亚洲视频一区二区在线观看| 久久夜色精品国产亚洲AV动态图| 亚洲AV一宅男色影视| 亚洲人成网站影音先锋播放| 久久精品国产亚洲AV麻豆王友容| 亚洲成av人片在线观看无码不卡| 亚洲伦理一区二区| 亚洲成人网在线播放| 精品久久久久久亚洲精品| 99久久国产亚洲综合精品| 亚洲av无码专区在线观看下载| 狠狠入ady亚洲精品| 亚洲国产午夜福利在线播放| 亚洲伊人久久大香线蕉综合图片| 亚洲av之男人的天堂网站| 久久亚洲私人国产精品vA | 亚洲日韩AV一区二区三区四区| 亚洲伦理一二三四| 亚洲精品福利你懂| 亚洲日本VA中文字幕久久道具| 在线观看亚洲精品专区| 亚洲免费日韩无码系列| 亚洲色欲久久久综合网| 久久久久久亚洲av成人无码国产| 亚洲高清无在码在线无弹窗|