當(dāng)前位置:主頁 > 要聞 > 正文
    快訊:螞蟻TuGraph開源流圖計(jì)算引擎
    來源:InfoQ作者:洞察網(wǎng)2023-06-17 05:48:37

    作者 | 趙鈺瑩

    嘉賓 | 潘臻軒(花名:泰初)


    【資料圖】

    編輯 | 趙鈺瑩

    流圖計(jì)算,一個基礎(chǔ)軟件領(lǐng)域攻堅(jiān)難度極高的分支。行業(yè)首個工業(yè)級流式圖計(jì)算引擎 TuGraph-Analytics,與目前世界范圍內(nèi)有記錄的、最快的圖數(shù)據(jù)庫開源項(xiàng)目 TuGraph DB 來自于一家中國企業(yè),這不僅僅解決了國產(chǎn)基礎(chǔ)軟件領(lǐng)域的一大難題,健全了開源生態(tài),更重要的是向全球展示了中國的開源力量。

    Linked Data Benchmark Council(LDBC,關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)測評委員會)是全球公認(rèn)的圖數(shù)據(jù)庫領(lǐng)域基準(zhǔn)指南制定者與評測機(jī)構(gòu),與 TPC 并稱為國際數(shù)據(jù)庫行業(yè)兩大權(quán)威技術(shù)組織。 在這樣一個全球權(quán)威的榜單上,螞蟻集團(tuán)的 TuGraph 項(xiàng)目截至目前已 多次高居榜首 ,并不斷在打破由自己創(chuàng)造的世界紀(jì)錄

    長久以來,中國企業(yè)在基礎(chǔ)軟件領(lǐng)域的攻堅(jiān)進(jìn)程不盡如人意,TuGraph 項(xiàng)目讓我們看到了中國企業(yè)在圖計(jì)算方面的巨大潛力。作為中國最早研究圖計(jì)算技術(shù)的企業(yè)之一,在工業(yè)界尚無成熟系統(tǒng)和典型落地場景時螞蟻集團(tuán)就已經(jīng)投入研發(fā),并在如今構(gòu)建起了世界規(guī)模領(lǐng)先的圖計(jì)算集群,打造了一流的大規(guī)模圖計(jì)算系統(tǒng) TuGraph。

    本次,螞蟻集團(tuán)宣布將圖計(jì)算系統(tǒng)中的 流圖計(jì)算引擎 TuGraph-Analytics 正式開源。結(jié)合螞蟻圖計(jì)算領(lǐng)域其他項(xiàng)目的優(yōu)異表現(xiàn), 該引擎又將對開源領(lǐng)域及產(chǎn)業(yè)界帶來哪些價(jià)值?流圖計(jì)算領(lǐng)域“出走半生,歸來仍是素人”,到底是技術(shù)要求太高還是場景需求不大?AIGC 的興起對該領(lǐng)域的未來發(fā)展又會帶來哪些影響

    本文,InfoQ 采訪到了 螞蟻集團(tuán)流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人潘臻軒(花名:泰初) ,共同就上述問題展開探討。

    中國開源生態(tài)日益健全,場景從互聯(lián)網(wǎng)向金融等延伸

    最近幾年,隨著國際上開源生態(tài)的不斷壯大,服務(wù)于開源事業(yè)的機(jī)構(gòu)日益增多。基金會和企業(yè)日益成為開源發(fā)展中最重要的構(gòu)成部分。海外開源商業(yè)閉環(huán)已經(jīng)得到驗(yàn)證,頭部科技企業(yè)紛紛通過資源、資本、組織等形式賦能開源,這也在很大程度上 加速了中國開源賦能環(huán)的發(fā)育和成長,國內(nèi)基礎(chǔ)軟件領(lǐng)域的開源版圖得以不斷完善

    注:圖片來自 InfoQ 研究中心《中國開源發(fā)展研究分析 2022》

    與此同時,InfoQ 研究中心也觀察到: 開源項(xiàng)目的落地場景已經(jīng)從原來的互聯(lián)網(wǎng)領(lǐng)域向金融、工業(yè)等領(lǐng)域轉(zhuǎn)移,這背后是因?yàn)橹袊袌鰯?shù)字化浪潮的不斷涌動,各領(lǐng)域的數(shù)字化升級被提上日程,開源的價(jià)值進(jìn)一步被放大 。在這個過程中,金融、工業(yè)等領(lǐng)域暴露出的需求進(jìn)一步反哺了開源項(xiàng)目社區(qū)發(fā)展,這是一個良性循環(huán)。

    具體到流圖計(jì)算領(lǐng)域,以金融場景為例,日益增長的用戶規(guī)模和逐漸升級的攻擊手段,讓信貸風(fēng)控、反洗錢、反欺詐、資金追蹤的難度越來越高,而圖技術(shù)因?yàn)榭梢酝ㄟ^拓展風(fēng)險(xiǎn)特征維度來提升如上關(guān)鍵環(huán)節(jié)的風(fēng)險(xiǎn)防范能力而廣受關(guān)注。根據(jù) Gartner 的預(yù)測,到 2025 年,圖技術(shù)將應(yīng)用于 80% 的數(shù)據(jù)和分析創(chuàng)新,能夠促進(jìn)企業(yè)的快速決策,這也表明未來將會有越來越多與數(shù)據(jù)相關(guān)的領(lǐng)域和企業(yè)應(yīng)用圖技術(shù)解決問題。

    那么,流圖計(jì)算技術(shù)到底是如何解決問題的?這樣一個很多人印象中的“小眾”領(lǐng)域?yàn)楹螘?Gartner 如此看好

    “小眾”的流圖計(jì)算,如今的價(jià)值已被產(chǎn)業(yè)看見

    事實(shí)上,流圖計(jì)算是流式計(jì)算和圖數(shù)據(jù)模型的交叉領(lǐng)域。雖然很多人對這個名詞感到陌生,但對流式計(jì)算和圖計(jì)算應(yīng)該有所耳聞。

    流,指的是流式動態(tài)變化的數(shù)據(jù)流,一般動態(tài)的數(shù)據(jù)流有實(shí)時的日志流,或者數(shù)據(jù)庫的變化日志。流式計(jì)算最早源于 80 年代學(xué)術(shù)圈關(guān)于流式實(shí)時計(jì)算的研究,隨著大數(shù)據(jù)的興起,流計(jì)算逐漸演進(jìn)成大數(shù)據(jù)的一個獨(dú)立分支,基于流式計(jì)算可以很好地提升數(shù)據(jù)計(jì)算的實(shí)效性,能夠基于實(shí)時的數(shù)據(jù)進(jìn)行決策分析,業(yè)內(nèi)比較熟知的流式計(jì)算引擎,比如 Flink。

    圖論最早起源于哥尼斯堡的七橋問題。數(shù)據(jù)結(jié)構(gòu)的圖由頂點(diǎn)的集合和邊的集合構(gòu)成。在我們現(xiàn)實(shí)生活當(dāng)中,圖無處不在,比如資金網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等。

    注:哥尼斯堡的七橋問題

    隨著大數(shù)據(jù)的興起,Google 推出了大規(guī)模圖計(jì)算系統(tǒng) Pregel, 并基于此進(jìn)行 PageRank 算法的計(jì)算,來獲取網(wǎng)頁權(quán)重。

    流圖計(jì)算繼承了流式計(jì)算和圖計(jì)算的優(yōu)點(diǎn),一方面它基于流式實(shí)時的數(shù)據(jù)進(jìn)行處理,另一方面它構(gòu)建在實(shí)時數(shù)據(jù)之上構(gòu)建圖模型進(jìn)行計(jì)算,但同時技術(shù)挑戰(zhàn)也更高了。

    采訪中,泰初表示,根據(jù)螞蟻集團(tuán)的應(yīng)用實(shí)踐和來自金融風(fēng)控等多個場景的應(yīng)用反饋,流圖計(jì)算的價(jià)值在螞蟻集團(tuán)內(nèi)部得到了廣泛的認(rèn)可,但因?yàn)槠溆幸欢ǖ募夹g(shù)門檻,并需要更加復(fù)合型的人才,導(dǎo)致今天看起來似乎依舊“小眾”,螞蟻集團(tuán)希望通過開源的方式降低門檻,讓生態(tài)更加繁榮,讓流圖計(jì)算技術(shù)更加普惠。

    注:螞蟻?zhàn)匝械墓I(yè)級流式圖計(jì)算引擎 TuGraph Analytics

    經(jīng)過六年的技術(shù)積累、半年多的準(zhǔn)備和內(nèi)部開源技術(shù)委員會評審,TuGraph-Analytics 最終被螞蟻集團(tuán)定為 A 級項(xiàng)目(該級別意味著公司將會投入眾多資源支持項(xiàng)目的持續(xù)運(yùn)營)正式開源。

    注:TuGraph-Analytics 的開源路線圖

    很多人因?yàn)榭匆姡韵嘈拧H缃瘢浵伡瘓F(tuán)想辦法讓更多人不僅能看見流圖計(jì)算的價(jià)值,還能實(shí)際感受到。根據(jù)泰初的介紹,項(xiàng)目開源后會給出大量文檔,后期也會做很多公開課等運(yùn)營動作。目前, 開發(fā)者根據(jù)案例十分鐘就可以運(yùn)行一個簡單的 demo,初步體會該項(xiàng)目的價(jià)值

    根據(jù)團(tuán)隊(duì)的經(jīng)驗(yàn),假定資源同等,TuGraph-Analytics 相較于 Spark GraphX 等傳統(tǒng)方式可以將風(fēng)控時效性從小時級降到秒級。對于 數(shù)據(jù)模型天然適合圖模型,同時希望能夠更快看到圖計(jì)算的價(jià)值的應(yīng)用,流圖計(jì)算引擎 TuGraph-Analytics 是更加合適的選擇

    開源地址: /TuGraph-family/tugraph-analytics

    扛過雙 11 大考,落地百余場景,TuGraph-Analytics 籌劃已久

    對外界來說,開源只是一個動作。但對螞蟻集團(tuán)流圖計(jì)算團(tuán)隊(duì)來說,這是不斷踩坑、不斷進(jìn)化的結(jié)果。

    螞蟻集團(tuán)對流圖計(jì)算的探索大致可以分為三個階段: 創(chuàng)業(yè)階段、規(guī)模落地、持續(xù)優(yōu)化

    在創(chuàng)業(yè)階段,反套現(xiàn)成為團(tuán)隊(duì)遇到的第一個挑戰(zhàn) 。在花唄反套現(xiàn)場景中,并不是每一筆交易或回款行為都需要進(jìn)行套現(xiàn)行為的識別,需要先進(jìn)行一定的規(guī)則處理。比如,基于實(shí)時統(tǒng)計(jì)交易的筆數(shù)或者回款金額,在滿足一定的條件后才開始進(jìn)行子圖的迭代計(jì)算。最后,基于圖的迭代計(jì)算結(jié)果,在進(jìn)行后續(xù)數(shù)據(jù)鏈路的處理后再提供給在線使用。因此,一個場景在完整的計(jì)算鏈路中,需要流計(jì)算和圖計(jì)算兩種計(jì)算范式的融合計(jì)算。

    當(dāng)時的流圖計(jì)算團(tuán)隊(duì)僅僅只有兩名成員,探索了一年多的時間才將該技術(shù)在內(nèi)部初步落地。“雖然公司在這個過程中沒有給我們太多壓力,這也特別感謝螞蟻對前沿技術(shù)探索的接受度和包容度,但其實(shí)個人壓力是非常大的。”

    在規(guī)模落地階段,團(tuán)隊(duì)雖然在不斷壯大,但是也迎來了一場“技術(shù)大考”。 2018 年的雙 11,流圖計(jì)算做到了在大促極端流量高峰情況下,動態(tài)識別超過六度關(guān)系鏈(隱蔽性強(qiáng))的異常資金風(fēng)險(xiǎn),這一風(fēng)控能力在當(dāng)時的業(yè)界非常領(lǐng)先。

    那時,我們從 6、7 月份就開始和業(yè)務(wù)同學(xué)一起閉關(guān)籌備雙 11,內(nèi)部做了幾輪流量壓測,包括極端情況下的解決方案全部討論完畢才確定推到雙 11。

    在那以后,越來越多的業(yè)務(wù)方希望通過部署流圖計(jì)算技術(shù)解決來問題。此時,團(tuán)隊(duì)又迎來了難題:怎么把門檻降得再低一些,讓業(yè)務(wù)方可以最低成本用起來。團(tuán)隊(duì)開始和中臺聯(lián)動,通過支持特定的中臺(比如風(fēng)控中臺、知識圖譜等)快速覆蓋一類場景用戶,從而讓更多的業(yè)務(wù)用起流圖計(jì)算。

    當(dāng)解決這些問題之后,螞蟻流圖計(jì)算踏入第三個階段——持續(xù)優(yōu)化 。2020 年前后,隨著圖在螞蟻應(yīng)用的越來越廣,體系化的建設(shè)給團(tuán)隊(duì)帶來了很大的挑戰(zhàn)。于是他們將流圖的能力從兩邊延伸提供了離在線一體化的能力,使得用戶可以基于一套 DSL 支持基于離線的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并在隨后的時間內(nèi)針對計(jì)算框架、存儲引擎等做了持續(xù)性優(yōu)化,這些工作未來也都將通過開源的方式貢獻(xiàn)給社區(qū)。

    目前,流圖計(jì)算在螞蟻內(nèi)部及產(chǎn)業(yè)界得到廣泛應(yīng)用,比如金融風(fēng)控 (支付風(fēng)控、信貸風(fēng)控、基礎(chǔ)安全風(fēng)控)、知識圖譜 (商戶圖譜、資金圖譜、企業(yè)圖譜)、會員社交 (新春五福、親密支付、會員增長) 以及數(shù)據(jù)應(yīng)用 (資金基線、數(shù)據(jù)血緣、歸因分析) 等百余場景。

    基于流式動態(tài)圖構(gòu)建的資金云圖項(xiàng)目實(shí)現(xiàn)了長周期萬度資金流轉(zhuǎn)分析,且支持秒級還原資金路徑,成功解決了金融場景下因資金鏈路復(fù)雜,導(dǎo)致風(fēng)險(xiǎn)分析難、識別率低、時效性差等業(yè)界難題。

    發(fā)展至今,螞蟻集團(tuán)已經(jīng)形成了完備的圖計(jì)算版圖,彼此能力互補(bǔ) 。比如 TuGraph-DB 作為圖數(shù)據(jù)庫,主要應(yīng)用場景是數(shù)據(jù)管理和查詢。TuGraph-Analytics 作為流式圖計(jì)算引擎,偏重于流式實(shí)時圖的分析和計(jì)算。在解決業(yè)務(wù)問題時,二者一般聯(lián)動運(yùn)行,比如基于 TuGraph-Analytics 進(jìn)行實(shí)時數(shù)據(jù)分析,并將分析之后的數(shù)據(jù)寫回到 TuGraph-DB,提供查詢服務(wù)。

    注:螞蟻圖計(jì)算平臺 TuGraph 已達(dá)世界領(lǐng)先水平

    不難看出,開源并非一時興起,而是基于豐富的技術(shù)積累和場景磨練 。在看到價(jià)值之后,團(tuán)隊(duì)第一時間就選擇開源,讓 TuGraph-Analytics 快速賦能整個行業(yè),從而更好地助力整個行業(yè)的數(shù)字化升級。

    從產(chǎn)業(yè)視角來看,當(dāng)前流圖計(jì)算還處于起步階段。TuGraph-Analytics 這類項(xiàng)目的開源,可以更好地讓產(chǎn)業(yè)各方參與到流圖計(jì)算方向的建設(shè),同時也會出現(xiàn)更多解決方案推動整個行業(yè)更好地發(fā)揮流圖計(jì)算的價(jià)值。

    AIGC 帶來利好,流圖計(jì)算領(lǐng)域?qū)⒃絹碓綗狒[

    AIGC 的火爆讓每一個領(lǐng)域的從業(yè)者都開始重新評估自身所從事的工作會發(fā)生哪些變化。這樣的技術(shù)革新,流圖計(jì)算團(tuán)隊(duì)同樣關(guān)注到了。采訪中,泰初表示初步判斷這對流圖計(jì)算領(lǐng)域是利好的,可以進(jìn)一步降低用戶的交互門檻。未來,用戶有望通過自然語言的方式直接獲取想要的信息,團(tuán)隊(duì)圍繞此也做了初步規(guī)劃。即便不談 AIGC,流圖計(jì)算領(lǐng)域未來也會越來越熱鬧,因?yàn)閳D本身能夠解決更多復(fù)雜問題。

    從標(biāo)準(zhǔn)化層面來看,該領(lǐng)域的標(biāo)準(zhǔn)正在被逐步建立,比如圖的查詢語言之前一直沒有相關(guān)標(biāo)準(zhǔn),但最近兩年已經(jīng)有相關(guān)組織在牽頭做這件事情,其他方面也是如此。隨著技術(shù)的成熟和標(biāo)準(zhǔn)的建立,產(chǎn)業(yè)實(shí)踐路徑漸趨清晰。我們有理由相信,流圖計(jì)算領(lǐng)域未來可期。

    嘉賓介紹

    潘臻軒 ,螞蟻集團(tuán)資深技術(shù)專家,現(xiàn)螞蟻流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人。2012 年加入阿里集團(tuán)數(shù)據(jù)平臺,2016 年加入螞蟻集團(tuán)數(shù)據(jù)技術(shù)部,經(jīng)歷了阿里和螞蟻實(shí)時計(jì)算從 0 到 1 的演進(jìn),從 2017 年底開始負(fù)責(zé)流式圖系統(tǒng)和團(tuán)隊(duì)的構(gòu)建,從 0 到 1 打造了螞蟻的流式圖系統(tǒng),對實(shí)時計(jì)算和圖計(jì)算以及上層的應(yīng)用場景有深入的理解。

    相關(guān)閱讀

    《中國開源發(fā)展研究分析 2022》

    《螞蟻圖數(shù)據(jù)庫再獲 LDBC 權(quán)威測試世界第一》

    《坐擁多個 TOP 級開源項(xiàng)目,不搞“競爭性開源”,螞蟻在玩一種很新的開源》

    《未來幾年,圖計(jì)算或許是一條很好的賽道》

    嘉賓 | 潘臻軒(花名:泰初)

    編輯 | 趙鈺瑩

    流圖計(jì)算,一個基礎(chǔ)軟件領(lǐng)域攻堅(jiān)難度極高的分支。行業(yè)首個工業(yè)級流式圖計(jì)算引擎 TuGraph-Analytics,與目前世界范圍內(nèi)有記錄的、最快的圖數(shù)據(jù)庫開源項(xiàng)目 TuGraph DB 來自于一家中國企業(yè),這不僅僅解決了國產(chǎn)基礎(chǔ)軟件領(lǐng)域的一大難題,健全了開源生態(tài),更重要的是向全球展示了中國的開源力量。

    Linked Data Benchmark Council(LDBC,關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)測評委員會)是全球公認(rèn)的圖數(shù)據(jù)庫領(lǐng)域基準(zhǔn)指南制定者與評測機(jī)構(gòu),與 TPC 并稱為國際數(shù)據(jù)庫行業(yè)兩大權(quán)威技術(shù)組織。 在這樣一個全球權(quán)威的榜單上,螞蟻集團(tuán)的 TuGraph 項(xiàng)目截至目前已 多次高居榜首 ,并不斷在打破由自己創(chuàng)造的世界紀(jì)錄

    長久以來,中國企業(yè)在基礎(chǔ)軟件領(lǐng)域的攻堅(jiān)進(jìn)程不盡如人意,TuGraph 項(xiàng)目讓我們看到了中國企業(yè)在圖計(jì)算方面的巨大潛力。作為中國最早研究圖計(jì)算技術(shù)的企業(yè)之一,在工業(yè)界尚無成熟系統(tǒng)和典型落地場景時螞蟻集團(tuán)就已經(jīng)投入研發(fā),并在如今構(gòu)建起了世界規(guī)模領(lǐng)先的圖計(jì)算集群,打造了一流的大規(guī)模圖計(jì)算系統(tǒng) TuGraph。

    本次,螞蟻集團(tuán)宣布將圖計(jì)算系統(tǒng)中的 流圖計(jì)算引擎 TuGraph-Analytics 正式開源。結(jié)合螞蟻圖計(jì)算領(lǐng)域其他項(xiàng)目的優(yōu)異表現(xiàn), 該引擎又將對開源領(lǐng)域及產(chǎn)業(yè)界帶來哪些價(jià)值?流圖計(jì)算領(lǐng)域“出走半生,歸來仍是素人”,到底是技術(shù)要求太高還是場景需求不大?AIGC 的興起對該領(lǐng)域的未來發(fā)展又會帶來哪些影響

    本文,InfoQ 采訪到了 螞蟻集團(tuán)流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人潘臻軒(花名:泰初) ,共同就上述問題展開探討。

    中國開源生態(tài)日益健全,場景從互聯(lián)網(wǎng)向金融等延伸

    最近幾年,隨著國際上開源生態(tài)的不斷壯大,服務(wù)于開源事業(yè)的機(jī)構(gòu)日益增多。基金會和企業(yè)日益成為開源發(fā)展中最重要的構(gòu)成部分。海外開源商業(yè)閉環(huán)已經(jīng)得到驗(yàn)證,頭部科技企業(yè)紛紛通過資源、資本、組織等形式賦能開源,這也在很大程度上 加速了中國開源賦能環(huán)的發(fā)育和成長,國內(nèi)基礎(chǔ)軟件領(lǐng)域的開源版圖得以不斷完善

    注:圖片來自 InfoQ 研究中心《中國開源發(fā)展研究分析 2022》

    與此同時,InfoQ 研究中心也觀察到: 開源項(xiàng)目的落地場景已經(jīng)從原來的互聯(lián)網(wǎng)領(lǐng)域向金融、工業(yè)等領(lǐng)域轉(zhuǎn)移,這背后是因?yàn)橹袊袌鰯?shù)字化浪潮的不斷涌動,各領(lǐng)域的數(shù)字化升級被提上日程,開源的價(jià)值進(jìn)一步被放大 。在這個過程中,金融、工業(yè)等領(lǐng)域暴露出的需求進(jìn)一步反哺了開源項(xiàng)目社區(qū)發(fā)展,這是一個良性循環(huán)。

    具體到流圖計(jì)算領(lǐng)域,以金融場景為例,日益增長的用戶規(guī)模和逐漸升級的攻擊手段,讓信貸風(fēng)控、反洗錢、反欺詐、資金追蹤的難度越來越高,而圖技術(shù)因?yàn)榭梢酝ㄟ^拓展風(fēng)險(xiǎn)特征維度來提升如上關(guān)鍵環(huán)節(jié)的風(fēng)險(xiǎn)防范能力而廣受關(guān)注。根據(jù) Gartner 的預(yù)測,到 2025 年,圖技術(shù)將應(yīng)用于 80% 的數(shù)據(jù)和分析創(chuàng)新,能夠促進(jìn)企業(yè)的快速決策,這也表明未來將會有越來越多與數(shù)據(jù)相關(guān)的領(lǐng)域和企業(yè)應(yīng)用圖技術(shù)解決問題。

    那么,流圖計(jì)算技術(shù)到底是如何解決問題的?這樣一個很多人印象中的“小眾”領(lǐng)域?yàn)楹螘?Gartner 如此看好

    “小眾”的流圖計(jì)算,如今的價(jià)值已被產(chǎn)業(yè)看見

    事實(shí)上,流圖計(jì)算是流式計(jì)算和圖數(shù)據(jù)模型的交叉領(lǐng)域。雖然很多人對這個名詞感到陌生,但對流式計(jì)算和圖計(jì)算應(yīng)該有所耳聞。

    流,指的是流式動態(tài)變化的數(shù)據(jù)流,一般動態(tài)的數(shù)據(jù)流有實(shí)時的日志流,或者數(shù)據(jù)庫的變化日志。流式計(jì)算最早源于 80 年代學(xué)術(shù)圈關(guān)于流式實(shí)時計(jì)算的研究,隨著大數(shù)據(jù)的興起,流計(jì)算逐漸演進(jìn)成大數(shù)據(jù)的一個獨(dú)立分支,基于流式計(jì)算可以很好地提升數(shù)據(jù)計(jì)算的實(shí)效性,能夠基于實(shí)時的數(shù)據(jù)進(jìn)行決策分析,業(yè)內(nèi)比較熟知的流式計(jì)算引擎,比如 Flink。

    圖論最早起源于哥尼斯堡的七橋問題。數(shù)據(jù)結(jié)構(gòu)的圖由頂點(diǎn)的集合和邊的集合構(gòu)成。在我們現(xiàn)實(shí)生活當(dāng)中,圖無處不在,比如資金網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等。

    注:哥尼斯堡的七橋問題

    隨著大數(shù)據(jù)的興起,Google 推出了大規(guī)模圖計(jì)算系統(tǒng) Pregel, 并基于此進(jìn)行 PageRank 算法的計(jì)算,來獲取網(wǎng)頁權(quán)重。

    流圖計(jì)算繼承了流式計(jì)算和圖計(jì)算的優(yōu)點(diǎn),一方面它基于流式實(shí)時的數(shù)據(jù)進(jìn)行處理,另一方面它構(gòu)建在實(shí)時數(shù)據(jù)之上構(gòu)建圖模型進(jìn)行計(jì)算,但同時技術(shù)挑戰(zhàn)也更高了。

    采訪中,泰初表示,根據(jù)螞蟻集團(tuán)的應(yīng)用實(shí)踐和來自金融風(fēng)控等多個場景的應(yīng)用反饋,流圖計(jì)算的價(jià)值在螞蟻集團(tuán)內(nèi)部得到了廣泛的認(rèn)可,但因?yàn)槠溆幸欢ǖ募夹g(shù)門檻,并需要更加復(fù)合型的人才,導(dǎo)致今天看起來似乎依舊“小眾”,螞蟻集團(tuán)希望通過開源的方式降低門檻,讓生態(tài)更加繁榮,讓流圖計(jì)算技術(shù)更加普惠。

    注:螞蟻?zhàn)匝械墓I(yè)級流式圖計(jì)算引擎 TuGraph Analytics

    經(jīng)過六年的技術(shù)積累、半年多的準(zhǔn)備和內(nèi)部開源技術(shù)委員會評審,TuGraph-Analytics 最終被螞蟻集團(tuán)定為 A 級項(xiàng)目(該級別意味著公司將會投入眾多資源支持項(xiàng)目的持續(xù)運(yùn)營)正式開源。

    注:TuGraph-Analytics 的開源路線圖

    很多人因?yàn)榭匆姡韵嘈拧H缃瘢浵伡瘓F(tuán)想辦法讓更多人不僅能看見流圖計(jì)算的價(jià)值,還能實(shí)際感受到。根據(jù)泰初的介紹,項(xiàng)目開源后會給出大量文檔,后期也會做很多公開課等運(yùn)營動作。目前, 開發(fā)者根據(jù)案例十分鐘就可以運(yùn)行一個簡單的 demo,初步體會該項(xiàng)目的價(jià)值

    根據(jù)團(tuán)隊(duì)的經(jīng)驗(yàn),假定資源同等,TuGraph-Analytics 相較于 Spark GraphX 等傳統(tǒng)方式可以將風(fēng)控時效性從小時級降到秒級。對于 數(shù)據(jù)模型天然適合圖模型,同時希望能夠更快看到圖計(jì)算的價(jià)值的應(yīng)用,流圖計(jì)算引擎 TuGraph-Analytics 是更加合適的選擇

    開源地址: /TuGraph-family/tugraph-analytics

    扛過雙 11 大考,落地百余場景,TuGraph-Analytics 籌劃已久

    對外界來說,開源只是一個動作。但對螞蟻集團(tuán)流圖計(jì)算團(tuán)隊(duì)來說,這是不斷踩坑、不斷進(jìn)化的結(jié)果。

    螞蟻集團(tuán)對流圖計(jì)算的探索大致可以分為三個階段: 創(chuàng)業(yè)階段、規(guī)模落地、持續(xù)優(yōu)化

    在創(chuàng)業(yè)階段,反套現(xiàn)成為團(tuán)隊(duì)遇到的第一個挑戰(zhàn) 。在花唄反套現(xiàn)場景中,并不是每一筆交易或回款行為都需要進(jìn)行套現(xiàn)行為的識別,需要先進(jìn)行一定的規(guī)則處理。比如,基于實(shí)時統(tǒng)計(jì)交易的筆數(shù)或者回款金額,在滿足一定的條件后才開始進(jìn)行子圖的迭代計(jì)算。最后,基于圖的迭代計(jì)算結(jié)果,在進(jìn)行后續(xù)數(shù)據(jù)鏈路的處理后再提供給在線使用。因此,一個場景在完整的計(jì)算鏈路中,需要流計(jì)算和圖計(jì)算兩種計(jì)算范式的融合計(jì)算。

    當(dāng)時的流圖計(jì)算團(tuán)隊(duì)僅僅只有兩名成員,探索了一年多的時間才將該技術(shù)在內(nèi)部初步落地。“雖然公司在這個過程中沒有給我們太多壓力,這也特別感謝螞蟻對前沿技術(shù)探索的接受度和包容度,但其實(shí)個人壓力是非常大的。”

    在規(guī)模落地階段,團(tuán)隊(duì)雖然在不斷壯大,但是也迎來了一場“技術(shù)大考”。 2018 年的雙 11,流圖計(jì)算做到了在大促極端流量高峰情況下,動態(tài)識別超過六度關(guān)系鏈(隱蔽性強(qiáng))的異常資金風(fēng)險(xiǎn),這一風(fēng)控能力在當(dāng)時的業(yè)界非常領(lǐng)先。

    那時,我們從 6、7 月份就開始和業(yè)務(wù)同學(xué)一起閉關(guān)籌備雙 11,內(nèi)部做了幾輪流量壓測,包括極端情況下的解決方案全部討論完畢才確定推到雙 11。

    在那以后,越來越多的業(yè)務(wù)方希望通過部署流圖計(jì)算技術(shù)解決來問題。此時,團(tuán)隊(duì)又迎來了難題:怎么把門檻降得再低一些,讓業(yè)務(wù)方可以最低成本用起來。團(tuán)隊(duì)開始和中臺聯(lián)動,通過支持特定的中臺(比如風(fēng)控中臺、知識圖譜等)快速覆蓋一類場景用戶,從而讓更多的業(yè)務(wù)用起流圖計(jì)算。

    當(dāng)解決這些問題之后,螞蟻流圖計(jì)算踏入第三個階段——持續(xù)優(yōu)化 。2020 年前后,隨著圖在螞蟻應(yīng)用的越來越廣,體系化的建設(shè)給團(tuán)隊(duì)帶來了很大的挑戰(zhàn)。于是他們將流圖的能力從兩邊延伸提供了離在線一體化的能力,使得用戶可以基于一套 DSL 支持基于離線的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并在隨后的時間內(nèi)針對計(jì)算框架、存儲引擎等做了持續(xù)性優(yōu)化,這些工作未來也都將通過開源的方式貢獻(xiàn)給社區(qū)。

    目前,流圖計(jì)算在螞蟻內(nèi)部及產(chǎn)業(yè)界得到廣泛應(yīng)用,比如金融風(fēng)控 (支付風(fēng)控、信貸風(fēng)控、基礎(chǔ)安全風(fēng)控)、知識圖譜 (商戶圖譜、資金圖譜、企業(yè)圖譜)、會員社交 (新春五福、親密支付、會員增長) 以及數(shù)據(jù)應(yīng)用 (資金基線、數(shù)據(jù)血緣、歸因分析) 等百余場景。

    基于流式動態(tài)圖構(gòu)建的資金云圖項(xiàng)目實(shí)現(xiàn)了長周期萬度資金流轉(zhuǎn)分析,且支持秒級還原資金路徑,成功解決了金融場景下因資金鏈路復(fù)雜,導(dǎo)致風(fēng)險(xiǎn)分析難、識別率低、時效性差等業(yè)界難題。

    發(fā)展至今,螞蟻集團(tuán)已經(jīng)形成了完備的圖計(jì)算版圖,彼此能力互補(bǔ) 。比如 TuGraph-DB 作為圖數(shù)據(jù)庫,主要應(yīng)用場景是數(shù)據(jù)管理和查詢。TuGraph-Analytics 作為流式圖計(jì)算引擎,偏重于流式實(shí)時圖的分析和計(jì)算。在解決業(yè)務(wù)問題時,二者一般聯(lián)動運(yùn)行,比如基于 TuGraph-Analytics 進(jìn)行實(shí)時數(shù)據(jù)分析,并將分析之后的數(shù)據(jù)寫回到 TuGraph-DB,提供查詢服務(wù)。

    注:螞蟻圖計(jì)算平臺 TuGraph 已達(dá)世界領(lǐng)先水平

    不難看出,開源并非一時興起,而是基于豐富的技術(shù)積累和場景磨練 。在看到價(jià)值之后,團(tuán)隊(duì)第一時間就選擇開源,讓 TuGraph-Analytics 快速賦能整個行業(yè),從而更好地助力整個行業(yè)的數(shù)字化升級。

    從產(chǎn)業(yè)視角來看,當(dāng)前流圖計(jì)算還處于起步階段。TuGraph-Analytics 這類項(xiàng)目的開源,可以更好地讓產(chǎn)業(yè)各方參與到流圖計(jì)算方向的建設(shè),同時也會出現(xiàn)更多解決方案推動整個行業(yè)更好地發(fā)揮流圖計(jì)算的價(jià)值。

    AIGC 帶來利好,流圖計(jì)算領(lǐng)域?qū)⒃絹碓綗狒[

    AIGC 的火爆讓每一個領(lǐng)域的從業(yè)者都開始重新評估自身所從事的工作會發(fā)生哪些變化。這樣的技術(shù)革新,流圖計(jì)算團(tuán)隊(duì)同樣關(guān)注到了。采訪中,泰初表示初步判斷這對流圖計(jì)算領(lǐng)域是利好的,可以進(jìn)一步降低用戶的交互門檻。未來,用戶有望通過自然語言的方式直接獲取想要的信息,團(tuán)隊(duì)圍繞此也做了初步規(guī)劃。即便不談 AIGC,流圖計(jì)算領(lǐng)域未來也會越來越熱鬧,因?yàn)閳D本身能夠解決更多復(fù)雜問題。

    從標(biāo)準(zhǔn)化層面來看,該領(lǐng)域的標(biāo)準(zhǔn)正在被逐步建立,比如圖的查詢語言之前一直沒有相關(guān)標(biāo)準(zhǔn),但最近兩年已經(jīng)有相關(guān)組織在牽頭做這件事情,其他方面也是如此。隨著技術(shù)的成熟和標(biāo)準(zhǔn)的建立,產(chǎn)業(yè)實(shí)踐路徑漸趨清晰。我們有理由相信,流圖計(jì)算領(lǐng)域未來可期。

    嘉賓介紹

    潘臻軒 ,螞蟻集團(tuán)資深技術(shù)專家,現(xiàn)螞蟻流式圖計(jì)算團(tuán)隊(duì)負(fù)責(zé)人。2012 年加入阿里集團(tuán)數(shù)據(jù)平臺,2016 年加入螞蟻集團(tuán)數(shù)據(jù)技術(shù)部,經(jīng)歷了阿里和螞蟻實(shí)時計(jì)算從 0 到 1 的演進(jìn),從 2017 年底開始負(fù)責(zé)流式圖系統(tǒng)和團(tuán)隊(duì)的構(gòu)建,從 0 到 1 打造了螞蟻的流式圖系統(tǒng),對實(shí)時計(jì)算和圖計(jì)算以及上層的應(yīng)用場景有深入的理解。

    相關(guān)閱讀

    《中國開源發(fā)展研究分析 2022》

    《螞蟻圖數(shù)據(jù)庫再獲 LDBC 權(quán)威測試世界第一》

    《坐擁多個 TOP 級開源項(xiàng)目,不搞“競爭性開源”,螞蟻在玩一種很新的開源》

    《未來幾年,圖計(jì)算或許是一條很好的賽道》

    [責(zé)任編輯:linlin]

    標(biāo)簽:

    評論排行
    熱門話題
    最近更新
    亚洲第一黄色网址| 亚洲日本香蕉视频| 久久精品蜜芽亚洲国产AV| 亚洲国产午夜福利在线播放| 久久久久久亚洲精品影院| 亚洲精品韩国美女在线| 91在线亚洲精品专区| 亚洲男人都懂得羞羞网站| 亚洲va无码专区国产乱码| 亚洲真人无码永久在线| 亚洲日韩精品一区二区三区| AV在线亚洲男人的天堂| 久久亚洲AV无码西西人体| 国产亚洲精品AA片在线观看不加载| 亚洲AV蜜桃永久无码精品| 亚洲国产日韩成人综合天堂 | 亚洲AV无码一区二区三区系列| 亚洲中文字幕久久精品无码喷水| 亚洲人成电影网站色| 亚洲色一区二区三区四区| 亚洲国产精品18久久久久久| 亚洲av日韩专区在线观看| 久久久久久久久无码精品亚洲日韩| 精品国产日韩亚洲一区在线| 国产在亚洲线视频观看| 亚洲成AⅤ人影院在线观看 | 亚洲好看的理论片电影| 久久久久亚洲av无码专区 | 亚洲av无码专区在线观看下载 | 无码天堂va亚洲va在线va| 亚洲Av无码乱码在线播放| 久久亚洲av无码精品浪潮| 亚洲国产另类久久久精品| 亚洲精品高清视频| 亚洲国产av美女网站| 亚洲欧美第一成人网站7777| 久久亚洲精品11p| 久久激情亚洲精品无码?V| 亚洲精品无码乱码成人| 亚洲日韩区在线电影| 亚洲娇小性色xxxx|