作者 | 趙鈺瑩
嘉賓 | 潘臻軒(花名:泰初)
【資料圖】
編輯 | 趙鈺瑩
流圖計算,一個基礎軟件領域攻堅難度極高的分支。行業首個工業級流式圖計算引擎 TuGraph-Analytics,與目前世界范圍內有記錄的、最快的圖數據庫開源項目 TuGraph DB 來自于一家中國企業,這不僅僅解決了國產基礎軟件領域的一大難題,健全了開源生態,更重要的是向全球展示了中國的開源力量。
Linked Data Benchmark Council(LDBC,關聯數據基準測評委員會)是全球公認的圖數據庫領域基準指南制定者與評測機構,與 TPC 并稱為國際數據庫行業兩大權威技術組織。 在這樣一個全球權威的榜單上,螞蟻集團的 TuGraph 項目截至目前已 多次高居榜首 ,并不斷在打破由自己創造的世界紀錄 。
長久以來,中國企業在基礎軟件領域的攻堅進程不盡如人意,TuGraph 項目讓我們看到了中國企業在圖計算方面的巨大潛力。作為中國最早研究圖計算技術的企業之一,在工業界尚無成熟系統和典型落地場景時螞蟻集團就已經投入研發,并在如今構建起了世界規模領先的圖計算集群,打造了一流的大規模圖計算系統 TuGraph。
本次,螞蟻集團宣布將圖計算系統中的 流圖計算引擎 TuGraph-Analytics 正式開源。結合螞蟻圖計算領域其他項目的優異表現, 該引擎又將對開源領域及產業界帶來哪些價值?流圖計算領域“出走半生,歸來仍是素人”,到底是技術要求太高還是場景需求不大?AIGC 的興起對該領域的未來發展又會帶來哪些影響 ?
本文,InfoQ 采訪到了 螞蟻集團流式圖計算團隊負責人潘臻軒(花名:泰初) ,共同就上述問題展開探討。
最近幾年,隨著國際上開源生態的不斷壯大,服務于開源事業的機構日益增多。基金會和企業日益成為開源發展中最重要的構成部分。海外開源商業閉環已經得到驗證,頭部科技企業紛紛通過資源、資本、組織等形式賦能開源,這也在很大程度上 加速了中國開源賦能環的發育和成長,國內基礎軟件領域的開源版圖得以不斷完善 。
注:圖片來自 InfoQ 研究中心《中國開源發展研究分析 2022》
與此同時,InfoQ 研究中心也觀察到: 開源項目的落地場景已經從原來的互聯網領域向金融、工業等領域轉移,這背后是因為中國市場數字化浪潮的不斷涌動,各領域的數字化升級被提上日程,開源的價值進一步被放大 。在這個過程中,金融、工業等領域暴露出的需求進一步反哺了開源項目社區發展,這是一個良性循環。
具體到流圖計算領域,以金融場景為例,日益增長的用戶規模和逐漸升級的攻擊手段,讓信貸風控、反洗錢、反欺詐、資金追蹤的難度越來越高,而圖技術因為可以通過拓展風險特征維度來提升如上關鍵環節的風險防范能力而廣受關注。根據 Gartner 的預測,到 2025 年,圖技術將應用于 80% 的數據和分析創新,能夠促進企業的快速決策,這也表明未來將會有越來越多與數據相關的領域和企業應用圖技術解決問題。
那么,流圖計算技術到底是如何解決問題的?這樣一個很多人印象中的“小眾”領域為何會被 Gartner 如此看好 ?
事實上,流圖計算是流式計算和圖數據模型的交叉領域。雖然很多人對這個名詞感到陌生,但對流式計算和圖計算應該有所耳聞。
流,指的是流式動態變化的數據流,一般動態的數據流有實時的日志流,或者數據庫的變化日志。流式計算最早源于 80 年代學術圈關于流式實時計算的研究,隨著大數據的興起,流計算逐漸演進成大數據的一個獨立分支,基于流式計算可以很好地提升數據計算的實效性,能夠基于實時的數據進行決策分析,業內比較熟知的流式計算引擎,比如 Flink。
圖論最早起源于哥尼斯堡的七橋問題。數據結構的圖由頂點的集合和邊的集合構成。在我們現實生活當中,圖無處不在,比如資金網絡、關系網絡等。
注:哥尼斯堡的七橋問題
隨著大數據的興起,Google 推出了大規模圖計算系統 Pregel, 并基于此進行 PageRank 算法的計算,來獲取網頁權重。
流圖計算繼承了流式計算和圖計算的優點,一方面它基于流式實時的數據進行處理,另一方面它構建在實時數據之上構建圖模型進行計算,但同時技術挑戰也更高了。
采訪中,泰初表示,根據螞蟻集團的應用實踐和來自金融風控等多個場景的應用反饋,流圖計算的價值在螞蟻集團內部得到了廣泛的認可,但因為其有一定的技術門檻,并需要更加復合型的人才,導致今天看起來似乎依舊“小眾”,螞蟻集團希望通過開源的方式降低門檻,讓生態更加繁榮,讓流圖計算技術更加普惠。
注:螞蟻自研的工業級流式圖計算引擎 TuGraph Analytics
經過六年的技術積累、半年多的準備和內部開源技術委員會評審,TuGraph-Analytics 最終被螞蟻集團定為 A 級項目(該級別意味著公司將會投入眾多資源支持項目的持續運營)正式開源。
注:TuGraph-Analytics 的開源路線圖
很多人因為看見,所以相信。如今,螞蟻集團想辦法讓更多人不僅能看見流圖計算的價值,還能實際感受到。根據泰初的介紹,項目開源后會給出大量文檔,后期也會做很多公開課等運營動作。目前, 開發者根據案例十分鐘就可以運行一個簡單的 demo,初步體會該項目的價值 。
根據團隊的經驗,假定資源同等,TuGraph-Analytics 相較于 Spark GraphX 等傳統方式可以將風控時效性從小時級降到秒級。對于 數據模型天然適合圖模型,同時希望能夠更快看到圖計算的價值的應用,流圖計算引擎 TuGraph-Analytics 是更加合適的選擇 。
開源地址: /TuGraph-family/tugraph-analytics
對外界來說,開源只是一個動作。但對螞蟻集團流圖計算團隊來說,這是不斷踩坑、不斷進化的結果。
螞蟻集團對流圖計算的探索大致可以分為三個階段: 創業階段、規模落地、持續優化 。
在創業階段,反套現成為團隊遇到的第一個挑戰 。在花唄反套現場景中,并不是每一筆交易或回款行為都需要進行套現行為的識別,需要先進行一定的規則處理。比如,基于實時統計交易的筆數或者回款金額,在滿足一定的條件后才開始進行子圖的迭代計算。最后,基于圖的迭代計算結果,在進行后續數據鏈路的處理后再提供給在線使用。因此,一個場景在完整的計算鏈路中,需要流計算和圖計算兩種計算范式的融合計算。
當時的流圖計算團隊僅僅只有兩名成員,探索了一年多的時間才將該技術在內部初步落地。“雖然公司在這個過程中沒有給我們太多壓力,這也特別感謝螞蟻對前沿技術探索的接受度和包容度,但其實個人壓力是非常大的。”
在規模落地階段,團隊雖然在不斷壯大,但是也迎來了一場“技術大考”。 2018 年的雙 11,流圖計算做到了在大促極端流量高峰情況下,動態識別超過六度關系鏈(隱蔽性強)的異常資金風險,這一風控能力在當時的業界非常領先。
“ 那時,我們從 6、7 月份就開始和業務同學一起閉關籌備雙 11,內部做了幾輪流量壓測,包括極端情況下的解決方案全部討論完畢才確定推到雙 11。 ”
在那以后,越來越多的業務方希望通過部署流圖計算技術解決來問題。此時,團隊又迎來了難題:怎么把門檻降得再低一些,讓業務方可以最低成本用起來。團隊開始和中臺聯動,通過支持特定的中臺(比如風控中臺、知識圖譜等)快速覆蓋一類場景用戶,從而讓更多的業務用起流圖計算。
當解決這些問題之后,螞蟻流圖計算踏入第三個階段——持續優化 。2020 年前后,隨著圖在螞蟻應用的越來越廣,體系化的建設給團隊帶來了很大的挑戰。于是他們將流圖的能力從兩邊延伸提供了離在線一體化的能力,使得用戶可以基于一套 DSL 支持基于離線的數據進行實驗,并在隨后的時間內針對計算框架、存儲引擎等做了持續性優化,這些工作未來也都將通過開源的方式貢獻給社區。
目前,流圖計算在螞蟻內部及產業界得到廣泛應用,比如金融風控 (支付風控、信貸風控、基礎安全風控)、知識圖譜 (商戶圖譜、資金圖譜、企業圖譜)、會員社交 (新春五福、親密支付、會員增長) 以及數據應用 (資金基線、數據血緣、歸因分析) 等百余場景。
基于流式動態圖構建的資金云圖項目實現了長周期萬度資金流轉分析,且支持秒級還原資金路徑,成功解決了金融場景下因資金鏈路復雜,導致風險分析難、識別率低、時效性差等業界難題。
發展至今,螞蟻集團已經形成了完備的圖計算版圖,彼此能力互補 。比如 TuGraph-DB 作為圖數據庫,主要應用場景是數據管理和查詢。TuGraph-Analytics 作為流式圖計算引擎,偏重于流式實時圖的分析和計算。在解決業務問題時,二者一般聯動運行,比如基于 TuGraph-Analytics 進行實時數據分析,并將分析之后的數據寫回到 TuGraph-DB,提供查詢服務。
注:螞蟻圖計算平臺 TuGraph 已達世界領先水平
不難看出,開源并非一時興起,而是基于豐富的技術積累和場景磨練 。在看到價值之后,團隊第一時間就選擇開源,讓 TuGraph-Analytics 快速賦能整個行業,從而更好地助力整個行業的數字化升級。
從產業視角來看,當前流圖計算還處于起步階段。TuGraph-Analytics 這類項目的開源,可以更好地讓產業各方參與到流圖計算方向的建設,同時也會出現更多解決方案推動整個行業更好地發揮流圖計算的價值。
AIGC 的火爆讓每一個領域的從業者都開始重新評估自身所從事的工作會發生哪些變化。這樣的技術革新,流圖計算團隊同樣關注到了。采訪中,泰初表示初步判斷這對流圖計算領域是利好的,可以進一步降低用戶的交互門檻。未來,用戶有望通過自然語言的方式直接獲取想要的信息,團隊圍繞此也做了初步規劃。即便不談 AIGC,流圖計算領域未來也會越來越熱鬧,因為圖本身能夠解決更多復雜問題。
從標準化層面來看,該領域的標準正在被逐步建立,比如圖的查詢語言之前一直沒有相關標準,但最近兩年已經有相關組織在牽頭做這件事情,其他方面也是如此。隨著技術的成熟和標準的建立,產業實踐路徑漸趨清晰。我們有理由相信,流圖計算領域未來可期。
嘉賓介紹
潘臻軒 ,螞蟻集團資深技術專家,現螞蟻流式圖計算團隊負責人。2012 年加入阿里集團數據平臺,2016 年加入螞蟻集團數據技術部,經歷了阿里和螞蟻實時計算從 0 到 1 的演進,從 2017 年底開始負責流式圖系統和團隊的構建,從 0 到 1 打造了螞蟻的流式圖系統,對實時計算和圖計算以及上層的應用場景有深入的理解。
相關閱讀 :
《中國開源發展研究分析 2022》
《螞蟻圖數據庫再獲 LDBC 權威測試世界第一》
《坐擁多個 TOP 級開源項目,不搞“競爭性開源”,螞蟻在玩一種很新的開源》
《未來幾年,圖計算或許是一條很好的賽道》
嘉賓 | 潘臻軒(花名:泰初)
編輯 | 趙鈺瑩
流圖計算,一個基礎軟件領域攻堅難度極高的分支。行業首個工業級流式圖計算引擎 TuGraph-Analytics,與目前世界范圍內有記錄的、最快的圖數據庫開源項目 TuGraph DB 來自于一家中國企業,這不僅僅解決了國產基礎軟件領域的一大難題,健全了開源生態,更重要的是向全球展示了中國的開源力量。
Linked Data Benchmark Council(LDBC,關聯數據基準測評委員會)是全球公認的圖數據庫領域基準指南制定者與評測機構,與 TPC 并稱為國際數據庫行業兩大權威技術組織。 在這樣一個全球權威的榜單上,螞蟻集團的 TuGraph 項目截至目前已 多次高居榜首 ,并不斷在打破由自己創造的世界紀錄 。
長久以來,中國企業在基礎軟件領域的攻堅進程不盡如人意,TuGraph 項目讓我們看到了中國企業在圖計算方面的巨大潛力。作為中國最早研究圖計算技術的企業之一,在工業界尚無成熟系統和典型落地場景時螞蟻集團就已經投入研發,并在如今構建起了世界規模領先的圖計算集群,打造了一流的大規模圖計算系統 TuGraph。
本次,螞蟻集團宣布將圖計算系統中的 流圖計算引擎 TuGraph-Analytics 正式開源。結合螞蟻圖計算領域其他項目的優異表現, 該引擎又將對開源領域及產業界帶來哪些價值?流圖計算領域“出走半生,歸來仍是素人”,到底是技術要求太高還是場景需求不大?AIGC 的興起對該領域的未來發展又會帶來哪些影響 ?
本文,InfoQ 采訪到了 螞蟻集團流式圖計算團隊負責人潘臻軒(花名:泰初) ,共同就上述問題展開探討。
最近幾年,隨著國際上開源生態的不斷壯大,服務于開源事業的機構日益增多。基金會和企業日益成為開源發展中最重要的構成部分。海外開源商業閉環已經得到驗證,頭部科技企業紛紛通過資源、資本、組織等形式賦能開源,這也在很大程度上 加速了中國開源賦能環的發育和成長,國內基礎軟件領域的開源版圖得以不斷完善 。
注:圖片來自 InfoQ 研究中心《中國開源發展研究分析 2022》
與此同時,InfoQ 研究中心也觀察到: 開源項目的落地場景已經從原來的互聯網領域向金融、工業等領域轉移,這背后是因為中國市場數字化浪潮的不斷涌動,各領域的數字化升級被提上日程,開源的價值進一步被放大 。在這個過程中,金融、工業等領域暴露出的需求進一步反哺了開源項目社區發展,這是一個良性循環。
具體到流圖計算領域,以金融場景為例,日益增長的用戶規模和逐漸升級的攻擊手段,讓信貸風控、反洗錢、反欺詐、資金追蹤的難度越來越高,而圖技術因為可以通過拓展風險特征維度來提升如上關鍵環節的風險防范能力而廣受關注。根據 Gartner 的預測,到 2025 年,圖技術將應用于 80% 的數據和分析創新,能夠促進企業的快速決策,這也表明未來將會有越來越多與數據相關的領域和企業應用圖技術解決問題。
那么,流圖計算技術到底是如何解決問題的?這樣一個很多人印象中的“小眾”領域為何會被 Gartner 如此看好 ?
事實上,流圖計算是流式計算和圖數據模型的交叉領域。雖然很多人對這個名詞感到陌生,但對流式計算和圖計算應該有所耳聞。
流,指的是流式動態變化的數據流,一般動態的數據流有實時的日志流,或者數據庫的變化日志。流式計算最早源于 80 年代學術圈關于流式實時計算的研究,隨著大數據的興起,流計算逐漸演進成大數據的一個獨立分支,基于流式計算可以很好地提升數據計算的實效性,能夠基于實時的數據進行決策分析,業內比較熟知的流式計算引擎,比如 Flink。
圖論最早起源于哥尼斯堡的七橋問題。數據結構的圖由頂點的集合和邊的集合構成。在我們現實生活當中,圖無處不在,比如資金網絡、關系網絡等。
注:哥尼斯堡的七橋問題
隨著大數據的興起,Google 推出了大規模圖計算系統 Pregel, 并基于此進行 PageRank 算法的計算,來獲取網頁權重。
流圖計算繼承了流式計算和圖計算的優點,一方面它基于流式實時的數據進行處理,另一方面它構建在實時數據之上構建圖模型進行計算,但同時技術挑戰也更高了。
采訪中,泰初表示,根據螞蟻集團的應用實踐和來自金融風控等多個場景的應用反饋,流圖計算的價值在螞蟻集團內部得到了廣泛的認可,但因為其有一定的技術門檻,并需要更加復合型的人才,導致今天看起來似乎依舊“小眾”,螞蟻集團希望通過開源的方式降低門檻,讓生態更加繁榮,讓流圖計算技術更加普惠。
注:螞蟻自研的工業級流式圖計算引擎 TuGraph Analytics
經過六年的技術積累、半年多的準備和內部開源技術委員會評審,TuGraph-Analytics 最終被螞蟻集團定為 A 級項目(該級別意味著公司將會投入眾多資源支持項目的持續運營)正式開源。
注:TuGraph-Analytics 的開源路線圖
很多人因為看見,所以相信。如今,螞蟻集團想辦法讓更多人不僅能看見流圖計算的價值,還能實際感受到。根據泰初的介紹,項目開源后會給出大量文檔,后期也會做很多公開課等運營動作。目前, 開發者根據案例十分鐘就可以運行一個簡單的 demo,初步體會該項目的價值 。
根據團隊的經驗,假定資源同等,TuGraph-Analytics 相較于 Spark GraphX 等傳統方式可以將風控時效性從小時級降到秒級。對于 數據模型天然適合圖模型,同時希望能夠更快看到圖計算的價值的應用,流圖計算引擎 TuGraph-Analytics 是更加合適的選擇 。
開源地址: /TuGraph-family/tugraph-analytics
對外界來說,開源只是一個動作。但對螞蟻集團流圖計算團隊來說,這是不斷踩坑、不斷進化的結果。
螞蟻集團對流圖計算的探索大致可以分為三個階段: 創業階段、規模落地、持續優化 。
在創業階段,反套現成為團隊遇到的第一個挑戰 。在花唄反套現場景中,并不是每一筆交易或回款行為都需要進行套現行為的識別,需要先進行一定的規則處理。比如,基于實時統計交易的筆數或者回款金額,在滿足一定的條件后才開始進行子圖的迭代計算。最后,基于圖的迭代計算結果,在進行后續數據鏈路的處理后再提供給在線使用。因此,一個場景在完整的計算鏈路中,需要流計算和圖計算兩種計算范式的融合計算。
當時的流圖計算團隊僅僅只有兩名成員,探索了一年多的時間才將該技術在內部初步落地。“雖然公司在這個過程中沒有給我們太多壓力,這也特別感謝螞蟻對前沿技術探索的接受度和包容度,但其實個人壓力是非常大的。”
在規模落地階段,團隊雖然在不斷壯大,但是也迎來了一場“技術大考”。 2018 年的雙 11,流圖計算做到了在大促極端流量高峰情況下,動態識別超過六度關系鏈(隱蔽性強)的異常資金風險,這一風控能力在當時的業界非常領先。
“ 那時,我們從 6、7 月份就開始和業務同學一起閉關籌備雙 11,內部做了幾輪流量壓測,包括極端情況下的解決方案全部討論完畢才確定推到雙 11。 ”
在那以后,越來越多的業務方希望通過部署流圖計算技術解決來問題。此時,團隊又迎來了難題:怎么把門檻降得再低一些,讓業務方可以最低成本用起來。團隊開始和中臺聯動,通過支持特定的中臺(比如風控中臺、知識圖譜等)快速覆蓋一類場景用戶,從而讓更多的業務用起流圖計算。
當解決這些問題之后,螞蟻流圖計算踏入第三個階段——持續優化 。2020 年前后,隨著圖在螞蟻應用的越來越廣,體系化的建設給團隊帶來了很大的挑戰。于是他們將流圖的能力從兩邊延伸提供了離在線一體化的能力,使得用戶可以基于一套 DSL 支持基于離線的數據進行實驗,并在隨后的時間內針對計算框架、存儲引擎等做了持續性優化,這些工作未來也都將通過開源的方式貢獻給社區。
目前,流圖計算在螞蟻內部及產業界得到廣泛應用,比如金融風控 (支付風控、信貸風控、基礎安全風控)、知識圖譜 (商戶圖譜、資金圖譜、企業圖譜)、會員社交 (新春五福、親密支付、會員增長) 以及數據應用 (資金基線、數據血緣、歸因分析) 等百余場景。
基于流式動態圖構建的資金云圖項目實現了長周期萬度資金流轉分析,且支持秒級還原資金路徑,成功解決了金融場景下因資金鏈路復雜,導致風險分析難、識別率低、時效性差等業界難題。
發展至今,螞蟻集團已經形成了完備的圖計算版圖,彼此能力互補 。比如 TuGraph-DB 作為圖數據庫,主要應用場景是數據管理和查詢。TuGraph-Analytics 作為流式圖計算引擎,偏重于流式實時圖的分析和計算。在解決業務問題時,二者一般聯動運行,比如基于 TuGraph-Analytics 進行實時數據分析,并將分析之后的數據寫回到 TuGraph-DB,提供查詢服務。
注:螞蟻圖計算平臺 TuGraph 已達世界領先水平
不難看出,開源并非一時興起,而是基于豐富的技術積累和場景磨練 。在看到價值之后,團隊第一時間就選擇開源,讓 TuGraph-Analytics 快速賦能整個行業,從而更好地助力整個行業的數字化升級。
從產業視角來看,當前流圖計算還處于起步階段。TuGraph-Analytics 這類項目的開源,可以更好地讓產業各方參與到流圖計算方向的建設,同時也會出現更多解決方案推動整個行業更好地發揮流圖計算的價值。
AIGC 的火爆讓每一個領域的從業者都開始重新評估自身所從事的工作會發生哪些變化。這樣的技術革新,流圖計算團隊同樣關注到了。采訪中,泰初表示初步判斷這對流圖計算領域是利好的,可以進一步降低用戶的交互門檻。未來,用戶有望通過自然語言的方式直接獲取想要的信息,團隊圍繞此也做了初步規劃。即便不談 AIGC,流圖計算領域未來也會越來越熱鬧,因為圖本身能夠解決更多復雜問題。
從標準化層面來看,該領域的標準正在被逐步建立,比如圖的查詢語言之前一直沒有相關標準,但最近兩年已經有相關組織在牽頭做這件事情,其他方面也是如此。隨著技術的成熟和標準的建立,產業實踐路徑漸趨清晰。我們有理由相信,流圖計算領域未來可期。
嘉賓介紹
潘臻軒 ,螞蟻集團資深技術專家,現螞蟻流式圖計算團隊負責人。2012 年加入阿里集團數據平臺,2016 年加入螞蟻集團數據技術部,經歷了阿里和螞蟻實時計算從 0 到 1 的演進,從 2017 年底開始負責流式圖系統和團隊的構建,從 0 到 1 打造了螞蟻的流式圖系統,對實時計算和圖計算以及上層的應用場景有深入的理解。
相關閱讀 :
《中國開源發展研究分析 2022》
《螞蟻圖數據庫再獲 LDBC 權威測試世界第一》
《坐擁多個 TOP 級開源項目,不搞“競爭性開源”,螞蟻在玩一種很新的開源》
《未來幾年,圖計算或許是一條很好的賽道》
[責任編輯:linlin]
標簽: