楠姐技術漫話:圖計算的那些事

⭐️halo,大家好,初次見面~我是楠姐~‍‍

⭐️近期受到一些優秀公衆號啓發,我希望嘗試用一些新的方式,寫一種很新的技術分享。以輕鬆詼諧的口吻,在自己的公衆號上進行一些技術科普和分享~‍‍‍‍‍‍‍‍‍‍

⭐️本來文章是發在廠裏內部的技術論壇的,後來受到很多同事鼓勵,嘗試發在自己的朋友圈,探索一些之前自己沒做過的事情~‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

⭐️本篇算是開篇和試水,效果好的話,楠姐會努力將技術科普系列文章繼續做下去,而且如果是公衆號的話,還可以在技術之外,探索一些新的話題,爭取做成一個具有個人特色的系列文章和原創IP~還望大家多多捧場哦~


---  ---

不知道大家在平時的搬磚生涯中

有沒有聽說過“圖計算”這個名詞

但大家一定在工作彙報、技術科普中聽說過

“智能化”,“人工智能”這樣的字眼

而我們今天要嘮的這個圖計算

就是人工智能領域內近幾年炙手可熱的前沿寵兒

也是在風控反欺詐領域中常用的“大殺器”

在瞭解圖計算之前

首先得了解什麼是“

我們今天所說的圖

其實是用於表示對象之間關聯關係的一種數據結構

具有很強的抽象性和靈活性

在結構和語義等方面具有很強的表示能力

正是由於圖結構豐富的表現力

在現實生活中有很多可以表示爲“圖”的例子

例如社交網絡道路網金融交易

從事於研發或者算法相關的小夥伴們都知道

我們常用的機器學習和深度學習算法

大多都是用於處理一些規整、有序,或者結構化的數據

比如矩陣、圖片、文本、序列等

且所處理的數據都是被假設是獨立同分布的

然而圖上的節點都是自然相連

這也就表明節點之間不是獨立的          

此時,今天我們要提的圖計算就來了

它的核心正是爲了將數據建模爲圖結構

並解決如何將問題解法轉化爲圖結構上的計算問題

當算法任務涉及到多個體之間關聯分析時

圖計算往往能夠使得問題能很自然地

表示爲一系列對圖結構的操作和計算

但是圖計算所需要解決的問題多種多樣

難以使用一套計算模式解決所有的問題

接下來我們就來系統地盤一盤

關於圖計算的那些事兒

--- ---

比如,藉助邊是否有方向

圖可以分爲有向圖無向圖

藉助邊是否有權重

圖還能分爲有權圖無權圖

藉助圖中的點和邊是否具有多種類型

圖又能分爲同構圖異構圖

還有,藉助圖結構和圖信息是否隨時間變化

圖能分爲靜態圖動態圖

”和“鄰居

是涉及圖節點的兩個重要概念

節點的“度”是指的與之相連的節點個數

如果是有向圖,還會區分“入度”、“出度”

節點的“鄰居”則是指與之相連的其他節點

關於圖的表示

還有幾個基礎概念是不得不提的

一個是“鄰接矩陣

用於量化表示節點之間的邊關係

還有就是“節點特徵”和“邊特徵

用於表徵節點和邊的特有數值屬性

無論多麼複雜的圖算法模型

都是基於這些基本概念進行的

提一個關於圖的最基本的問題——節點表徵問題

就是如何基於以上的圖的信息和屬性

對圖中的節點或者邊進行量化表示

在CV和NLP任務中

我們會設計CNN和RNN模塊

來建模圖像像素點和文本文字表徵的信息

在圖的表徵學習中也是一樣的思路

有了合理的節點向量表示

我們就可以探索各類下游任務

比如進行節點分類

找出那些擁有特殊表現或屬性的節點

或者進行社羣劃分

找出那些聚集性最強、相似性最高的節點集合

另外,還可以進行鏈接預測、子圖劃分等各種下游任務

想借助圖計算做什麼

完全取決於你的實際需求

看到這裏

就可以恭喜你

你已經入門圖計算了

--- ★ ★ ---

圖計算其實並不是新興的算法

對它進行歷史溯源的話

歐拉被認爲是人類歷史上最偉大的數學家之一

由於他對哥尼斯堡七孔橋問題的描述

圖論學科便繼而產生

在哥尼斯堡的一個公園裏

有七座橋將普雷格爾河中兩個島與河岸連接起來

歐拉於1736年研究並證明了此問題

他把問題歸結爲“一筆畫”問題

並證明一筆畫的走法是不可能的

在他的研究過程中

就把問題中的陸地與橋分別抽象爲點和邊

並形成了一個簡單的拓撲圖

引出了關於圖的基礎概念

在那之後,出現了圖論的一個早期應用

——地區渲染(染

隨着15—17世紀大航海時代的到來

以及法國大革命之後民族國家概念的興起

世界各國都開始繪製更高精度的地圖

而繪圖中如何用最少的顏色

來保證相鄰的兩個區域(國家、州、省)

用不同的顏色區別開來

這個問題就是個經典的圖論問題

19世紀中葉

數學家們以手工計算的方式證明了“五色地圖”的問題

而直到整整一個世紀之後的1976年

纔在計算機的算力的幫助下初步證明了“四色地圖”的可行性

並通過圖計算優化後

以四色圖取代了五色圖

以上地圖上色問題是數學中典型的NP完全問題

例如導航、資源調度、搜索和推薦引擎

然而這些場景所對應的大數據框架及解決方案

在最開始

並沒有真正意義上使用原生化的圖存儲與計算模式

換句話說,人們依然在用列數據庫

甚至文檔數據庫來解決圖論問題

低效低維的工具被用來強行解決複雜高維的問題

那麼它的用戶體驗可能很差或者是投入產出比極爲糟糕

最近幾年,隨着互聯網的發展

知識圖譜逐步深入人心

圖計算和圖數據庫的發展纔開始重新受到重視

近半個世紀,也有很多圖計算的算法問世

包括1956年出現的知名Dijkstra算法

研究解決了圖的最短路徑問題

更復雜的各類社區發現算法也應運而生

用於檢測社區、客羣、嫌疑人之間的關聯

就是將圖中的每一個頂點都表示成一個低維向量

並使該向量能夠儘可能多的保存圖的結構和內容信息

並可以作爲特徵用於後續的學習任務

如節點分類、鏈接預測等

這些工作針對同構圖、異構圖、屬性圖、動態圖等不同類型的數據

提出了各式各樣的方案

包括經典算法 DeepWalkLINENode2Vec 

這些算法的基本思路是基於隨機遊走生成數據

然後通過訓練優化參數

產生概率模型

將經典神經網絡模型如 RNN、CNN等擴展到了圖數據上

與圖表徵學習試圖學習出每個點的向量不同

圖神經網絡的目的其實是學習出聚合函數

所有點通過同一個函數就可以利用局部信息計算出自身的表徵

即使是圖結構發生變化,甚至是完全新的圖

也能用原來的函數計算出有意義的結果

有關圖神經網絡,也已經誕生了一系列經典算法

--- ★★★ ---

最後,說些關於圖計算的實際應用吧

當下許多大型互聯網企業、金融科技公司

其實都離不開圖計算技術

Google創始人Larry Page在20世紀末發明的PageRank

這是一種大規模頁面、鏈接排序的算法

可以說,早期谷歌的核心技術就是一種淺層的併發圖計算技術

還有Facebook,它的技術框架的核心是它的Social Graph

即朋友關聯朋友再關聯朋友

由此臉書建立了強大的社交關係網絡

臉書開源了很多東西

但是這個核心的圖計算引擎與架構從未開源過

如果你能回憶起2007-2008年爆發的世界金融危機

萊曼兄弟公司破產

當時高盛集團能全身而退

背後的真實原因是應用了強有力的圖數據庫系統——SecDB

‍‍‍‍

而對於所有技術驅動的新型互聯網公司

比如Paypal、易趣和許多我們國內的金融和電子商務公司

圖計算也並不罕見

圖的核心競爭力可以幫助他們揭示出數據的內部關聯

最近十年以來

隨着以深度學習爲代表的人工智能技術廣泛應用

圖學習逐漸成爲了一個熱點話題

也在因果關係、可解釋性方面取得了突破進展

現在,圖學習也已進一步擴展應用

比如廣告金融風控智能交通醫療智慧城市等各個領域

那就最後再說些金融反欺詐中的圖計算應用例子

在金融、電商等涉及金錢交易的領域

總是不乏活躍在其中以謀取非法利益的黑產

比如薅羊毛刷單套現虛假交易

相比起個別用戶自身偶發的套利行爲

那些以團伙爲單位在各業務場景下聚集操作作案的黑產團伙

他們的行爲會對平臺造成更大更嚴重的經濟損失

而圖計算正是識別團伙性案件的良方妙藥

通過將萬千賬號、商戶、設備、網絡環境等作爲節點

將註冊、交易等關鍵信息作爲關聯信息連邊

即可形成一個覆蓋範圍極廣的異構圖

再結合不同的應用背景確定識別目標

並挑選圖計算模型、樣本、標籤等

即可進行一次有監督學習的圖訓練

最終在推理階段對圖中的節點或邊進行其風險水平的概率輸出

那就會有小夥伴說了

風控場景高質量樣本標籤太少了

問題不大,也有很多圖模型可用於無監督學習

比如社羣發現,就不需要任何標籤信息

即可將關聯最緊密的節點集合進行聚類

在我們的經驗裏

是識別黑產團伙最好用的圖算法之一

再比如近幾年熱門的自監督學習對比學習

應用於圖計算領域則可以對圖進行無監督預訓練

從圖結構、圖屬性自身的性質出發

爲圖節點學到具有良好表徵能力的向量

可用於下游的各類風控智能模型中

--- ★★★★ ---

隨着近期AIGC大模型的爆火出圈

人工智能又迎來了新一波浪潮

相比生成式的語言和視覺模型

圖計算確實顯得冷門一些

但楠姐相信好飯不怕晚

沒有發光的日子都是在爲發光做準備

也許會有一天,圖計算也能迎來自己的熱搜



----寫在最後----

本篇文章前後耗時四十多天,終於完成,也算是楠姐自己幾個月前的想法終於實現。由於工程量龐大,過程中多次想鴿,但好在有小姜同學的支持,還是堅持了下來,完成了還不算完美的首篇。後續有時間,楠姐會繼續寫下去,爭取做成極具個人風格的系列文章。楠姐從事風控工作已有三年零兩個月,此篇文章也意在致敬自己的三年算法時光,致敬帶自己入行的大腿mentor Chen,致敬一直以來共同奮鬥的可愛的風控同事們~

本篇只是試水第一篇,非常可能存在不完美或者不嚴謹之處,敬請大家諒解,也十分感謝大家能耐心看到最後~

本篇文章圖片創意均只爲了說明及示意,且帶有一定誇張和幽默元素,切勿對號入座哦~如有雷同,純屬巧合~無意冒犯~

★ 楠姐出圖不易,且並非完美,請勿未經允許將本文原創圖片用於其他場合及目的。‍‍‍‍

本篇文章文字均根據以下參考文獻彙總撰寫:
[1]. 馬耀,湯繼良. 圖深度學習[M].電子工業出版社.
[2]. 張長水,唐傑,邱錫鵬[M]. 圖神經網絡導論[M].人民郵電出版社.
[3]. 知乎. 圖計算髮展簡史[EB/OL]. https://zhuanlan.zhihu.com/p/562893366
[4]. 百度. 大數據的基礎——圖計算的發展歷程[EB/OL]. https://baijiahao.baidu.com/s?id=1743913772591545506&wfr=spider&for=pc

本文分享自微信公衆號 - 京東雲開發者(JDT_Developers)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章