量化派基於Hadoop、Spark、Storm的大數據風控架構

  本文轉載自CSDN

  量化派是一家金融大數據公司,爲金融機構提供數據服務和技術支持,也通過旗下產品“信用錢包”幫助個人用戶展示經濟財務等狀況,撮合金融機構爲用戶提供最優質的貸款服務。金融的本質是風險和流動性,但是目前中國對於個人方面的徵信行業發展落後於歐美國家,個人消費金融的需求沒有得到很好的滿足。

  按照央行最新數據,目前央行徵信中心的數據覆蓋人口達到8億人[1],但其中有實際徵信記錄的只有3億人左右,有5億人在徵信系統中只是一個×××號碼。此外,我國還有5億人跟銀行從來沒有信貸交易關係,這5億人對金融部門來說是陌生人。這樣算下來,有徵信記錄的人只佔到全國人口數的23.7%,遠低於美國徵信體系對人口85%的覆蓋率。如何在信用記錄缺失的情況下,做好個人用戶的風險定價,是個棘手的難題。量化派通過基於機器學習和互聯網化的風險定價,整合互聯網及傳統數據源,對個人在消費金融應用場景裏的信用風險進行評估。這篇文章就主要介紹一下量化派的大數據平臺,以及機器學習在量化派的應用。

  一、互聯網化的風控創新

  量化派及“信用錢包”的核心任務是讓用戶可以憑藉其良好的信用,而無需抵押或者擔保就可以貸款。也就是說,用戶僅憑信用即可開啓財富之門。爲了達到這個目的,信用錢包需要把用戶個性化的需求與信貸產品信息精準匹配到一起。在幫助用戶找到合適自己的信貸產品的同時,也幫助信貸產品公司找到了最合適的貸款用戶,從而實現信貸消費者和信貸產品提供者的雙贏。爲了確保貸款的高成功率,爲了更好的掌握用戶需求以及對個人進行信用評級,我們需要大數據平臺的支持。

  目前,可以接入央行徵信中心的金融機構僅僅只有銀行、持牌照的第三方徵信服務商以及部分地區的小貸公司,絕大多數的P2P平臺還無法接入央行的徵信數據,這無疑加大了P2P平臺的風控難度。在徵信思路上,傳統徵信是用昨天的信用記錄來判斷今天的信用價值,這未見得就是最合理的。在徵信技術上,傳統的方法是從線下采集信用數據,效率比較低。可以說,傳統的線下徵信技術限制了數據來源和信用評估思路,而互聯網的技術、工具和思維則具備了改變這一切的可能性。迴歸到徵信的本質,其實就在於解決兩方面問題:信用能力和信用意願,換而言之,即解決個人的還款能力和還款意願,再追根溯源一點,即解決壞賬和逾期兩個問題[2]。

  量化派公司基於大數據的用戶徵信和傳統徵信殊途同歸,所不同的是,傳統徵信中,數據依賴於銀行信貸數據,而大數據徵信的數據並不僅僅包括傳統的信貸數據,同時也包括了與消費者還款能力、還款意願相關的一些描述性風險特徵,這些相關性描述風險特徵的抽取與篩選是量化派的技術核心。相比於傳統徵信數據的強相關性,這些大數據徵信的數據與消費者的信用狀況相關性較弱,量化派就利用大數據技術,通過用戶授權等方法蒐集了更多的數據維度來加強這些弱相關數據的描述能力。這樣就使大數據徵信不依賴於傳統信貸數據,就可以對傳統徵信無法服務的人羣進行徵信,實現對整個消費者人羣的覆蓋[3]。我們的數據來源如下圖所示:

  量化派的數據來源

  二、量化派的大數據平臺架構

  量化派的信用錢包每天都會獲取大量的用戶註冊信息等結構化數據以及爬蟲抓取的非結構化數據,還有第三方的接入數據,系統運行產生的日誌數據等等,數據的形式多種多樣,如何保護好、利用好這些數據,是公司重中之重的任務。量化派的業務也決定了公司是數據驅動型的。爲了更好的滿足公司日益增長變化的業務,在大數據平臺建設中全面擁抱開源的基礎上,進行了不停迭代設計,對數據平臺中採用的開源軟件進行了深度應用開發,同時還開發了很多契合業務需求的工具軟件,很好的支撐我們去實現普惠金融的理想。量化派公司的數據平臺架構如圖二所示。

  量化派的數據平臺架構

  相比我國的網民數量,信貸用戶只佔其中的一小部分,所以我司產品的用戶基數並不是非常大,但是,爲了給信貸用戶更準確的信用評級,對於每個信貸用戶我們都會從多個渠道獲取大量的有效數據,這些數據聚合起來也是海量數據規模。公司發展伊始,幾乎將所有的數據都存放在Mysql關係數據庫中,工程師使用標準SQL語句來存儲或者調用數據資源。Mysql很快就遇到了性能瓶頸,雖然可以通過不停地優化整個Mysql集羣以應對數據的快速增長,但是面對複雜的數據業務需求,Mysql顯然無法提供最優的解決方案。所以我司最終決定將數據遷移到大數據平臺上,Mysql僅用來存儲需要經常變化的狀態類數據。除了系統運行日誌直接存放在HDFS之中,大量的數據利用HBase來進行管理。HBase中的數據按照不同的數據源存放在不同的表中,每張表按照業務和存儲需求對rowkey進行精心設計,確保海量數據中查詢所需數據毫秒級返回。

  根據業務的不同特點,對於常規的數據ETL處理,我們使用MapReduce[4]框架來完成;BI和數據挖掘這些工作都放到了Spark[5]上。這樣一來,依賴不同任務或不同計算框架間的數據共享情況在所難免,例如Spark的分屬不同Stage的兩個任務,或Spark與MapReduce框架的數據交互。在這種情況下,一般就需要通過磁盤來完成數據交換,而這通常是效率很低的。爲了解決這個問題,我們引入了Tachyon[6]中間層,數據交換實際上在內存中進行了。而且,使用了Tachyon之後還解決了Spark任務進程崩潰後就要丟失進程中的所有數據的問題,因爲此時數據都在Tachyon裏面了,從而進一步提升了Spark的性能。Tachyon自身也具有較強的容錯性,Tachyon集羣的master通過ZooKeeper[7]來管理,down機時會自動選舉出新的leader,並且worker會自動連接到新的leader上。

  多維度的徵信大數據可以使得量化派可以融合多源信息,採用了先進機器學習的預測模型和集成學習的策略,進行大數據挖掘。不完全依賴於傳統的徵信體系,即可對個人消費者從不同的角度進行描述和進一步深入地量化信用評估。公司開發了多個基於機器學習的分析模型,對每位信貸申請人的數千條數據信息進行分析,並得出數萬個可對其行爲做出測量的指標,這些都在數秒之內完成。

  三、不同場景的機器學習方法

  上部分說到量化派首先需要對用戶進行信用風險的評估,爲了讓用戶可以僅憑信用,而無需抵押和擔保就可貸款成功。美國有着很完善的徵信體系,以及成熟的信用評估系統。通過幾十年的發展,美國的三大徵信局[8]對85%的公民有着詳細的信用記錄:包括信用卡,房貸,以往的住址,工作等情況都有記錄在案。而且在找工作,租房時候也會查詢個人信用記錄,如果有違約等不良行爲也會反饋給徵信局。Fair Issac公司的FICO評分是業界應用最爲廣泛的評分,是建立在詳細的個人徵信記錄上的預測系統。FICO從最開始的用圖表畫出的評分,到後來演化爲logistic regression類的迴歸算法,用來預測用戶在未來一段時間內違約的可能性。近年來,在predictive analytics 方面的發展,deep learning 在supervised learning裏面得到了廣泛應用。

  中國由於在徵信方面的數據缺失,需要通過更爲自由的模式來創新和跨越式發展。宜信[9]作爲國內最大的P2P機構,擁有多年的業務積累,以及一流的風控團隊。傳統上是通過線下風控的手段,對用戶進行詳盡的背景調查。收集用戶的資料例如他們有的曾提交過信用報告、聯繫人信息、教育水平、工資單、銀行流水等一系列傳統徵信數據。這樣的貸款審覈流程耗時較長,貸款申請人往往需要少則幾天,多則數月的等待。時間成本過大,流程繁瑣,是用戶痛點所在,造成了潛在貸款用戶的大量流失。提高審覈效率,優化貸款流程,把申請人貸款體驗做到極致,最終做到極速放貸是大勢所趨。

  到目前,宜信也開始從傳統的線下業務,開始往線上做業務拓展,宜信的瞬時貸通過大數據進行實時授信,用戶授權系統讀取信用卡賬單郵箱、電商、運營商相關記錄信息,得到有關你性格、消費偏好的個人畫像。同時進行交叉驗證形成風控機制,進而計算出每一個用戶的風險評分,最終判斷是否應該放款,以及該用戶的授信額度、還款週期等並最快達到10分鐘放款。另外,螞蟻金服的芝麻信用[10],根據個人淘寶、支付寶等交易數據以及其他授權數據,對個人進行信用評分。芝麻信用綜合考慮了個人用戶的信用歷史,行爲偏好,履約能力,身份特質,人脈關係等五個緯度的信息得出的。於此同時,騰訊系的騰訊徵信都會考慮到一些信貸之外的一些信息。除了微信支付、QQ錢包綁定的銀行卡外,騰訊還能夠從更大範圍獲取數據,比如很多銀行都在微信上開通了公衆號,向用戶發送消費數據;微信的社交狀況也能夠對個人的資質進行有效的評估。

  量化派對用戶的信息整合也包括了用戶的社交信息,不光包含了用戶的畫像(性別、職業、愛好等等),也包含了用戶之間的關係。如果說每個人是圖中的一個節點,那麼人與環境所形成的關係就是兩點間的線。當把點和線綜合起來分析時,我們對個人的性格特徵、信用狀況、財富屬性都會有更深層、更全面的理解。

  Google 的 PageRank 算法考慮到了web頁面的相關性來提高頁面的質量,例如權重高的頁面指向鏈接的頁面對應的權重相對來說會比較高。類似來說,信貸風險低的用戶的常用聯繫人的小圈子,個人資質的也應該是比較好的。

  另一個方面,信用錢包需要把用戶個性化的需求與信貸產品信息精準匹配到一起。幫助用戶找到合適自己的信貸產品,實現信貸消費者和信貸產品提供者的雙贏。我們對信貸產品向用戶做了基於協同過濾的和基於產品信息匹配的推薦。在對用戶做了較爲準確的信用評價之後,我們的分發平臺(如圖三所示)會根據貸款用戶的貸款需求來分派給相應的貸款產品,這樣就出現了一個客戶面對多款信貸產品的情況。我們會根據批貸額度、貸款利率、承諾放款速度等因素在多個信貸產品中選出最適合用戶的產品。

  分單平臺系統

  四、美國的風控系統案例

  打造一流的風控系統不是光靠數據分析師團隊能夠做到的,整個風控是需要在公司的DNA裏面。美國的Capital One是最早利用大數據分析來判斷個人借款還款概率的公司,本文的作者都曾經在Capital One 工作過,並在金融危機發生的時候也在那邊,目睹了他是如何發展壯大成第五大銀行的。在危機開始的時候,非常果斷的把有潛在問題的GreenPoint Mortgage整體出售,並在危機發生的時候,謹慎挑戰風險政策來控制風險,並在危機發生的時候以非常低廉的價格收購華盛頓地區的Chevy Chase 銀行, ING Direct, HSBC Card北美分部。並完善其LocalBanking, Global Lending的策略。

  Capital One的風控系統是通過多年的積累和演變而形成的。CapitalOne 的 Analytics 部門裏面分爲幾個種類,Data Analyst, Business Analyst, Statistician/Modeler. 不僅僅是分析師專注的做模型,做風控來對模型進行大數據分析。所有的決策者,包括商務的總監,運營副總等,所有的決策都會有大量的數據分析,模型策略做支撐。

  Capital One在各個業務部門都有很多的決策引擎和模型來支撐。在獲取用戶時,根據不同的業務線prime, subprime, 汽車金融等,有專門的 customer model,risk model等。在用戶關係管理方面,有cross-sell model, customer contact model等。除此還有專門的反欺詐模型,包含identify-fraud model, payment fraud model等等。不同的業務線有着這麼多種類的模型,對於這些模型的監管也都是有一套系統的流程的。對於每個模型,模型開發人員會對模型開發寫出詳細的文檔,有着一套類似於code review, unit test的檢驗機制。公司層面,部門設有專門的中高級別scoring officer (模型官),負責定期對模型進行監管和監測。除了對於整體模型的效果的監管,整體評分的分佈的穩定性;還包括在變量層面的監管,監測模型的重要變量的穩定性。Capital One 用到的大量徵信局的數據和在自身平臺上沉澱的用戶數據,根據以往的用戶的個人行爲和違約記錄,建立的用戶風險決策模型對用戶進行評估,模型的效果會比FICO分數高40%以上。

  面向個人消費的風控體系的搭建是一個長期的,系統的工程。在中國目前的市場情況,缺失的個人信用風險和高速發展的互聯網金融,以及未被滿足的普惠金融需求是十分矛盾的。移動互聯網時代的到來,對個人風險評估帶來了嶄新的視角。大數據平臺和機器學習的結合能夠帶來多樣化的創新,量化派的使命就是通過這兩者的結合來服務互聯網金融機構,降低全行業的風險。、 

 

  本文作者:王倪,量化派聯合創始人

  於博,量化派大數據架構師
 

  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章