大數據技術在P2P監測系統的應用和實踐

【摘 要】:近年來,隨着互聯網金融行業的迅猛發展,P2P平臺數量激增如雨後春筍般涌現,雖然推動了互聯網金融生態系統的形成並促進了金融服務的繁榮。但是由於缺乏對互聯網金融行業風險的有效控制,導致P2P行業屢屢發生倒閉、跑路、兌付危機等負面事件,不但使廣大金融投資者損失慘重,也擾亂了國家的金融秩序,給社會帶來了不安定因素。
互聯網金融協會爲了全面、及時掌握P2P行業發展情況, 監控P2P機構運營風險,行使的監管職能,制定和發佈了相關的監管制度和措施,在一定程度上保證了P2P行業的健康發展。爲了適應P2P行業和快速發展,引入信息系統的技術支持勢在必行。而傳統的報表模式和傳統的數據庫技術已經越來越不適應現在的實際需求。
在P2P監測系統中採用了大數據技術。通過大數據技術的應用,能夠直接分析企業的生產的最明細的數據,能夠更加直觀的分析出整個行業的發展趨勢和前景。從而爲整合行業的發展和相關決策提供更加有效的支撐。
【關鍵詞】 大數據、P2P網貸、風險監測
建設背景:目前,互聯網金融行業在迅猛發展的同時,其風險問題也逐漸突出。黨中央、國務院高度重視互聯網金融規範發展和風險防範工作。2015年7月,經黨中央、國務院同意,人民銀行等十部委聯合印發《關於促進互聯網金融健康發展的指導意見》(銀髮〔2015〕221號),正式確立了互聯網金融基本業務規則和監管安排,並明確了中國互聯網金融協會作爲國家行業自律組織的功能定位。
中國互聯網金融協會,作爲由中國人民銀行會同銀保監會、證監會等國家有關部委組織建立的國家級互聯網金融行業自律組織,啓動開展新的互聯網金融監管服務平臺建設工作,扭轉某些業態偏離正確創新方向的局面,防範互聯網金融風險,建立行業規範發展長效機制具有緊迫性、必要性。
在系統建設之初,運營信息表中數據粒度非常大,按照各分類進行無法細分,從而無法進一步去研究整個行業的發展趨勢和發展動向。同時運營信息表更新時效性比較差,機構的月報報送週期一個月以上,不能及時準確的實現對相關信息的統計,難以及時的發現問題。
在數據處理方面也存在問題,首先,數據孤島情況較多,各系統數據未實現統一存儲、統一管理;其次,數據規模急劇增長,從GB級到TB級乃至PB級。傳統的數據庫系統可擴展能力不足,無法進行海量數據處理;另外,數據處理延時長,現有數據庫系統難以實現大規模運算。
原有的協會系統面對互聯網金融行業大量的行業監管服務業務,原有系統的業務處理能力和智慧化水平均與實際需要存在很大差距。服務類業務也急對服務業務進行體系劃分、梳理,以便提升用戶體驗。

P2P實踐回顧–功能架構:

爲能夠提供給監管部門實現對P2P行業有效提供信息支撐,P2P監測系統通過從各個維度採集相關數據功能上分爲總體概況、條件查詢、平臺查詢和靈活查詢四個功能模塊。
總體概況,主要從地區和時間區間維度統計P2P行業的平臺數量、交易金額、借款餘額、借款期限,收益率和借款人/出借人情況等。能夠通過不同的關鍵指標項,向監管部門展示整個P2P行業發展的情況。
條件查詢,主要從借款信息、還款信息、借款人信息、出借人信息四個維度提供監管部門更細顆粒度的各類指標查詢,便於監管部門及時發現和定位風險。
平臺查詢,主要通過篩選目標類型平臺,採集並統計P2P行業某個平臺的基本信息、經營信息、信息披露、數據比對、法律風險、經營風險、企業關聯、輿情信息。當監管部門定位到某個具體的P2P平臺時,該功能模塊能從各個維度向監管部門展示該平臺的綜合情況,爲監管部門決策提供依據。
靈活查詢,以P2P項目爲基礎,通過對P2P行業不同類型項目展開各個維度和各個指標靈活分析,幫助監管部門統計P2P行業的各項數據,有利於監管工作的有效開展,提升工作效率。
**

P2P實踐回顧–技術架構

**
數據採集層:採集方式主要通過SFTP方式進行數據採集和抽取,同大數據平臺數據直接對接,主要採集內部業務系統數據和第三方採購數據;
數據存儲計算層:採用分佈式存儲,方便快速擴展。數據存儲主要採用HDFS分佈式文件系統、Hive、MPP數據庫、內存數據庫、MySQL數據庫來支撐,主要實現大量數據高效、安全地長期保存,快速和簡單管理維護。結構化數據存儲採用了HIVE+MPP+關係型數據庫,HIVE數據庫主要用於數據的離線處理,而MPP作爲業務存儲,關係型數據庫用於統計結果保存和數據事務操作,非結構化數據存儲主要採用CEPH存儲方式。
服務應用層:主要是基於處理完成的數據進行加工,通過可視化圖形展現的方式分析各類指標,爲業務分析應用提供數據支撐。
在這裏插入圖片描述

P2P應用實踐回顧–基礎平臺建設

P2P監測系統項目建設自17年10月份啓動,在17年11月底完成正式部署上線,截止到目前,大數據平臺集羣規模達到20多個節點,初步實現了數據採集落庫到大數據平臺上,形成平臺+應用的建設模式,並上層應用提供了高效支撐;
其中在17年11月,搭建了基礎平臺2+10臺服務器,並部署MPP數據庫和數據治理工具,實現了工具化、配置化的開發能力,接着在18年10月,對大數據集羣又進行了硬件配置擴容,同時在18年11月擴充10個集羣節點,大大提升平臺計算能力和存儲能力。
P2P應用實踐回顧–數據採集匯聚
P2P監測系統依靠大數據平臺採集多種數據源,涵蓋網貸之家、統計系統、信息披露、舉報系統、產品登記、銀行存管、第三方採購(工商信息)、最高法(涉訴信息)等,同時制定數據採集流程規範,數據統一匯聚到大數據平臺。
1)數據採集結構如下圖所示:

2)P2P監測系統數據存儲情況:
數據內容 月增數據量 年數據量 年存儲容量
(關係型數據庫) 年存儲容量
(非關係型數據)
統計系統交易明細數據 192W條 2304W條 23G 69G
工商數據 12W條 144W條 14G 42G
涉訴數據 4.2W條 50.4W條 0.5G 1.5G
舉報系統 9.6W條 115.2W條 1.1G 3.3G
違規廣告 (結構化數據) 100W條 1200W 12G 36G
違規廣告(非結構化數據) 100W條 1200W 60T 180T
輿情數據 500W條 6000W條 60G 180G
平臺數據 192W條 2304W條 23G 69G
3)、數據加工處理情況:
流程名稱 單次加工消耗的時間 涉及最大表的數量級
風險監測合規風險 28小時 億級
風險監測法律風險 10分鐘 千級
風險監測工商和其他風險 11小時 千級
風險監控計算多頭數據 12天 億級
P2P監測系統建設成效總結
根據行業標準規範、法律法規等相關政策說明以及行業類的風險模型,編寫出《風險預警模型指標第三版改》文檔,通過大數據進行P2P風險評估,針對平臺上採集到P2P機構的生產級的明細數據,運用大數據技術精準的監測出每一筆業務的情況,初步實現風險預警模型建設,從而實現了以大數據爲基礎的監測分析系統,完善了P2P行業徵信體系。
P2P監測系統建立了多維數據風險預測模型,在採集到機構上報明細級數據之後,從機構數據上報、業務分析、異常數據判定、機構風險監測這四個角度集中的體現大數據技術在相關實際使用場景中的合理運用。從而更早和更加精準的預防行業風險,爲整個行業發展做出重要價值。
P2P監測系統建設成效—機構數據上報
上報數據是實現監管的基礎,沒有一個合理數據上報就無法辦法做到準確數據分析。從上報的角度來監管行業的實際發生情況,從機構上報的角度也能從一定的程度上檢測出機構是否出現異常。從18年開始的產品登記推廣開始,就陸續監測到了一些P2P機構上報數據異常的情況,疑似出現經營風險問題。比如合力貸、口袋理財等相關機構出現異常情況頻率比較高。
機構上報數據基本模型如下:
在這裏插入圖片描述

P2P監測系統成效—業務分析

通過收集P2P機構的大量明細級的數據,能夠全面的分析機構的業務發生情況,能夠精準的分析。通過觀察機構上傳數據具體的業務分析,可以從平均數,最大值,最小值,中位數等基本的數論中得到一個相對客觀的評價。比如,合拍在線的平均項目的金額達到了3000多萬元,有比較大的嫌疑是虛假數據或者是異常數據。洋錢罐的出借人數達到了6000多萬人,佔比超過整個行業的2/3,也有比較大的異常數據的可能。通過觀察具體機構的上報的業務情況,能夠發現一些機構的異常行爲。從而能夠提前預知機構的發展狀況。
P2P監測系統成效—異常數據判定
通過觀察機構上報的明細級數據的關鍵指標能夠比較清楚的發現機構的異常情況。以團貸網在2018年上報的數據爲例,分析上報數據,從借款餘額,借款金額,借款人數和平均借款利率分析,發現業務波動十分明顯,同時在2018年8月和2018年9月幾乎無業務發生,每個月的出借人數的最大值和最小值的佔比達到了200倍以上,借款金額和對位的比值比較大,2018年1月借款金額於借款餘額比爲25%,而2018年2月到2018年5月的比值範圍爲50%到70%之間,出現了比較大的波動,說明該機構在1月的以後還錢的項目出現了明顯的減少。
通過分析問題機構的數據,不斷地總結業務風險模型和異常數據模型,完善整個行業的檢測水平。當風險模型和問題數據模型總結的足夠多的時候就能夠更好的檢測行業的發展。

P2P監控測系統成效—機構風險監測

借款個人分析:從個人的經營方向分析劃分爲P2P個人借款專題。個人借款的領域中,80%以上的借款金額爲5000元以下的借款,14%是5000-5萬元的借款,3%是5萬-20萬元,20萬以上佔比在0.3%左右。可以看出大部分機構對外的的個人借款都是小額借款,大額借款的項目佔比非常的少。從借款週期來看,45%的借款週期都在1年到2年之間,34%的借款在1年以內,其他的佔比都比較小。可以看出大部分的機構的項目都是短期借貸關係。從出借利率和機構利率來看,在出借人端32%的利率在8%一下,39%的利率在8%-12%之間,21%的利率在12%-18%之間,剩餘3%超過18%。從利率分佈來看大部分的出借人的出借利率水平在一個較高的水平,大部分出借人的收益都比較高。在機構端2%的利率在8%一下,19%的利率在8%-12%之間,32%的利率在12%-18%之間,22%的利率在18%-24%之間,18%的利率在24%-36%之間,5%的利率在36%之上。從利率分佈來看大部分的機構的出借利率水平在一個高水平。從出借的用途來看,53%是個人消費業務,22%是個人經營業務,15%是資金週轉,其他等佔比在8%左右。
自然人逾期分析:目前協會收錄的數據顯示,2018年機構上報的數據中有1460萬筆數據出現了逾期的情況,涉及到的借款餘額達到356億元,平均每筆借款金額是4720元。從逾期的的自然人借款情況可以看出絕大部分的逾期是借款用途爲個人消費和小額借款,在機構借款的利率爲8%-12%,18%-24%,24%-36%的出現逾期的風險比較大,相對來說12%-18%出借利率的項目出現風險的概率小一些。相對借款期限來說,6個月以下的逾期的情況相對於其他的借款期限來說出現逾期的風險小一些。相對來說個人經營業務和資金週轉出現風險的概率會小一些。通過分析各個項目不同的屬性,能夠對機構發佈的標的設計的安全性有這一個比較基礎的指導。
借款企業分析:截止目前協會收錄的2018年數據,2018年全年企業借款金額爲836億元人民幣,借款餘額爲231億。總的借款筆數爲15萬筆以上。有效的解決了企業在資金週轉中的問題,促進了企業更好的發展。從企業的角度來說,目前企業在借款和個人借款有着明顯的差別。從借款金額上看,企業借款在平均每筆借款金額達到55萬元左右。同時借款的中位數在20萬到100萬之間。企業對於資金量有着比較大的需求。企業在借款週期中1個月-6個月的佔比達到了48%。可以看出企業的經營有着比較明顯的短期性。 借款中企業週轉和企業經營達到了70%左右。可以發現企業在經營的過程中會很大的情況下遇到經營資金出現問題的情況,可以看出企業對於金融的需求量十分的巨大。同時也可以看出企業借款的利率普遍比較高。

P2P監測系統下一步規劃

隨着業務快速增長,爲提高獨立計算能力和存儲能力支撐業務快速發展和數據快速增長的需要,對未來平臺進行系統規劃:在基礎硬件層面上,在合適時機進行集羣擴容提升平臺的存儲能力和計算能力;在系統架構層面上,優化現有集羣架構,實現 MPP集羣同Hadoop計算集羣獨立拆分,減少資源爭用提升集羣性能,同時引入新組件新技術;在業務應用層上,對風險模型不斷優化升級,適應新業務變化,提升業務支撐服務水平。

發佈了15 篇原創文章 · 獲贊 6 · 訪問量 2866
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章