大數據徵信如何爲一個人建立數據肖像?

導語:每個人每天會產生無數的信息,徵信機構如何從這裏面抽絲剝繭找到有效的數據,又如何給每個數據設置合理的權重去建立模型?

“凡走過必留下痕跡”,大數據時代,你的一舉一動都在爲你建立一個電子檔案,從你有多少張信用卡、每個月消費多少、還款記錄如何到你喜歡瀏覽什麼網站、手機是什麼型號甚至IP地址對應的位置,有一萬多個詞條可以刻畫你的肖像,銀行在不需要跟你打交道的情況下可以靠這種數據肖像決定要不要給你放款、放多少合適。這就是大數據徵信。

每個人每天會產生無數的信息,徵信機構如何從這裏面抽絲剝繭找到有效的數據,又如何給每個數據設置合理的權重去建立模型?機器出現故障之後又如何修正?我們請到了在徵信上有多年經驗的嘉賓、冰鑑科技創始人兼CEO顧凌雲來爲我們解答。

顧博士是卡耐基梅隆大學計算機博士,畢業後在華爾街做對沖基金中高頻交易的算法工程師,兩年多後作爲創始成員加入 Zest Finance(一個美國的金融科技公司,主營業務是信用評分),顧博在 Zest Finance 全面負責模型組的研發工作,三年開發了6代模型;離開後去了 小微企業徵信和借貸的機構Kabbage 擔任首席數據科學家。顧總是徵信方面的權威專家,曾獲得過“中國徵信50人”的稱號。 

大數據徵信如何爲一個人建立數據肖像?| 硬創公開課

冰鑑科技創始人兼CEO 顧凌雲

以下是本次公開課的內容,顧凌雲口述,AI金融評論(微信號aijinrongpinglun)整理。

先想說一點有意思的題外話,我後面很可能都會直接用語音,但實際上現在所有這些文字,我也都是直接通過說話然後通過語音識別轉化成文字,這實際上就是機器學習和人工智能的一種應用。蘋果使用的Siri語音識別算法,有一部分就是我在卡內基梅隆大學時候博士階段論文的一部分工作,我舉這個例子的意思其實是想告訴大家,人工智能其實進入我們的生活已經有一段時間了,但實際上很多人工智能最終都需要通過人工來進行干預,所以實際上真正人工智能最具有挑戰的是它的最後1公里。

那爲什麼在開始這段語音轉變文字之後,我會直接使用語音?那就是因爲在最後的自然語言處理當中有一些小的問題語音識別和自然語言處理還不能完成,比如她/他的自動識別,專業單詞的準確判斷等等,所有這些問題其實在我們進行金融和徵信領域的工作當中同樣存在。

從數據獲取到“清洗”以及建模,到最終獲取客戶的整個流程裏最困難的部分,做大數據徵信的(技術或者商業)壁壘在哪裏?

很多人可能都會問我一個問題,那就是今天的徵信行業有這麼多人進入,逐鹿中原,它到底什麼時候會變成紅海?現在的藍海還有哪幾塊東西可以做?如果說是任何一家以技術起家的徵信公司,如果它們想要做得比較好的話,核心競爭力在哪裏?

實際上所有這些問題,最後都會歸結爲幾個不同的方面。在這裏,我可以簡單地介紹一下建立幾個好的模型的步驟:獲得數據之後,第一步是原始清洗——基於技術數據;第二步是變量選取;第三步變量整合,第四步單一模型的建立;第五步,五多模型建立。每一步中都有許多細節的工作需要完成。

如果今天市場上有100家徵信公司,那我可以肯定的說——100家號稱自己做徵信的公司中,80家是依靠於自己的特殊資源在做簡單的數據販賣的工作,通過自己獨特的渠道獲得獨特的數據,而些依託於自己本身特有場景所產生的數據源變成了目前市場上成爲絕對主力的徵信公司。真正依託技術做徵信的公司實際上並沒有那麼多。

而在我們看來,真正的徵信公司不僅僅是能夠產出原始底層數據,關鍵是應該根據原始數據所帶有的特質進行量化提純工作,並且最終這些可以體現在信用決策上。真正能完成這些的公司並不多,去掉那些販賣數據的公司,現在徵信公司剩下20%都不到。

而在這20%的公司當中,實際上又有很多公司並不是真正的我們意義上的第三方徵信平臺。實際上他們都是依託於自己本身所擁有的借貸環境——一方面在通過放貸積累數據,另一方面通過自己的建模工作同時提供徵信。這樣的商業模式並沒有問題,但是從某種角度來講,這樣的公司即扮演運動員的角色又扮演裁判的角色,但是在今後中國的徵信市場如何看待這樣以借貸起來的徵信公司,我想還是會有比較長時間的爭論。

很多人都會問,一個技術起家的公司,在數據清洗方面到底有什麼地方能跟其他公司做得不一樣的。 這一點上,我想分享一個有意思的應用場景,做機器學習,我們可以把幾乎所有的場景變成兩個類別Supervised learning(監督學習 ) 和Unsupervised learning(無監督學習)。在這兩個場景場景當中,當我們在進行無監督學習的時候,我們並不需要一個人還貸記錄這樣的好壞標籤,我們可以通過一些其他的變量,來判別和進行大的類別的劃分。而監督學習或者分類過程中,我們應該讓一開始機器先找到一部分找到好壞標籤新進行學習,然後再對新進人羣進行判斷。

在這樣的情況下,我們有必要先對建模的基本概念進行闡述,這樣我們才能知道對於數據的處理應該聚焦在什麼地方。首先,我們在進行有監督學習的時候,我們往往會在方程的兩邊進行判斷。而方程的左邊我們叫因變量,或dependent variable,是一個人在之前是否有過還貸記錄,也就是我們所謂的好壞標籤,而另外一邊是描述這個人各種各樣的信息,我們叫做自變量,也就是independent variable。

當我們做了這樣的定義以後,對於數據的處理就比較清晰了。我們或者要聚焦於對因變量進行處理,或者聚焦對自變量進行處理。

我們先從對於因變量的處理開始,大家可能都知道一個徵信公司到底能做的多好,他的數據量有多大是至關重要,而很多人遇到的瓶頸問題就是,他們很難蒐集到各種企業和個人進行還貸的歷史記錄,很少有企業能夠完成因變量大規模積累的工作。

這一項工作,在美國如果我們完全不需要人工智能或者機器學習的介入,最傳統解決辦法我們叫reject inference(拒絕推斷)。也就是,當我在這裏沒有辦法在自己的場景當中獲取其他人的好壞標籤的時候,我們往往會通過其他的徵信局或者其他的放貸機構,進行交換或者購買好壞標籤的形式來獲得。在中國初創徵信壞境中,這樣的方式十分困難,因爲大多數機構都想獲得別人的而不願意分享自己的。所以從這個角度來講,指望通過reject inference,通過別人的借貸來獲得信息就比較困難。

那些在機器學習當中,我們有什麼解決方法呢?有兩種:self-training and transdurant (SVM)。當我們明確知道有一些是好的和有一些人是壞的前提下,通過一個分類器對其他未知的變量的進行處理的過程中,能夠通過一些自適應的學習方法把在未知的人羣中把有明顯傾向的人分成好的和壞的。

在方程式的右邊,對於所有的自變量,我們有什麼方法處理?傳統意義上來講,我們獲得所有的變量之後,第一步是變量選取或者整合。而變量選取和整合,在統計和初步機器學習過程當中最常用的是stepwise (逐步迴歸),它分爲forward stepwise(前進逐步迴歸) 和backward stepwise(逐步後向算法 )。顧名思義,stepwise就是通過一個一個把變量拿出來和放進去的方式來決定哪個變量比較重要。

比如,現在我一共有10個變量,我並不知道哪一個好哪一個壞。最常用的方法是,我把10變量都留在裏面做一個模型,然後扔掉一個變量再做一個模型,然後再扔掉一個變量做一個模型,以此類推。大家就能看到,10個變量做的模型和9個變量做的模型相比較結果差異到底有多大。那麼以此類推,8個,7個都是一樣的。我們就能判斷每個扔掉的變量扮演的角色到底有多重要,從而判斷這是不是一個該留在模型的變量。

那麼問題來了,10個變量到底該先扔誰呢?

那麼在機器學習的過程中我們有一個新的方法叫lasso的方法來處理這個問題,它可以在多維度空間的方向中進行搜索,選擇哪些是重要的哪些是不重要的

在我講的這些對於數據清洗的過程,某種程度應該都是比較小的壁壘,能夠慢慢積累起來。實際上,還有很多方方面面的工作要做,(都可以形成壁壘)。

今後兩三年中,哪些徵信公司能夠存活下來?

在剛剛一開始的時候,我提到過,中國的徵信市場如果有100家徵信公司,80家公司都是做原始數據販賣的,真正以技術立足的不到20家。徵信領域很多人說數據爲王,很多人說技術爲王,二者誰會勝出呢?那我們可以借鑑一下美國的歷史,來看以後今後中國市場的走向。

我們先來看看,在徵信起步的過程中,數據都扮演了很重要的角色,如果沒有數據,建模就無從談起,更不要說用什麼方式建模。我要說的是,在今後徵信的發展過程中,數據的獲取是會越來越簡單,還是越來越難?

先來看一看,數據可以被分成什麼樣的大類。從我個人的看法,可以分爲兩類,一類是依託於公共環境或者政府的背景而產生和積累起來的,這一部分我們不妨叫做行政數據,比如說汽車註冊信息,學籍學歷,犯罪記錄等等。這些都是依託於政府或者公共設施積累起來的。 另外一些就是私營企業或者上市公司,通過自己獨有的生態圈產生出來的數據。

而在這樣的第二類的數據中最有代表的,應該就是阿里形成的自己獨有的生態圈中的電商數據,騰訊利用微信所形成的獨有的社交數據,或者騰訊和網易形成的遊戲數據。我們可以從另一個角度看一下今天百度的困境在什麼地方。

很早之前的時候,谷歌爲了擊敗Facebook專門製做了一款自己的應用叫Google+,就是爲了取代Facebook。當時FB還不大,Google爲什麼要這麼做?因爲Google早就看到了今天百度面臨的困境——那就是,大家進行百度搜索的時候都不會進行用戶名登錄,所有的特質信息,在百度的搜索引擎面前都是很蒼白的。但是,無論是你是使用阿里的電商或者騰訊的社交,都有很完整的個人信息和軌跡,所以不同的生態圈產生出來數據的價值是完全不同的。

那麼,這些數據隨着徵信的發現,獲取數據會變得越來越簡單還是越來越難呢?

第一類行政數據我相信今後會越來越簡單。不管是這屆政府要求大力發揮大數據的作用,還是萬衆創新大衆創業的大背景,或是一些要求打破信息孤島的行政命令也好,我們可以看到基於政府和公共設施的公共數據今後的獲取會變得非常的簡單。

如果兩年前就從事徵信這個行業,大家可能知道,那時候銀行想要購買工商的數據——在某一段非常熱的時期,一條最基本的關於企業的工商數據:僅僅包括法人是誰,什麼時候註冊,註冊資本,經營範圍,法人經營範圍註冊資本有沒有變更,僅僅這些信息,都不包括出資信息,股份比例,其他信息都是沒有的情況下每一條數據就可以賣到15塊錢。今天很多平臺可以免費查到這些信息,行政數據上向前買了一大步,而這一切是不以哪些主管官員的意志爲轉移的,願意或者不願意,他們都將慢慢打開信息孤島,把這些信息聯繫在一起。

另外一個角度來講,大家可能會問,那麼阿里騰訊爲代表的生態環境圈中的環境會開放嗎?他們肯定不會的對不對?是的,他們肯定不會公開這些數據。但是,從美國到中國到歐洲到拉丁美洲到日本,所有這些早期開始進行徵信的國家都證明了一點——就是數據的最終擁有者不是這些平臺的託管商而是數據的產生者。也就是說,誰擁有支付寶誰擁有微信,他們這些個體纔是數據的擁有者;而阿里微信他們僅僅的數據的託管平臺,也就是說他們無權拒絕在授權情況下這些數據對徵信供應商的使用。

總體來講,所有數據,無論是行政還是生態圈數據在今後隨着競爭激烈,一定不會出現有些人獨有一些數據有些人沒有的情況,最終可能是採購價格上的差異。不會是計算機1和0 的區別,頂多就是你5毛錢可以買到我只要4毛八的區別而已。

數據最後一定會成爲像期貨一樣是可以自由的交易,不會成爲徵信公司的壁壘。五年十年後,中國徵信領域如果還有誰是依靠獨有的數據獲得領導地位的話,這不僅僅可以說是中國徵信領域的悲哀,甚至都可以看做是改革開放努力的一個不算成功的標誌。

也就是說,單純依靠特定信息源上暫時處於領跑地位(或者暫時有一定利潤)的徵信機構,如果不對自己的技術進行改造,幾乎可以肯定,三四年後會是首批被市場淘汰的對象。

我認爲兩三年三五年後,能在徵信領域快速跑出來的公司,一定是像日本的匠人一樣擁有工匠精神,在技術積累、信息源的整合,在每一個細小環節都比對手領先10%或者15%的優勢來獲得的全面的領先地位,而一定不是單純通過在某一個環節通過獨有的信息源或者技術徹徹底底打到對方。

我的前同事李豐投資了“三隻松鼠”,也許很多人說賣堅果並不是什麼技術含量很高的工作,爲什麼三隻松鼠可以做到排名第一?三隻松鼠的客服稱用戶爲“主人”而不是“親”,聽起來有些滑稽,但他把用戶的感受又往好的地方提升了一步;它的產品袋子裏有一個垃圾袋、溼紙巾,可以讓你擦手、放垃圾,這些細小的東西本身都不能形成單一的競爭力,但是把這些因素揉和在一起,在各個微小的維度上發現三隻松鼠都和競爭對手拉開了差距

賣堅果是這樣,徵信其實也是一樣,我覺得要從競爭裏跑出來,企業的基本邏輯都是相似的。

下一個問題,我們到底怎麼才能判斷大數據真的對金融或者徵信行業提供了幫助?

我說一個故事,我們招人的時候,我們對於在機器學習上有沒有過硬背景是非常看重的,但這不是我們唯一考慮的因素。我們曾面試了好幾個美國最好的學校出來的博士生,我們給他們一組數據,讓他們在規定的時間返回結果,但不告訴他應該返回什麼結果,相反,我們讓他們自己定義到底什麼樣的結果纔是他們滿意的,爲什麼定義這樣的指標。

事實上,十個裏面有八九個都會用“準確率”來作爲衡量算法是否準確的唯一標識,但是,這樣的判斷標準在徵信領域是正確的嗎?我既然這麼問,顯然答案是不對的。

徵信的場景中,有哪些事情是我們看重的?

我舉個例子,有個人說他(放貸)批了10個人,有9個證明是好的,只有一個是壞的,他說他的準確率90%,你聽完後覺得他的算法是好的嗎?

那麼我會告訴你,這個答案不是簡單的是或者而不是,他有一件事沒有告訴你,真正的申請者可能有100個,其中99個是好人,只有1個壞人,而他把那唯一的一個壞人放到了批准名單裏。從這個角度,雖然他批准的10個人中準確率是90%,但我們還能說這個結果還是好的嗎?算法是好的嗎?

在徵信中,我們會把批准率和壞賬率結合起來,也就是在機器學習中把precision(精確率)和recall(召回率)結合起來,才能作一個綜合的判斷。

當然,徵信領域我們用得最多的是KS distance(KS距離),這是俄羅斯的兩位數學家名字的首字母。

在金融領域,什麼案例能證明機器學習有用?

我們很多模型都在金融機構的完成兩個維度中至少一個維度的提高,那就是我們可以在保證批准率相同的請胯下降低壞賬率,或者在相同的壞賬率的情況下提高批准率。現在中國的徵信剛剛起步,我們的模型在很多場景下可以既提高批准率又可以降低壞賬率,這不是一個長遠的情況。但總體而言,至少要做到單一維度上的提升,纔可以稱得上是一個好的金融科技公司。

下面一個問題,如何避免機器出錯?

早年我們自己開玩笑,機器學習到底是機器學人還是人學機器,明明是人在學機器,我在卡梅隆6年纔拿到我的博士學位,每天起早貪黑,科比說他看過洛杉磯凌晨4點的樣子,我說這有什麼稀奇的,我經常看到3點的匹茲堡。從我的經驗來看,不是機器在學習人,而是人在學習機器。

舉個例子,我們怎麼對機器的錯誤進行修正?回到變量的選取,變量的選取有很多方法,stepwise也好,lasso(逐步套索)也好,最終無外乎對每一個獨特的變量進行選取。可是,如果幾個變量柔和在一起形成一個新的變量,最終的結果是不是比一個單一變量更好?客觀上這是很有可能的,但我們怎麼才能做到?機器在早期的學習中是不能完成這一的工作的。

我舉個例子,我們獲得一個人過去十年搬家信息,十年搬了8次,我們如果單獨對變量進行選取,可能只能選取其中一次的搬家歷史,人工能發現這其中的問題,其次最好的辦法是對這些搬家的變量求一階導數,這十年他搬家是越來越快還是越來越慢,只有這樣的變量對我們的模型纔是有幫助的。

中美兩地對於金融科技的熱情以及各自面臨的狀況和創業者機會的差別是什麼?

中國過去幾十年都是以美國爲標杆,以抄襲美國獲得所謂“創新”。美國的Google,Facebook,ebay,亞馬遜,在中國都能找到門徒,這是過去的狀況。目前,中國的創新企業已經在改變這一的趨勢。

一個最簡單的感受,過去需要花3年時間才能抄的東西,現在3個月就能抄得比較像,有的特定領域美國要反過來學習中國。

原因我認爲有幾個:

  • 美國的金融業已經很成熟,主流和非主流金融人羣的需求都能被得到滿足,基本上沒有什麼需要改良的地方;中國的情況則是五大行高高在上,其他行在行政束縛下面很難邁動腳步。

  • 科技金融在美國沒有機會,在中國機會很大。P2P,美國就那麼兩家,而中國我們的P2P 3000家都不止,及時在銀監會和央行的聯手打壓下還有2000多家存活下來,可見這兩個地方金融環境是天差地別的。美國現在所有的數據商都很完整,大家選取數據商就能完成徵信工作,而中國很多地方需要自己把各個碎片的信息拼接在一起,而這也是我們徵信創業者的機會。

我手中沒有水晶球,沒有辦法準確預測中國徵信未來的樣子,但我有一點是可以確定的:

中國一定不需要幾百家徵信公司,即便這個市場比美國大很多,我想好的情況可能是有十幾家徵信公司這十幾家術業有專攻,主要分爲兩類,一類是因爲有積累了獨有的數據源而形成獨有場景的徵信公司,比如像阿里巴巴這樣的基於電商數據的電商徵信,或者順豐以快遞爲基礎的快遞徵信,等等——我比較大膽的預測,每個場景可能只有一家徵信公司能存活下來;第二類是跨領域跨平臺的徵信公司,可能有5到7家就差不多了。

最後一點,人工智能在徵信領域中有哪些運用?

我簡單舉兩個例子,第一個是深度學習。深度學習並不一定在所有金融領域中都有應用,其本質是需要有場景經驗來調優的更復雜的人工神經網絡。所以,實際上我們要做的是在缺乏有效的很多的好壞標籤的情況下,如何利用有效的人工神經網絡來做遞推和歸納。

那麼另外一點就是自然語言處理。當我們獲得一個企業的名字的同時,我們可以在全網對企業相關信息進行爬取,然後對所有文本進行精準機器學習的建模分析,然後在規定的時間中檢查其輿情反響,來進行徵信工作。在我看來,很多人工智能讀到的領域都可以討論,但深度學習和自然語言處理是最重要的。

精彩問答:

關於中國徵信今後的發展趨勢,您提到“好的情況是可能有十幾家徵信公司,這十幾家徵信公司術業有專攻”,您能再講一下十幾家徵信公司並存是什麼情形嗎?

我剛纔的想說的是這十幾家並存的徵信公司會分成兩類,一類是有因爲有積累了獨有的數據源而形成獨有場景的徵信公司,比如像阿里巴巴這樣的基於電商數據的電商徵信,或者順豐以快遞爲基礎的快遞徵信,等等。還有一個是跨領域或者跨界的,以第三方徵信平臺爲特色的徵信公司。

而跨界徵信平臺出現的原因是因爲積累了獨有的數據源的企業,雖然他們本身足夠強大,但也因此引起其他公司的警惕,以至於他們想和其他公司交換數據或者獲取其他公司的數據變得不可能,所以只有第三方徵信公司才能緩解這樣的問題。

說到機器出錯的問題,舉一個特定的例子,比如我們這種媒體從業者,因爲職業需要天天瀏覽P2P、套現等等的網站,機器會不會把我判斷爲信用狀況很差、償還能力很低的人?會怎麼修正?

這是有意思的問題。我想以“什麼數據最重要、最容易建模”的說法來回答這個問題。

很多人認爲,外圍的行爲數據能夠比較準確地說明一個人的還貸能力,而事實上並不是這樣子的。從機器學習建模的角度來說,所有的數據或者說獨立變量可以分爲三個部分:第一部分是核心金融數據,如經濟能力、經濟行爲是怎樣的,有沒有還錢等;第二是泛金融數據,比如住在什麼小區,購物消費記錄是怎樣;第三個纔是社交數據,比如網上瀏覽的鼠標軌跡如何。

但是,這三類數據的重要性是完全不一樣的,核心金融數據的重要性遠遠強於後面二者,而第三類所謂的網上行爲或者社交數據用來反欺詐或許有用,但用來判斷還貸能力是及其不靠譜的,所以說提問這個例子,會是衆多變量中放到模型去考慮的一個,但絕對不可能因爲這樣的情況而把償還能力拉低,或者判斷爲你的信用狀況很差。

對個人建立數據肖像,是不是意味着對一個團隊也可以建立數據肖像?這兩者的差異大嗎?

答案是肯定的。而個人徵信和企業徵信的差異,是在於當各個不同的團體產生後,數據的離散性,包括數據的可持續性都會是很有意思的問題,這些在建模過程中都會是不一樣的。

舉個例子,比如我們對一個餐館進行徵信,那麼這個餐館的成員就可以看成是一個小團隊,裏面有老闆、老闆娘,還有廚師、採購和服務員,但這個團隊中個體的差異很大,以及個體角色的重要性不同,就決定了我們建模過程中,方法就會遇到很多挑戰。比如自己的老闆小三上位,老闆娘從一個四川妹子變成一個湖南妹子,那麼這個餐廳的風味就有可能從一個川菜館變成湘菜館。從這個角度講,他們的經營數據就全部都改變了。

當我們回頭看,雖然是同一個老闆同一個餐廳,但實際上其經營模式、客戶羣體、菜單價等都改變了,在這樣的情況下,如果用對個人建立數據肖像的方法來對團體進行數據建模的話,就會有極大的差異。

雷鋒網原創文章,轉載請註明來源出處

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章