郵件地址賣到暗網!壞人學到了AI怎麼辦?

最近半年,博主經常受到信用監控的警告。剛看到警告比較緊張,還以爲信用卡信息被盜。仔細一看,說是電子郵件地址被放到了暗網上售賣。暗網是什麼,聽名字就不舒服:存在於黑暗網絡覆蓋網絡上的萬維網內容,只能用特殊軟件、特殊授權、或對電腦做特殊設置才能訪問。簡而言之,上面的東西一定是見不得陽光的地方。

 

有人會說,不過只是一個電子郵件地址,本來就是公開的,實在是不知道危害多大。直到我最近經常收到這樣的郵件騙局,才終於想通了壞人用電子郵件地址的幹什麼。主要用來“釣魚”。

 

我收的騙子電子郵件是一個要求我付款的paypal收款請求。不仔細一看,還以爲是誰給我付錢的鏈接。要是再不小心點幾下,估計就把錢送給別人了。

 

 

 

 

利用郵件地址來騙錢的招數,其實屢見不鮮。最著名的就是尼日利亞王子郵件騙局。郵件有可能這樣的內容:

 

聲稱某人(或你的某個遠方親戚)逝世,而對方需要你提供你的個人資料及銀行戶口號碼,以便把死者的遺產存入你的戶口裏。有時,他們甚至會聲稱要借用你的戶口來作資產轉移,並承諾會以所轉移的資產的某個比例作爲報酬。

 

雖然上面的內容漏洞百出,但是就在美國,去年這個類型的騙局仍然騙取了接近100萬美元收入。

 

 

 

 

 

騙子的把戲雖然簡單,但是確實是大數據的精彩應用。首先用比較低廉的價格收集各種電子郵件地址,數量可能巨大。然後再花點錢買個郵件羣發軟件。編輯好內容,點擊羣發。最後坐等收入到賬。這個中招的比例可能非常非常低,但是架不住郵件數量巨大,總會有幾個上當受騙的人。最終收入只要比花的錢多,這個收入就是可持續的!

 

 

 

怎麼樣,這個是不是和現在的搜索引擎,各大流量網站的廣告技術差不多?唯一不同的是,大網站會用到各種統計,人工智能技術不斷學習,不斷優化,儘可能的讓每一個廣告頁面被更多的人點擊。而,壞人,希望,他們還沒有學會這一套,或者沒有足夠的數據來進行這樣的和優化。如果那樣的話,損失財產的人會更多。

 

就怕流氓有文化!

 

 

來,咱們看看專業人士是怎麼操作的。(壞人我都不告訴他)。

 

一個重要的優化指標叫做 CTR (click-through rate,點擊率),這個是百度,頭條,微軟,谷歌等各大公司挖空心思都要提高的指標。就是一個廣告頁面擺在一堆人面前,到底多少人會去點擊。點擊纔算錢,點擊就是真金白銀。

 

 

從人工智能和機器學習的角度看,哪些是用來預測的重要特徵呢? 舉例如下:

 

 

  1. •  日期: 20160320
  2. •  小時: 14
  3. •  周天: 7
  4. •  IP地址: 119.163.222.*
  5. •  地區: 英國
  6. •  城市: 倫敦
  7. •  國家: 英國
  8. •  廣告平臺: Google
  9. •  域名: yahoo.co.uk
  10. •  網址: http://www.yahoo.co.uk/abc/xyz.html
  11. •  操作系統: Windows
  12. •  瀏覽器: Chrome
  13. •  廣告圖片大小: 300*250
  14. •  廣告 ID: a1890
  15. •  用戶標籤: 運動, 電子

 

 

上面就是廣告點擊預測的常見特徵,其中最後一項關於用戶本身的特點肯定時候更重要的。對一個用戶越瞭解,廣告投放就越精準有效。所以各大網站和app爲了留住用戶,瞭解用戶,肯定是做了不少的努力。你的每一次網絡行爲都一定被留存起來,非常有用。這也是用戶和網站app的博弈,是隱私分界線最爲麻煩的地方。可以想象,要是這些信息被壞人利用,造成的財產損失會有多大。

 

回到技術本身,傳統的處理這些特徵的方法,是用One-Hot Binary的編碼方式去處理這類數據,例如現在有三個域的數據X=[Weekday=Wednesday, Gender=Male, City=Shanghai],其中 Weekday有7個取值,我們就把它編譯爲7維的二進制向量,其中只有Wednesday是1,其他都是0,因爲它只有一個特徵值;Gender性別有兩維,其中一維是1;如果有一萬個城市的話,那City就有一萬維,比如上海這個取值是1,其他是0。

 

因此這種處理方法造成的模型困難是巨大,因爲編碼維度太大,沒有足夠多的數據根本沒有辦法有效預測。

 

因此對特徵進行embedding(嵌入)是行之有效的辦法。就是我們需要將非常大的特徵向量嵌入到低維向量空間中來減小模型複雜度,而FM(Factorisation machine)無疑是被業內公認爲最有效的embedding model , 如下所示:

 

 

上式中,第一部分是邏輯迴歸logistic regression,第二部分是通過兩兩向量之間的點積來判斷特徵向量之間和目標變量之間的關係。比如一個遊樂園的廣告,職業=學生和城市=上海這兩個向量之間的角度應該小於90,所以他們之間的點積應該大於0,說這兩項因此和該遊樂園廣告的點擊率是正相關的。這種算法在推薦系統領域應用比較廣泛。而上面式子表達的關係其實就是深度學習神經網絡能夠比較簡單捕捉的關係。 因此深度學習算法在廣告推薦算法中運用非常廣泛。

 

今天咱們談廣告推薦的技術就簡單聊到這裏,真心希望,壞人不要學會這一套,大家平時也要注意自己的隱私數據安全。

更多精彩文章,請關注我(gongzhonghao):

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章