機器學習在互聯網應用面臨的 10 大挑戰

原創

2018-09-03 23:55

1： “數據稀釋性”：訓練一個模型，需要大量（標註）數據，但是數據往往比較稀疏。比如，我們想訓練一個模型表徵某人 “購物興趣”，但是這個人在網站上瀏覽行爲很少，購物歷史很少，很難訓練出一個 “meaningful model” 來預測應該給這個人推薦什麼商品等 …

2：“不平穩隨機過程產生的數據”：機器學習模型往往假設數據的產生是 “平穩隨機過程”。但是有些互聯網數據（比如 spam 郵件，spam 網站等）的產生是動態的，不平穩隨機過程 …

3～4：高數量和高質量 “標定數據” 是機器學習效果的保障，但是獲取標定數據需要耗費大量人力和財力。而且，人會出錯，人有主觀性。如何獲取高數量和高質量標定數據，或者用機器學習方法只標定 “關鍵” 數據 (active learning) 值得深入研究 …

5：”Scalability” 是互聯網的核心問題之一。搜索引擎索引的重要網頁超過 100 億: 如果1臺機器每秒處理1000 網頁，需要至少100天。所以出現了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分佈式計算構架。選擇什麼樣的計算平臺，和算法設計緊密相關 …

6：“速度” 是互聯網核心的用戶體驗。線下模型訓練可以花費很長時間：比如，Google 某個模型更新一次需要幾千臺機器，大約訓練半年時間。但是，線上使用模型的時候要求一定要 “快，實時 (real-time)” …

7：互聯網每時每刻都在產生大量新數據，要求模型隨之不停更新，所以 “online learning” 是機器學習的一個重要研究方向。人也是一樣: Life is an online learning process … “online learning” 也是人最重要的能力之一

8：“Cold- Start” (冷啓動) 是互聯網應用的典型問題：一個好互聯網產品，用的人多，得到的數據多；得到的數據越多，模型訓練的越好，產品會變得更好用，用的人就會更多 … 進入 “良性循環”。對於一個新產品，在初期，要面臨數據不足的 “冷啓動” 問題 …

9：機器學習之美在於對於不同的問題需要不同建模方法。我去給講座的時候，經常聽有人說：“SVM 做過，Naive Bayes 做過 … 但效果不好”；做過很簡單，但能否 “做到極致”? 這個世界你能想到別人想不到的事情概率極低，只有一件你花十倍努力做到極致的事情！

10：“Human + Machine” 機器學習應用在一個特定領域，需要特定領域的專家知識：機器學習應用在 “醫學”，需要一個經驗豐富的醫生；應用在 “股票”，需要一個有10年以上經驗的操盤手；應用在 “互聯網”，需要一個上網時間超過 1萬小時的 PM …

轉自：http://9.douban.com/subject/9403236/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習在互聯網應用面臨的 10 大挑戰

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Hash學習（1）-Hash表的表大小

Java查漏系列（1）——JVM

全文檢索原理

bitmap解析

hadoop學習筆記（1）開發環境

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結