機器學習在互聯網應用面臨的 10 大挑戰

1: “數據稀釋性”:訓練一個模型,需要大量(標註)數據,但是數據往往比較稀疏。比如,我們想訓練一個模型表徵某人 “購物興趣”,但是這個人在網站上瀏覽行爲很少,購物歷史很少,很難訓練出一個 “meaningful model” 來預測應該給這個人推薦什麼商品等 …

2:“不平穩隨機過程產生的數據”:機器學習模型往往假設數據的產生是 “平穩隨機過程”。但是有些互聯網數據(比如 spam 郵件,spam 網站等)的產生是動態的,不平穩隨機過程 …

3~4:高數量和高質量 “標定數據” 是機器學習效果的保障,但是獲取標定數據需要耗費大量人力和財力。而且,人會出錯,人有主觀性。如何獲取高數量和高質量標定數據,或者用機器學習方法只標定 “關鍵” 數據 (active learning) 值得深入研究 …

5:”Scalability” 是互聯網的核心問題之一。搜索引擎索引的重要網頁超過 100 億: 如果1臺機器每秒處理1000 網頁,需要至少100天。所以出現了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分佈式計算構架。選擇什麼樣的計算平臺,和算法設計緊密相關 …

6:“速度” 是互聯網核心的用戶體驗。線下模型訓練可以花費很長時間:比如,Google 某個模型更新一次需要幾千臺機器,大約訓練半年時間。但是,線上使用模型的時候 要求一定要 “快,實時 (real-time)” …

7: 互聯網 每時每刻 都在產生大量新數據,要求模型隨之不停更新,所以 “online learning” 是機器學習的一個重要研究方向。人也是一樣: Life is an online learning process … “online learning” 也是人最重要的能力之一

8:“Cold- Start” (冷啓動) 是互聯網應用的典型問題:一個好互聯網產品,用的人多,得到的數據多;得到的數據越多,模型訓練的越好,產品會變得更好用,用的人就會更多 … 進入 “良性循環”。對於一個新產品,在初期,要面臨數據不足的 “冷啓動” 問題 …

9: 機器學習之美在於對於不同的問題需要不同建模方法。我去給講座的時候,經常聽有人說:“SVM 做過,Naive Bayes 做過 … 但效果不好”;做過很簡單,但能否 “做到極致”? 這個世界你能想到別人想不到的事情概率極低,只有一件你花十倍努力做到極致的事情!

10:“Human + Machine” 機器學習應用在一個特定領域,需要特定領域的專家知識:機器學習應用在 “醫學”,需要一個經驗豐富的醫生;應用在 “股票”,需要一個有10年以上經驗的操盤手;應用在 “互聯網”,需要一個上網時間超過 1萬小時的 PM …



轉自:http://9.douban.com/subject/9403236/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章