原创 機器學習特徵選擇

簡  介 據《福布斯》報道,每天大約會有 250 萬字節的數據被產生。然後,可以使用數據科學和機器學習技術對這些數據進行分析,以便提供分析和作出預測。儘管在大多數情況下,在開始任何統計分析之前,需要先對最初收集的數據進行預處理。有許多不同

原创 推薦 :如何正確選擇聚類算法?

聚類算法十分容易上手,但是選擇恰當的聚類算法並不是一件容易的事。   數據聚類是搭建一個正確數據模型的重要步驟。數據分析應當根據數據的共同點整理信息。然而主要問題是,什麼通用性參數可以給出最佳結果,以及什麼才能稱爲“最佳”。   本文適用

原创 微信讀書產品調研報告

在信息爆炸時代,還是有一些人通過閱讀書籍的方式靜下心思考,靜心提升自己的。而電子閱讀產品也是互聯網時代下的特色與產物,在競爭激勵的電子閱讀產品市場中,微信讀書也正憑藉着高質量的產品設計贏取用戶的稱讚與信賴。   微信讀書產品調研報告  

原创 漫畫:邏輯迴歸

  本節我們會以生動有趣的漫畫來介紹關於機器學習中機器進行數據分類的方法。 Dr.Wu: 小魚同學在舉手,你有問題嗎?     在實際問題中,我們不僅需要得出具體的預測數值,我們還需要將數據的類別進行判斷和分類。   我們拿小魚同學的

原创 京東電商推薦系統實踐

  今天爲大家分享下京東電商推薦系統實踐方面的經驗,主要包括: 簡介 排序模塊 實時更新 召回和首輪排序 實驗平臺 簡介 說到推薦系統,最經典的就是協同過濾,上圖是一個協同過濾的例子。協同過濾主要分爲倆種:user

原创 hive常用正則表達式

1、經緯度判斷 SELECT regexp('60.054845,30.324694','^([1-9]\\d*\\.\\d*|0\\.\\d*[1-9]\\d*){1}\\,([1-9]\\d*\\.\\d*|0\\.\\d*[1-9

原创 快手用戶增長實踐

導讀:用戶增長近年成爲非常火熱的方向,但目前業內關於短視頻領域的用戶增長的公開實踐資料卻鳳毛麟角。在 QCon 上海 2019 的演講中,快手資深研發工程師葉邦宇首次系統地披露快手作爲短視頻領域巨頭在用戶增長方面的實踐, 並着重介紹快手用