原创 Google File System(中文翻譯)

Google文件系統 GFS是一個可擴展的分佈式文件系統,用於大型的、分佈式的、對大量數據進行訪問的應用。它運行於廉價的普通硬件上,但可以提供容錯功能。它可以給大量的用戶提供總體性能較高的服務。 1、設計概覽 (1)設計想定 GFS與過去

原创 Google's BigTable 原理 (翻譯)

Google's BigTable 原理 (翻譯)     題記:google 的成功除了一個個出色的創意外,還因爲有 Jeff Dean 這樣的軟件架構天才。                                       

原创 關聯分析與FP-growth算法

關聯分析 關聯分析:從大規模數據集中尋找物品見的隱含關係被稱作關聯分析或者關聯規則學習。 存在的問題: 尋找物品的不同組合是一項十分耗時的任務,所需要的計算代價很高,暴力搜索不能解決這個問題。 Apriori算法 優點:易於編碼實習

原创 數據不平衡問題的處理

引言 在分類問題中正負樣本比例不平衡是很常見的問題,例如在預測CVR的時候,會有大量的負例,但是正例的數目缺不多,正負樣本比例嚴重失衡。這是一個值得思考的問題。 解決思路 首先我們需要思考的是我們可否通過擴大數據集,得到更多的比例較小

原创 協同過濾算法

協同過濾簡介 協同過濾是一種基於一組興趣相同的用戶或項目進行的推薦,它根據鄰居用戶(與目標用戶興趣相似的用戶)的偏好信息產生對目標用戶的推薦列表。 協同過濾算法主要分爲: 基於用戶的協同過濾算法 基於物品的協同過濾算法 基於用戶的協

原创 Git 基本操作

準備工作 windows下安裝Git客戶端:傳送門 下載完成之後按照指導一步步安裝就好了。 初始配置 設置用戶名和郵箱 git config --global user.name "your name or something else

原创 data mining:數據預處理

引言 在進行數據挖掘的時候,我們拿到都是從現實社會中得到的原始數據,它是充滿噪聲的,維度也可能很高,也可能重複,因此在正式的進行數據挖掘之前我們需要對數據進行預處理。 數據預處理大概包括這幾個方面: 數據清洗 數據集成 數據變換 數據