原创 好友推薦策略

描述 現有一個社交網站,其好友推薦策略爲: 用戶A和用戶B不是好友,當二人的共同好友數量超過好友推薦閾值m(可配置)時,就向A和B分別推薦爲彼此好友。 任務爲: 不使用STL和Mapreduce,

原创 分詞算法:正向最大匹配算法

正向最大匹配算法 正向最大匹配算法(FMM )是一種基於詞典的分詞方法,同樣的基於詞典的方法還有逆向最大匹配法(RMM ),ngram 法.FMM 故名思意,左向右掃描尋找詞的最大匹配,是一種貪心的思想。 流程 限定詞的最大長度

原创 Prototype 原型模式

原型模式 原型模式即在運行時動態的通過一個對象的實例來創建這個類的對象,可以理解成通過一個實例克隆出另一個實例。 UML類圖 原型模式的優點及注意事項 優點 當我們的對象類型不是開始就能確定的,而這個類型是在運行期確定的話,那

原创 數據歸一化處理

在機器學習中領域中的數據分析之前,通常需要將數據標準化,利用標準化後得數據進行數據分析。不同評價指標往 往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,爲了消除指標之間的量綱影響,需要進行數據 標準化處理,以解決數據指

原创 過擬合現象

過擬合現象 爲了得到一致假設而使假設變得過度複雜稱爲過擬合。想像某種學習算法產生了一個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本數據(即再拿樣本中的文檔來給它,它絕對不會分錯),但也就爲了能夠對樣本完全正確的分類,使得它

原创 CSAPP:網橋的自學習算法

網橋 網橋(Bridge)像一個聰明的中繼器。中繼器從一個網絡電纜裏接收信號, 放大它們,將其送入下一個電纜。相比較而言,網橋對從關卡上傳下來的信息更敏銳一些。網橋是一種對幀進行轉發的技術,根據MAC分區塊,可隔離碰撞。網橋將網

原创 矩陣乘法的Map-Reduce實現

方法一: 已知Amn∗Bnp=Cmp Ci,j=∑k=1nAi,k∗Bk,j Example: C=⎛⎝⎜⎜⎜147102581130912⎞⎠⎟⎟⎟∗⎛⎝⎜100111529⎞⎠⎟=⎛⎝⎜⎜⎜4340169232467020228

原创 Python實現Hive的UDF

流程 主要分爲兩個部分,一個部分爲Python腳本實現想要實現的功能,另外一個部分爲HQL部分,調用Python腳本對數據進行處理。 Python部分 HQL調用Python實現的UDF其實有一個重定向的過程,把數據表中之列的列重定向Py

原创 高斯消元學習

POJ1222 http://poj.org/problem?id=1222 一定有解,直接高斯消元搞定 [cpp] view plaincopy #include <iostream>   #inclu

原创 AUC與ROC

ROC(Receiver Operating Characteristic) 主要分析工具是一個畫在二維平面上的曲線——ROC curve。 平面的橫座標是 false positive rate(FPR),縱座標是 true posit

原创 集成學習:Bagging與隨機森林

引言 想要得到泛化性能強的集成,集成中的個體學習器應儘可能相互獨立,但是相互獨立很難做到,我們可以做的是使基學習器儘可能具有較大的差異。 Bagging Bagging是並行式集成學習方法的著名代表,它是基於自助採樣法(有放回的取樣)來提

原创 Hive學習

Hive 簡介 hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現

原创 集成學習:AdaBoost

集成學習 集成學習通過構建併合並多個學習器來完成學習任務,有時也被稱爲多分類器系統。 如果在集成學習中我們使用的學習器只包括同種類型的個體學習器,如“決策樹集成”中全是決策樹,這種集成叫同質集成,這裏面的個體學習器稱之爲“基學習器”,相

原创 容斥原理學習

簡單入門題目:  UVA10325   The lottery  http://vjudge.net/vjudge/contest/view.action?cid=53767#problem/A 設A[I]表示 是其中i個

原创 mapreduce 中文版 中文翻譯

MapReduce:超大機羣上的簡單數據處理                                             摘要 MapReduce是一個編程模型,和處理,產生大數據集的相關實現.用戶指定一個map函