原创 weka[2] - J48(一)

原本想一次性寫完關於J48,無奈整個weka關於J48的一套東西太多太多。 先從split開始分析~J48是參考的C4.5的決策樹算法。 這一個部分和ID3有一些的區別,第一:C4.5使用信息增益率來選特徵,第二:C4.5可以同時處理連續

原创 weka[1] - ID3算法

我們知道ID3是一個最基本的決策樹算法。他主要是每次根據InfoGain來選取特徵進行分裂,並且沒有進行剪枝。 buildClassifier: public void buildClassifier(Instances data)

原创 weka[3] - J48(二)

J48(一)中,主要分析了分裂的策略:二叉和多叉 這一節,主要看看源碼中,關於剪枝的部分。主要看PruneableClassifierTree。 buildClassify: public void buildClassifier(I

原创 支持向量機通俗導論(理解SVM的三層境界)

            支持向量機通俗導論(理解SVM的三層境界) 作者:July、pluskid ;致謝:白石、JerryLead 出處:結構之法算法之道blog。(轉自http://blog.csdn.net/v_ju

原创 Kaggle[1] - Loan Default Prediction - Imperial College London

比賽頁面:http://www.kaggle.com/c/loan-default-prediction。 This competition asks you to determine whether a loan will defau

原创 kaggel[6] - recommend missing links in a social network

比賽地址:http://www.kaggle.com/c/FacebookRecruiting 數據集很簡單。 訓練集(train): 兩列 (source_node, destination_node) ---source follow

原创 weka[10] - SimpleKmeans

classification的算法還有一些,不過還是打算先進入clustering的階段。後續再回去補。 這一篇主要看看kmeans。kmeans是最簡單的一種聚類算法,很清晰的EM思路。他的主要缺陷是聚類個數無法確定(靠人爲設定),受初

原创 Kaggle[2] - Predict the click through rate (KDD12 trackl2)

比賽鏈接:http://www.kddcup2012.org/c/kddcup2012-track2 比賽描述: Search advertising has been one of the major revenue sources o

原创 weka[9] - Naive Bayes

Naive Bayes就不做具體介紹了,很簡單的一個模型。直接看代碼 BuildClassify: // can classifier handle the data? getCapabilities().testWithFai

原创 weka[11] - DBSCAN

DBSCAN介紹可以看wiki:http://en.wikipedia.org/wiki/DBSCAN 從http://www.cnblogs.com/chaosimple/archive/2013/07/01/3164775.html 

原创 weka[8] - Logistic Regression

Logistic Regression(邏輯迴歸),在分類算法中應該也算是鼎鼎有名了。作爲GLM的成員之一,他的Link 是一個sigmoid函數。 Ng的machine learning從最大似然角度,給出了cost function,

原创 關於下階段的安排

這幾天忙着面試,終究因爲身份問題死在了hr的流程關。下面打算繼續寫blog! 前兩週一直在寫關於weka源碼的文章。這個當然還要繼續,但是想讓blog更加多元化,畢竟我興趣的本身是model,而不是develop。 先說說面試吧 面試總場

原创 weka[7] - Adaboost

前面已經分析完bagging,當然不得不提boosting了。boosting方法中名氣最大的要數Adaboost了。 我記得以前看別人博客的時候,有個很形象的比喻,來說明adaboost如何工作的。 adaboost的訓練過程,就好比小

原创 Dimension Reduction - feature extraction

如果數據的特徵維數很高,往往給我們的學習算法帶來巨大的挑戰(不止是訓練時間和計算複雜度)。比如,一些不相關的特徵的存在,也可能使得我們的學習算法overfitting。 所以如何降維,以及如何選擇更少更精準的特徵,是一個大家都要面對的問題

原创 Kaggle[4] - Online Product Sales

比賽鏈接:https://www.kaggle.com/c/online-sales 比賽內容是這樣的:給定一個數據集,每行代表一個商品,前12個屬性表示1-12個月該商品的銷量,然後後面546個是該商品的一些特徵(很稀疏,可能就跟文本分