原创 機器學習缺失值處理方法

     機器學習中的模型訓練只是其中的一個步驟,有好的的數據才能得到好的模型。但是在現實情況下,數據往往是存在一些缺失值的,怎麼取處理這些缺失值,使數據表現更完美也是一個特別重要的步驟。   缺失值處理方法綜述 缺失值是指粗糙數據中由

原创 決策樹(一):分類決策樹

決策樹模型就是需要通過樣本數據構建一棵樹,數中除了葉子節點的每個節點都是一個數據特徵的劃分點,將待測數據的對應的特徵和該節點上的劃分特徵做對比,然後將待測節點分到該節點的某個子節點上,然後再進行對比,直到葉子節點爲止,然後判斷待測數據的類

原创 Ambari_主機更換硬盤恢復組件

1.問題描述 最近一臺線上的主機硬盤完全壞掉,也就是說機器需要重新裝了,這臺主機安裝的還有standby name節點,以及其他的組件。主機掛掉之後,Ambari上該主機對應的組件狀態全部都爲未知狀態,所以也無法對其操作,最後能作的就是在

原创 Spark中wordCount的常見寫法

Spark的wordCount是入門級程序,下面我以Java爲基礎,分享3種基礎的寫法 1.JavaRDD加reduceByKey寫法 SparkConf conf = new SparkConf(); conf.setAppName(

原创 決策樹(三):CART算法

CART(分類與迴歸樹),也就是說CART算法既可以用於分類,也可以用於迴歸,它是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分佈的學習方法,其也和迴歸樹一樣是二叉樹。 是CART算法,也是分爲:特徵選擇,樹的生成,樹的剪枝。其實感

原创 支持向量機(一)線性可分的支持向量機與硬間隔最大化

        支持向量機其實和感知機的模型思想挺相似的,都是找出一個分離超平面對數據進行二分類。它是定義在特徵空間上的間隔最大的線性分類器,這個間隔最大化使它區別於感知機;感知機通過迭代算法找出的分離超平面可以是不唯一的,但是支持向量機

原创 Apriori算法(頻繁集發現以及關聯分析)

        我們在網上購物的時候都會收到一些相關產品的推薦,這些被推薦的東西是怎麼來的呢?如果我們買了一個魚竿,那麼推薦魚線,魚餌什麼的是很正常的,畢竟這些產品都是相關性比較大的,收到推薦也不足爲奇;但是僅限於此嗎?之前不是有個很出名

原创 決策樹(二):迴歸樹和模型樹

下面介紹的迴歸樹和另一篇文章介紹的分類樹,都屬於決策樹範疇。分類樹的模型是每個非葉子節點都是一個分類特徵,按照該分類特徵的不同取值,將數據集分爲多少個子集;並且分類樹模型我們要找的是測試數據集的最終分類結果,而這個結果是標稱型數據。而在迴

原创 迴歸(二):縮減係數

迴歸算法中不管是用線性迴歸找到最佳擬合直線,還是加權的線性迴歸算法,我們都是直接用矩陣相乘的方式,直接計算出對應的ω係數,這都是對應訓練數據組成的矩陣是可逆的,換句話說X矩陣是滿秩的,而對於某些屬性個數多餘樣本個數的樣本(樣本數據組成矩陣

原创 FP-growth算法來高效發現頻繁集

        FP-growth算法是一種高效發現頻繁集的算法,比Apriori算法高效,但是不能用於發現關聯規則。FP-growth算法只需要對數據即信兩次掃描,而Apriori算法對於每個潛在的頻繁項集都會掃描數據集判定給定模式是否

原创 SVD算法來簡化數據

1.SVD簡介 SVD(Singular Value Decomposition),奇異值分解,也就是將一個矩陣進行分解,然後從分解後的矩陣上對數據進行分析。矩陣分解可以將原始矩陣表示成新的易於處理的形式,這種新的形式是兩個或者多個矩陣的

原创 支持向量機(二)線性支持向量機與軟間隔最大化

        這篇文章是在支持向量機(一)基礎上寫的,如果對支持向量機還不太熟悉的話,建議先看(一)。         在支持向量機(一)中,我們主要討論的是線性可分的支持向量機,但是現實情況中數據往往是線性不可分的,即數據中存在噪聲點

原创 機器學習-最大熵模型

        最大熵模型是一種分類模型,它學習之後對某個x判斷的結果是一個概率,即對一個自變量,它的分類分別是y1,y2,y3…yn的概率,然後概率最大的分類結果就是我們所要的結果分類ym。 最大熵原理         最大熵原理認爲,

原创 AUC,ROC理解

本來對AUC和ROC的理解有點模糊,網上看了以下下兩篇博文,感覺更清楚了。 https://blog.csdn.net/u013385925/article/details/80385873 https://blog.csdn.net/q

原创 PCA算法來簡化數據

1.降維技術         在日常處理數據的時候,數據往往是好多維的,也就是一條數據往往有好多個特徵,導致數據處理和分析起來比較麻煩,但是這些特徵絕大部分都是非主要的,對數據的處理分析過程起到的作用特別少,但是卻大大增加了數據處理的複雜