台部落会飞的犬良

機器學習中的模型訓練只是其中的一個步驟，有好的的數據才能得到好的模型。但是在現實情況下，數據往往是存在一些缺失值的，怎麼取處理這些缺失值，使數據表現更完美也是一個特別重要的步驟。缺失值處理方法綜述缺失值是指粗糙數據中由

2020-06-20 22:01:33

決策樹模型就是需要通過樣本數據構建一棵樹，數中除了葉子節點的每個節點都是一個數據特徵的劃分點，將待測數據的對應的特徵和該節點上的劃分特徵做對比，然後將待測節點分到該節點的某個子節點上，然後再進行對比，直到葉子節點爲止，然後判斷待測數據的類

2020-06-20 22:01:33

1.問題描述最近一臺線上的主機硬盤完全壞掉，也就是說機器需要重新裝了，這臺主機安裝的還有standby name節點，以及其他的組件。主機掛掉之後，Ambari上該主機對應的組件狀態全部都爲未知狀態，所以也無法對其操作，最後能作的就是在

2020-06-20 22:01:33

Spark的wordCount是入門級程序，下面我以Java爲基礎，分享3種基礎的寫法 1.JavaRDD加reduceByKey寫法 SparkConf conf = new SparkConf(); conf.setAppName(

2020-06-20 22:01:33

CART（分類與迴歸樹），也就是說CART算法既可以用於分類，也可以用於迴歸，它是在給定輸入隨機變量X條件下輸出隨機變量Y的條件概率分佈的學習方法，其也和迴歸樹一樣是二叉樹。是CART算法，也是分爲：特徵選擇，樹的生成，樹的剪枝。其實感

2020-06-20 22:01:33

支持向量機其實和感知機的模型思想挺相似的，都是找出一個分離超平面對數據進行二分類。它是定義在特徵空間上的間隔最大的線性分類器，這個間隔最大化使它區別於感知機；感知機通過迭代算法找出的分離超平面可以是不唯一的，但是支持向量機

2020-06-20 22:01:33

我們在網上購物的時候都會收到一些相關產品的推薦，這些被推薦的東西是怎麼來的呢？如果我們買了一個魚竿，那麼推薦魚線，魚餌什麼的是很正常的，畢竟這些產品都是相關性比較大的，收到推薦也不足爲奇；但是僅限於此嗎？之前不是有個很出名

2020-06-20 22:01:33

下面介紹的迴歸樹和另一篇文章介紹的分類樹，都屬於決策樹範疇。分類樹的模型是每個非葉子節點都是一個分類特徵，按照該分類特徵的不同取值，將數據集分爲多少個子集；並且分類樹模型我們要找的是測試數據集的最終分類結果，而這個結果是標稱型數據。而在迴

2020-06-20 21:01:31

迴歸算法中不管是用線性迴歸找到最佳擬合直線，還是加權的線性迴歸算法，我們都是直接用矩陣相乘的方式，直接計算出對應的ω係數，這都是對應訓練數據組成的矩陣是可逆的，換句話說X矩陣是滿秩的，而對於某些屬性個數多餘樣本個數的樣本（樣本數據組成矩陣

2020-06-20 21:01:31

FP-growth算法是一種高效發現頻繁集的算法，比Apriori算法高效，但是不能用於發現關聯規則。FP-growth算法只需要對數據即信兩次掃描，而Apriori算法對於每個潛在的頻繁項集都會掃描數據集判定給定模式是否

2020-06-20 21:01:31

1.SVD簡介 SVD(Singular Value Decomposition)，奇異值分解，也就是將一個矩陣進行分解，然後從分解後的矩陣上對數據進行分析。矩陣分解可以將原始矩陣表示成新的易於處理的形式，這種新的形式是兩個或者多個矩陣的

2020-06-20 21:01:20

這篇文章是在支持向量機（一）基礎上寫的，如果對支持向量機還不太熟悉的話，建議先看（一）。在支持向量機（一）中，我們主要討論的是線性可分的支持向量機，但是現實情況中數據往往是線性不可分的，即數據中存在噪聲點

2020-06-20 21:01:20

最大熵模型是一種分類模型，它學習之後對某個x判斷的結果是一個概率，即對一個自變量，它的分類分別是y1,y2,y3…yn的概率，然後概率最大的分類結果就是我們所要的結果分類ym。最大熵原理最大熵原理認爲，

2020-06-20 21:01:20

本來對AUC和ROC的理解有點模糊，網上看了以下下兩篇博文，感覺更清楚了。 https://blog.csdn.net/u013385925/article/details/80385873 https://blog.csdn.net/q

2020-06-20 21:01:20

1.降維技術在日常處理數據的時候，數據往往是好多維的，也就是一條數據往往有好多個特徵，導致數據處理和分析起來比較麻煩，但是這些特徵絕大部分都是非主要的，對數據的處理分析過程起到的作用特別少，但是卻大大增加了數據處理的複雜

2020-06-20 21:01:20