原创 Spark2.0機器學習系列之5:GBDT(梯度提升決策樹)、GBDT與隨機森林差異、參數調試及Scikit代碼分析

  GBDT(梯度提升決策樹)作爲Spark MLlib實現又一個決策樹組合算法(另一個是隨機森林),其基本原理也離不開決策樹,常常也和隨機森林來進行比較。   關於決策樹和隨機森林,我也寫了兩篇介紹博客,可以作爲參考:   

原创 Spark2.0機器學習系列之9: 聚類算法(LDA)

      在寫這篇文章之前,先說一些題外話。       許多機器學習算法(如後面將要提到的LDA)涉及的數學知識太多,前前後後一大堆,理解起來不是那麼容易。       面對複雜的機器學習模型,尤其是涉及大量數學知識的模型

原创 機器學習算法(優化)之一:梯度下降算法、隨機梯度下降(應用於線性迴歸、Logistic迴歸等等)

本文介紹了機器學習中基本的優化算法—梯度下降算法和隨機梯度下降算法,以及實際應用到線性迴歸、Logistic迴歸、矩陣分解推薦算法等ML中。 梯度下降算法基本公式 常見的符號說明和損失函數 X :所有樣本的特徵向量組成的矩陣

原创 Spark2.0機器學習系列之8: 聚類(k-means,Bisecting k-means,Streaming k-means)

       在Spark2.0版本中(不是基於RDD API的MLlib),共有四種聚類方法:      (1)K-means      (2)Latent Dirichlet allocation (LDA)     

原创 【轉載】數學之美系列二十一:布隆過濾器(Bloom Filter)

轉載文章,請鏈接原文:http://www.cricode.com/1083.html 在日常生活中,包括在設計計算機軟件時,我們經常要判斷一個元素是否在一個集合中。比如在字處理軟件中,需要檢查一個英語單詞是否拼寫正確(也就是要判

原创 Spark常用設置,API和錯誤解決方法

錯誤解決及常用設置 單擊運行內存不足錯誤: java.lang.IllegalArgumentException: System memory 129761280 must be at least 471859200. 解決

原创 Spark-Hive

啓動:spark-sql (1)log4j.properties : log4j.rootCategory=WARN,console 這樣就不會有大量INFO輸出了 (2)將HIVE_HOME/conf/hive-site.

原创 PCA主成份分析(Spark 2.0)

PCA在Spark2.0用法比較簡單,只需要設置: .setInputCol(“features”)//保證輸入是特徵值向量 .setOutputCol(“pcaFeatures”)//輸出 .setK(3)//主成分個

原创 Spark GraphX學習筆記

概述 GraphX是 Spark中用於圖(如Web-Graphs and Social Networks)和圖並行計算(如 PageRank and Collaborative Filtering)的API,可以認爲是Graph

原创 ZooKeeper 學習筆記[未完]

% zkServer.sh start 啓動一個本地的zooKeeper服務器 % zkServer.sh stop 停止—– % echo ruok | nc localhost 2181 檢查zooKeerper是否正在

原创 Spark2.0 特徵提取、轉換、選擇之一:數據規範化,String-Index、離散-連續特徵相互轉換

數據規範化(標準化) 在數據預處理時,這兩個術語可以互換使用。(不考慮標準化在統計學中有特定的含義)。 下面所有的規範化操作都是針對一個特徵向量(dataFrame中的一個colum)來操作的。 首先舉一個例子: //MaxA

原创 Spark2.0機器學習系列之7:多類分類問題(方法歸總和分類結果評估)

一對多(One-vs-Rest classifier) 將只能用於二分問題的分類(如Logistic迴歸、SVM)方法擴展到多類。 參考:http://www.cnblogs.com/CheeseZH/p/5265959.html

原创 Spark2.0機器學習系列之6: MLPC(多層神經網絡)

Spark2.0 MLPC(多層神經網絡分類器)算法概述 MultilayerPerceptronClassifier(MLPC)這是一個基於前饋神經網絡的分類器,它是一種在輸入層與輸出層之間含有一層或多層隱含結點的具有正向傳播

原创 Spark2.0機器學習系列之4:隨機森林介紹、關鍵參數分析

概述 隨機森林是決策樹的組合算法,基礎是決策樹,關於決策樹和Spark2.0中的代碼設計可以參考本人另外一篇博客: http://blog.csdn.net/qq_34531825/article/details/5233094

原创 基於矩陣分解的推薦算法-梯度下降算法-非並行計算[轉載]

轉載自博客園,請直接鏈接原文查看(更詳細更完整): http://www.cnblogs.com/kobedeshow/p/3651833.html?utm_source=tuicool&utm_medium=referral