git上找到的一個大神寫的spark ml源碼分析,非常詳盡
地址:https://github.com/endymecy/spark-ml-source-analysis
spark機器學習算法研究和源碼分析
本項目對spark ml
包中各種算法的原理加以介紹並且對算法的代碼實現進行詳細分析,旨在加深自己對機器學習算法的理解,熟悉這些算法的分佈式實現方式。
本系列文章支持的spark版本
本系列文章大部分的算法基於spark 1.6.1,少部分基於spark 2.x。
本系列的目錄結構
本系列目錄如下:
- 數據類型
- 基本統計
- 協同過濾
- 分類和迴歸
- 聚類
- 最優化算法
- 降維
- 特徵抽取和轉換
- 特徵抽取
- 特徵轉換
- Tokenizer
- StopWordsRemover
- n-gram
- Binarizer
- PolynomialExpansion
- Discrete Cosine Transform (DCT)
- StringIndexer
- IndexToString
- OneHotEncoder
- VectorIndexer
- Normalizer(規則化)
- StandardScaler(特徵縮放)
- MinMaxScaler
- MaxAbsScaler
- Bucketizer
- ElementwiseProduct(元素智能乘積)
- SQLTransformer
- VectorAssembler
- QuantileDiscretizer
- 特徵選擇