Spark2.x+Python大數據機器學習視頻課程

Spark2.x+Python大數據機器學習視頻課程
下載地址:https://pan.baidu.com/s/1imjFFStyjbRqyMtnboPgpQ 提取碼: 32pb

本課程系統講解如何在Spark2.0上高效運用Python來處理數據並建立機器學習模型,幫助讀者開發並部署高效可拓展的實時Spark解決方案。

第一章、搭建Spark 2.x+Python開發環境及基本開發入門

1、快速環境搭建:導入Windows7虛擬機至VMWARE及啓動系統和遠程桌面連接
2、快速環境搭建:Windows系統如何安裝pyspark模塊到Anaconda及啓動PyCharm瞭解Spark MLlib機器學習庫源碼及走讀
3、快速環境搭建:使用PyCharm開發Spark程序(讀取文本數據封裝RDD)
4、PySpark SQL快速開發:結構化海量數據處理框架SparkSQL介紹、DataFrame概述及分析數據兩種方式
5、PySpark SQL快速開發:使用SparkSession讀取文本數據分析及CSV格式數據分析(封裝DataFrame分佈式數據集)
6、PySpark SQL快速開發:基於Jupyter Notebook讀取航空航天數據、使用DSL分析
7、PySpark SQL快速開發:使用DSL分析航天航空數據及如何將DataFrame轉換爲Pandas中dataframe

第二章、Python Spark MLlib 創建推薦引擎(ALS算法篇)

8、推薦系統幾大分類(不同數據、不同算法)概述、以亞馬遜和JD爲例查看推薦(檢索物品後推薦)及推薦系統預測(評分和行爲)
9、協同過濾推薦算法CF核心思想、算法數據(用戶對物品的評價)及矩陣分解兩種方式(SVD和ALS算法)
10、CF的兩種推薦方式(基於用戶推薦和基於物品推薦)、計算用戶或物品相似度常見四種方式及Spark MLlib中ALS算法核心(數據封裝、算法超參數)
11、推薦數據集:電影評分數據、通過源碼剖析Spark MLlib中協同過濾算法實現類(Rating、ALS和MatrixFactorizationModel)
12、使用Jupyter Notebook開發電影推薦:讀取MovieLens評分數據、組合特徵、訓練模型、預測評分和爲用戶或電影進行Top10推薦

第三章、Python Spark MLlib 創建推薦引擎(深入實踐篇)

13、回顧綜述Spark MLlib中支持推薦系統中不同算法(內容推薦Word2Vector、關聯規則FP-Growth和協同過濾ALS)
14、針對電影推薦開發優化:將數據集劃分爲訓練和測試、計算模型評估指標MSE和RMSE值
15、針對電影推薦開發優化:定義函數封裝模型評估(依據傳遞模型和測試數據集)
16、針對電影推薦開發優化:使用多層嵌套FOR循環設置不同超參數值訓練和評估模型,獲取最佳模型
17、針對電影推薦開發優化:保存加載模型、機器學習簡易開發流程和使用PyCharm開發封裝模型訓練與保存
18、針對電影推薦開發優化:依據輸入用戶或物品進行相關推薦(加載離線訓練完成的模型)

第四章、Python Spark MLlib 構建分類模型

19、綜述Spark MLlib中實現常見分類算法庫(二分類和多分類)及查看實現源碼
20、監督學習算法數據格式標籤向量LabelPoint及Kaggle競賽StumbleUpon數據集說明(預測網址是否長青或短暫)
21、構建分類系統之數據調研、數據過濾轉換和類別特徵提取方式1-of-K詳解
22、構建分類系統之分別定義函數提取類別label和轉換類別數據提取特徵features
23、構建分類系統之封裝數據、劃分數據集、使用決策樹分類及二分類評估指標PR和ROC
24、構建分類系統之使用集成學習算法隨機森林RF訓練模型和評估性能
25、構建分類系統之使用梯度提升算法GBT訓練模型和評估性能
26、構建分類系統之分別使用樸素貝葉斯、支持向量機SVM和邏輯迴歸算法訓練模型與預測

第五章、Python Spark MLlib 構建迴歸分析

27、Spark MLlib中迴歸算法實現庫(LR、DT等)、過擬合(L1和L2正則化)和閱讀算法庫源碼
28、BikeSharing數據集調研、讀取數據並編寫函數提取特徵和標籤
29、構建迴歸模型之劃分數據集、使用決策樹迴歸算法訓練模型及定義函數評估模型
30、構建迴歸模型之使用隨機森林RF和梯度提升GBT迴歸算法訓練模型及評估模型
31、構建迴歸模型之使用LinearRegressionWithSGD訓練模型及引出要轉換類別特徵數據問題

第六章、Spark ML Pipeline 機器學習流程迴歸分析

32、回顧複習Spark MLlib中算法(分類、迴歸和推薦)及基於DataFrame ML幾個核心概念剖析
33、_查看Spark ML機器學習庫源碼及SparkSession讀取電影評分數據封裝DataFrame
34、基於DataFrame 協同過濾算法ALS進行電影推薦模型訓練和相關預測
35、基於DataFrame 決策樹迴歸算法DecisionTreeRegressor訓練模型(VectorAssembler特徵組合)和評估(RegressionEvaluator)
36、使用VectorIndexer類別特徵轉換及使用TrainValidationSplit進行超參數調整獲取最佳模型
37、使用交叉驗證CrossValidator方式訓練評估模型找到最佳模型
38、Pipeline管道使用說明、結合共享單車出租預測進行構建Pipeline Model模型和預測

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章