Spark2.x+Python大數據機器學習視頻課程

Spark2.x+Python大數據機器學習視頻課程
下載地址：https://pan.baidu.com/s/1imjFFStyjbRqyMtnboPgpQ 提取碼: 32pb

本課程系統講解如何在Spark2.0上高效運用Python來處理數據並建立機器學習模型，幫助讀者開發並部署高效可拓展的實時Spark解決方案。

第一章、搭建Spark 2.x+Python開發環境及基本開發入門

1、快速環境搭建：導入Windows7虛擬機至VMWARE及啓動系統和遠程桌面連接
2、快速環境搭建：Windows系統如何安裝pyspark模塊到Anaconda及啓動PyCharm瞭解Spark MLlib機器學習庫源碼及走讀
3、快速環境搭建：使用PyCharm開發Spark程序（讀取文本數據封裝RDD）
4、PySpark SQL快速開發：結構化海量數據處理框架SparkSQL介紹、DataFrame概述及分析數據兩種方式
5、PySpark SQL快速開發：使用SparkSession讀取文本數據分析及CSV格式數據分析（封裝DataFrame分佈式數據集）
6、PySpark SQL快速開發：基於Jupyter Notebook讀取航空航天數據、使用DSL分析
7、PySpark SQL快速開發：使用DSL分析航天航空數據及如何將DataFrame轉換爲Pandas中dataframe

第二章、Python Spark MLlib 創建推薦引擎（ALS算法篇）

8、推薦系統幾大分類（不同數據、不同算法）概述、以亞馬遜和JD爲例查看推薦（檢索物品後推薦）及推薦系統預測（評分和行爲）
9、協同過濾推薦算法CF核心思想、算法數據（用戶對物品的評價）及矩陣分解兩種方式（SVD和ALS算法）
10、CF的兩種推薦方式（基於用戶推薦和基於物品推薦）、計算用戶或物品相似度常見四種方式及Spark MLlib中ALS算法核心（數據封裝、算法超參數）
11、推薦數據集：電影評分數據、通過源碼剖析Spark MLlib中協同過濾算法實現類（Rating、ALS和MatrixFactorizationModel）
12、使用Jupyter Notebook開發電影推薦：讀取MovieLens評分數據、組合特徵、訓練模型、預測評分和爲用戶或電影進行Top10推薦

第三章、Python Spark MLlib 創建推薦引擎（深入實踐篇）

13、回顧綜述Spark MLlib中支持推薦系統中不同算法（內容推薦Word2Vector、關聯規則FP-Growth和協同過濾ALS）
14、針對電影推薦開發優化：將數據集劃分爲訓練和測試、計算模型評估指標MSE和RMSE值
15、針對電影推薦開發優化：定義函數封裝模型評估（依據傳遞模型和測試數據集）
16、針對電影推薦開發優化：使用多層嵌套FOR循環設置不同超參數值訓練和評估模型，獲取最佳模型
17、針對電影推薦開發優化：保存加載模型、機器學習簡易開發流程和使用PyCharm開發封裝模型訓練與保存
18、針對電影推薦開發優化：依據輸入用戶或物品進行相關推薦（加載離線訓練完成的模型）

第四章、Python Spark MLlib 構建分類模型

19、綜述Spark MLlib中實現常見分類算法庫（二分類和多分類）及查看實現源碼
20、監督學習算法數據格式標籤向量LabelPoint及Kaggle競賽StumbleUpon數據集說明（預測網址是否長青或短暫）
21、構建分類系統之數據調研、數據過濾轉換和類別特徵提取方式1-of-K詳解
22、構建分類系統之分別定義函數提取類別label和轉換類別數據提取特徵features
23、構建分類系統之封裝數據、劃分數據集、使用決策樹分類及二分類評估指標PR和ROC
24、構建分類系統之使用集成學習算法隨機森林RF訓練模型和評估性能
25、構建分類系統之使用梯度提升算法GBT訓練模型和評估性能
26、構建分類系統之分別使用樸素貝葉斯、支持向量機SVM和邏輯迴歸算法訓練模型與預測

第五章、Python Spark MLlib 構建迴歸分析

27、Spark MLlib中迴歸算法實現庫（LR、DT等）、過擬合（L1和L2正則化）和閱讀算法庫源碼
28、BikeSharing數據集調研、讀取數據並編寫函數提取特徵和標籤
29、構建迴歸模型之劃分數據集、使用決策樹迴歸算法訓練模型及定義函數評估模型
30、構建迴歸模型之使用隨機森林RF和梯度提升GBT迴歸算法訓練模型及評估模型
31、構建迴歸模型之使用LinearRegressionWithSGD訓練模型及引出要轉換類別特徵數據問題

第六章、Spark ML Pipeline 機器學習流程迴歸分析

32、回顧複習Spark MLlib中算法（分類、迴歸和推薦）及基於DataFrame ML幾個核心概念剖析
33、_查看Spark ML機器學習庫源碼及SparkSession讀取電影評分數據封裝DataFrame
34、基於DataFrame 協同過濾算法ALS進行電影推薦模型訓練和相關預測
35、基於DataFrame 決策樹迴歸算法DecisionTreeRegressor訓練模型（VectorAssembler特徵組合）和評估（RegressionEvaluator）
36、使用VectorIndexer類別特徵轉換及使用TrainValidationSplit進行超參數調整獲取最佳模型
37、使用交叉驗證CrossValidator方式訓練評估模型找到最佳模型
38、Pipeline管道使用說明、結合共享單車出租預測進行構建Pipeline Model模型和預測

Spark2.x+Python大數據機器學習視頻課程

工作中用到的腳本合集

24-5-18 X

Spark2.x+Python大數據機器學習視頻課程

ClouderaManager視頻教程_ClouderaManager大數據平臺視頻教程

從無到有構建大型電商微服務億級架構（全套3個階段）

基於Springboot+SpringCloud的微信點餐系統開發視頻教程

Flink視頻教程_大數據Flink教程下載

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結