《Spark: The Definitive Guide 》Spark權威指南學習計劃

Spark-The-Definitive-Guide-Learning

《Spark: The Definitive Guide Big Data Processing Made Simple》學習記錄

前言

本書出自OReilly的《Spark: The Definitive Guide Big Data Processing Made Simple》,由Matei Zaharia, Bill Chambers兩位大佬所寫,是2018年2月的第一版(我也不清楚有沒有最新版,搜也沒搜到第二版)
Spark: The Definitive Guide
參考本書主頁介紹,着眼於Spark 2.0的改進,探索Spark結構化API的基本操作和常用功能,以及用於構建端到端流應用程序的新型高級API Structured Streaming。學習監控,調優和調試Spark的基礎知識,並探索機器學習技術和場景,以便使用Spark的可擴展機器學習庫MLlib。

  • 輕鬆瞭解大數據和Spark
  • 通過工作示例瞭解DataFrames,SQL和Datasets-Spark的核心API
  • 深入瞭解Spark的低級API,RDD以及SQL和DataFrame的執行
  • 瞭解Spark如何在羣集上運行
  • 調試,監視和調整Spark集羣和應用程序
  • 瞭解結構流,Spark的流處理引擎的強大功能
  • 瞭解如何將MLlib應用於各種問題,包括分類或推薦

OReilly它家的書都是把代碼和案例放在github上的,這本書也不例外,見此databricks/Spark-The-Definitive-Guid

實際上,這並非我初學Spark了,之前也有所涉獵,但想着能夠深入學習,便計劃寫下文章加深自己理解,以及分享知識。

本書並非是對原作的翻譯,好像目前國內也沒有出版社翻譯了這本書,僅僅是敘述自己所學的心得、想法,並結合自己之前所學加以新內容。

目錄

書籍分爲以下七大部分:

  • 大數據和Spark概述
    • Chapter 1 to 2:瞭解Apache Spark
    • Chapter 3:瞭解Spark的工具集
  • 結構化API——DataFrames, SQL, and Datasets
  • 底層API
    • Chapter 12:彈性分佈式數據集(RDDs)
    • Chapter 13:高級的 RDDs
    • Chapter 14:分佈式共享變量
  • 生產上的應用
    • Chapter 15:Spark 如何在集羣上運行
    • Chapter 16:開發 Spark 應用程序
    • Chapter 17:部署 Spark
    • Chapter 18:監控和調試
    • Chapter 19:性能調優
  • Streaming流
    • Chapter 20:Stream 流處理基礎
    • Chapter 21:結構化Streaming流的基礎
    • Chapter 22:事件時間(Event-time)和狀態處理
    • Chapter 23:生產中的結構化流處理
  • 高級數據分析和機器學習
    • Chapter 24:高級分析和機器學習預覽
    • Chapter 25:預處理和特徵工程
    • Chapter 26:分類
    • Chapter 27:迴歸
    • Chapter 28:Recommendation 推薦
    • Chapter 29:非監督性學習
    • Chapter 30:圖分析
    • Chapter 31:深度學習
  • Spark 生態
    • Chapter 32:語言細節: Python (PySpark)和 r (SparkR 和 sparklyr)
    • Chapter 33:生態和社區

其他

收錄於此:josonle/Spark-The-Definitive-Guide-Learning
同步更新在掘金:《Spark 權威指南學習計劃》

更多推薦:
Coding Now

學習記錄的一些筆記,以及所看得一些電子書eBooks、視頻資源和平常收納的一些自己認爲比較好的博客、網站、工具。涉及大數據幾大組件、Python機器學習和數據分析、Linux、操作系統、算法、網絡等

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章