大數據課程體系

簡介

作爲一名物聯網工程專業的學生，對於大數據有着不同尋常的熱情，在有了一定的Android基礎和J2EE基礎後，希望學習更多的數據處理技術，爲研究生階段增加籌碼，做出如下學習路線，期望自己能夠夯實基礎，深入學習，有所成就。路線圖的制定參考了

《IT十八掌大數據學習路線》《Hadoop權威指南第四版》

學習階段（不定時更新）

第一階段 JAVA & LINUX：

課程名稱	課程內容
Java IDE	Intellij
Java Base	接口抽象類的使用
Java Collection	集合框架核心 List Set Map
Java Thread	多線程相關知識
Java Reflect	反射技術相關介紹
Java Socket	套接字相關知識
Linux Base	版本介紹，安裝，常用命令，權限(UGO)
Linux Run	運行級別，環境變量加載
Linux Vmware	Vmware Workstation技巧
Linux Process	系統進程管理常用命令
Linux NetWork	網絡管理命令

第二階段 Hadoop相關項目：

課程名稱	課程內容
Hadoop	是Apache開源組織的一個分佈式計算開源框架，提供了一個分佈式文件系統子項目(HDFS)和支持MapReduce分佈式計算的軟件架構。
Mahout	是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法，解決了並行挖掘的問題。
Avro	是一個數據序列化系統，設計用於支持數據密集型，大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具，將逐步取代Hadoop原有的IPC機制。
Parquet	是一個列存儲格式，主要用於 Hadoop 生態系統。對數據處理框架、數據模型和編程語言無關。
Flume	是一個分佈的、可靠的、高可用的海量日誌聚合的系統，可用於日誌數據收集，日誌數據處理，日誌數據傳輸。
Sqoop	是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具，可以將一個關係型數據庫（MySQL ,Oracle ,Postgres等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。
Pig	是一個基於Hadoop的大規模數據分析工具，它提供的SQL-LIKE語言叫Pig Latin，該語言的編譯器會把類SQL的數據分析請求轉換爲一系列經過優化處理的MapReduce運算。
Hive	是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。
Crunch	是基於Google的FlumeJava庫編寫的Java庫，用於創建MapReduce程序。與Hive，Pig類似，Crunch提供了用於實現如連接數據、執行聚合和排序記錄等常見任務的模式庫。
HBase	是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統，利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。
ZooKeeper	是一個爲分佈式應用所設計的分佈的、開源的協調服務，它主要是用來解決分佈式應用中經常遇到的一些數據管理問題，簡化分佈式應用協調及其管理的難度，提供高性能的分佈式服務。
Ambari	是一種基於Web的工具，支持Hadoop集羣的供應、管理和監控。

第三階段 Kafka & Storm

課程名稱	課程內容
Kafka	一種高吞吐量的分佈式發佈訂閱消息系統，它可以處理消費者規模的網站中的所有動作流數據,目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理，也是爲了通過集羣機來提供實時的消費。
Storm	對比Hadoop的批處理，Storm是個實時的、分佈式以及具備高容錯的計算系統。同Hadoop一樣Storm也可以處理大批量的數據，然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時；也就是說，所有的信息都會被處理。Storm同樣還具備容錯和分佈計算這些特性，這就讓Storm可以擴展到不同的機器上進行大批量的數據處理。

課程名稱

課程內容

Kafka

一種高吞吐量的分佈式發佈訂閱消息系統，它可以處理消費者規模的網站中的所有動作流數據,目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理，也是爲了通過集羣機來提供實時的消費。

Storm

對比Hadoop的批處理，Storm是個實時的、分佈式以及具備高容錯的計算系統。同Hadoop一樣Storm也可以處理大批量的數據，然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時；也就是說，所有的信息都會被處理。Storm同樣還具備容錯和分佈計算這些特性，這就讓Storm可以擴展到不同的機器上進行大批量的數據處理。

第四階段 Scala & Spark

課程名稱	課程內容
Scala	Scala是一門多範式的編程語言，一種類似java的編程語言，設計初衷是實現可伸縮的語言，並集成面向對象編程和函數式編程的各種特性。
Spark	Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架，Spark，擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。

第五階段 綜合項目演練

課程名稱	課程內容
待定	待定

大數據課程體系-學習筆記概要

目錄

大數據課程體系

簡介

學習階段（不定時更新）

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

optional install error: Error: Unsupported URL Type: npm:vue-loader@^16.1.0

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

大數據課程體系-學習筆記-第一階段-Java Socket（轉載）

大數據課程體系-學習筆記-第一階段-Java Thread

大數據課程體系-學習筆記-第一階段-Java Base

大數據課程體系-學習筆記概要

大數據課程體系-學習筆記-第一階段-Java Collection

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結