目錄
大數據課程體系
簡介
作爲一名物聯網工程專業的學生,對於大數據有着不同尋常的熱情,在有了一定的Android基礎和J2EE基礎後,希望學習更多的數據處理技術,爲研究生階段增加籌碼,做出如下學習路線,期望自己能夠夯實基礎,深入學習,有所成就。路線圖的制定參考了
《IT十八掌大數據學習路線 》《Hadoop權威指南第四版》
學習階段(不定時更新)
第一階段 JAVA & LINUX:
課程名稱 | 課程內容 |
---|---|
Java IDE | Intellij |
Java Base | 接口 抽象類的使用 |
Java Collection | 集合框架核心 List Set Map |
Java Thread | 多線程相關知識 |
Java Reflect | 反射技術相關介紹 |
Java Socket | 套接字相關知識 |
Linux Base | 版本介紹,安裝,常用命令,權限(UGO) |
Linux Run | 運行級別,環境變量加載 |
Linux Vmware | Vmware Workstation技巧 |
Linux Process | 系統進程管理常用命令 |
Linux NetWork | 網絡管理命令 |
第二階段 Hadoop相關項目:
課程名稱 | 課程內容 |
---|---|
Hadoop | 是Apache開源組織的一個分佈式計算開源框架,提供了一個分佈式文件系統子項目(HDFS)和支持MapReduce分佈式計算的軟件架構。 |
Mahout | 是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法,解決了並行挖掘的問題。 |
Avro | 是一個數據序列化系統,設計用於支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。 |
Parquet | 是一個列存儲格式,主要用於 Hadoop 生態系統。對數據處理框架、數據模型和編程語言無關。 |
Flume | 是一個分佈的、可靠的、高可用的海量日誌聚合的系統,可用於日誌數據收集,日誌數據處理,日誌數據傳輸。 |
Sqoop | 是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,可以將一個關係型數據庫(MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。 |
Pig | 是一個基於Hadoop的大規模數據分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換爲一系列經過優化處理的MapReduce運算。 |
Hive | 是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。 |
Crunch | 是基於Google的FlumeJava庫編寫的Java庫,用於創建MapReduce程序。與Hive,Pig類似,Crunch提供了用於實現如連接數據、執行聚合和排序記錄等常見任務的模式庫。 |
HBase | 是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。 |
ZooKeeper | 是一個爲分佈式應用所設計的分佈的、開源的協調服務,它主要是用來解決分佈式應用中經常遇到的一些數據管理問題,簡化分佈式應用協調及其管理的難度,提供高性能的分佈式服務。 |
Ambari | 是一種基於Web的工具,支持Hadoop集羣的供應、管理和監控。 |
第三階段 Kafka & Storm
課程名稱 | 課程內容 |
---|---|
Kafka | 一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據,目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理,也是爲了通過集羣機來提供實時的消費。 |
Storm | 對比Hadoop的批處理,Storm是個實時的、分佈式以及具備高容錯的計算系統。同Hadoop一樣Storm也可以處理大批量的數據,然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時;也就是說,所有的信息都會被處理。Storm同樣還具備容錯和分佈計算這些特性,這就讓Storm可以擴展到不同的機器上進行大批量的數據處理。 |
第四階段 Scala & Spark
課程名稱 | 課程內容 |
---|---|
Scala | Scala是一門多範式的編程語言,一種類似java的編程語言,設計初衷是實現可伸縮的語言,並集成面向對象編程和函數式編程的各種特性。 |
Spark | Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。 |
第五階段 綜合項目演練
課程名稱 | 課程內容 |
---|---|
待定 | 待定 |