大數據課程體系-學習筆記概要

目錄

大數據課程體系

簡介

作爲一名物聯網工程專業的學生,對於大數據有着不同尋常的熱情,在有了一定的Android基礎和J2EE基礎後,希望學習更多的數據處理技術,爲研究生階段增加籌碼,做出如下學習路線,期望自己能夠夯實基礎,深入學習,有所成就。路線圖的制定參考了

《IT十八掌大數據學習路線 》《Hadoop權威指南第四版》

學習階段(不定時更新)

第一階段 JAVA & LINUX:

課程名稱 課程內容
Java IDE Intellij
Java Base 接口 抽象類的使用
Java Collection 集合框架核心 List Set Map
Java Thread 多線程相關知識
Java Reflect 反射技術相關介紹
Java Socket 套接字相關知識
Linux Base 版本介紹,安裝,常用命令,權限(UGO)
Linux Run 運行級別,環境變量加載
Linux Vmware Vmware Workstation技巧
Linux Process 系統進程管理常用命令
Linux NetWork 網絡管理命令

第二階段 Hadoop相關項目:

課程名稱 課程內容
Hadoop 是Apache開源組織的一個分佈式計算開源框架,提供了一個分佈式文件系統子項目(HDFS)和支持MapReduce分佈式計算的軟件架構。
Mahout 是基於Hadoop的機器學習和數據挖掘的一個分佈式框架。Mahout用MapReduce實現了部分數據挖掘算法,解決了並行挖掘的問題。
Avro 是一個數據序列化系統,設計用於支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。
Parquet 是一個列存儲格式,主要用於 Hadoop 生態系統。對數據處理框架、數據模型和編程語言無關。
Flume 是一個分佈的、可靠的、高可用的海量日誌聚合的系統,可用於日誌數據收集,日誌數據處理,日誌數據傳輸。
Sqoop 是一個用來將Hadoop和關係型數據庫中的數據相互轉移的工具,可以將一個關係型數據庫(MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型數據庫中。
Pig 是一個基於Hadoop的大規模數據分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換爲一系列經過優化處理的MapReduce運算。
Hive 是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
Crunch 是基於Google的FlumeJava庫編寫的Java庫,用於創建MapReduce程序。與Hive,Pig類似,Crunch提供了用於實現如連接數據、執行聚合和排序記錄等常見任務的模式庫。
HBase 是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。
ZooKeeper 是一個爲分佈式應用所設計的分佈的、開源的協調服務,它主要是用來解決分佈式應用中經常遇到的一些數據管理問題,簡化分佈式應用協調及其管理的難度,提供高性能的分佈式服務。
Ambari 是一種基於Web的工具,支持Hadoop集羣的供應、管理和監控。

第三階段 Kafka & Storm

課程名稱 課程內容
Kafka 一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者規模的網站中的所有動作流數據,目的是通過Hadoop的並行加載機制來統一線上和離線的消息處理,也是爲了通過集羣機來提供實時的消費。
Storm 對比Hadoop的批處理,Storm是個實時的、分佈式以及具備高容錯的計算系統。同Hadoop一樣Storm也可以處理大批量的數據,然而Storm在保證高可靠性的前提下還可以讓處理進行的更加實時;也就是說,所有的信息都會被處理。Storm同樣還具備容錯和分佈計算這些特性,這就讓Storm可以擴展到不同的機器上進行大批量的數據處理。

第四階段 Scala & Spark

課程名稱 課程內容
Scala Scala是一門多範式的編程語言,一種類似java的編程語言,設計初衷是實現可伸縮的語言,並集成面向對象編程和函數式編程的各種特性。
Spark Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。

第五階段 綜合項目演練

課程名稱 課程內容
待定 待定
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章