大數據學習方向

大數據學習方向

一、大數據運維之Linux基礎

打好Linux基礎,以便更好地學習Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等。因爲企業
中的項目基本上都是使用Linux環境下搭建或部署的。

1)Linux系統概述
2)系統安裝及相關配置 
3)Linux網絡基礎 
4)OpenSSH實現網絡安全連接 
5)vi文本編輯器

6)用戶和用戶組管理
7)磁盤管理 
8)Linux文件和目錄管理 
9)Linux終端常用命令 
10)linux系統監測與維護


很多初學者,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:199427210,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系

二、大數據開發核心技術 - Hadoop 2.x從入門到精通

大數據的基石:其一,分佈式文件系統HDFS用於存儲海量數據,無論是Hive、HBase或者Spark數據存儲在其上面;其二是分佈式資源管理框架
YARN,是Hadoop 雲操作系統(也稱數據系統),管理集羣資源和分佈式數據處理框架MapReduce、Spark應用的資源調度與監控;分佈式並行計算框架
MapReduce目前是海量數據並行處理的一個最常用的框架。Hadoop 2.x的編譯、環境搭建、HDFS Shell使用,YARN 集羣資源管理與任務監控,MapReduce編
程,分佈式集羣的部署管理(包括高可用性HA)必須要掌握的。

一、初識Hadoop 2.x

1)大數據應用發展、前景
2)Hadoop 2.x概述及生態系統
3)Hadoop 2.x環境搭建與測試

二、深入Hadoop 2.x

1)HDFS文件系統的架構、功能、設計
2)HDFS Java API使用
3)YARN 架構、集羣管理、應用監控
4)MapReduce編程模型、Shuffle過程、編程調優

三、高級Hadoop 2.x

1)分佈式部署Hadoop 2.x
2)分佈式協作服務框架Zookeeper 
3)HDFS HA架構、配置、測試
4)HDFS 2.x中高級特性
5)YARN HA架構、配置
6)Hadoop 主要發行版本(CDH、HDP、Apache)


三、大數據開發核心技術 - 大數據倉庫Hive

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行
運行。其優點是學習成本低,可以通類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

一、Hive 初識入門

1)Hive功能、體系結構、使用場景
2)Hive環境搭建、初級使用 
3)Hive原數據配置、常見交互方式

二、Hive深入使用

1)Hive中的內部表、外部表、分區表
2)Hive 數據遷移
3)Hive常見查詢(select、where、distinct、join、group by)
4)Hive 內置函數和UDF編程

三、Hive高級進階

1)Hive數據的存儲和壓縮
2)Hive常見優化(數據傾斜、壓縮等)

四、結合實際案例分析

1)依據業務設計表
2)數據清洗、導入(ETL) 
3)使用HiveQL,統計常見的網站指標

四、大數據協作框架 - Sqoop/Flume/Oozie

Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL 
,Oracle ,Postgres等)中的數據導進到關係型數據庫中。Sqoop項目開始於2009年,最早是作爲Hadoop的一個第三方模塊存在,後來爲了讓使用者能夠快速部
署,也爲了讓開發人員能夠更快速的迭×××發,Sqoop獨立成爲一個Apache項目。

一、數據轉換工具Sqoop

1)Sqoop功能、使用原則
2)將RDBMS數據導入Hive表中(全量、增量) 
3)將HDFS上文件導出到RDBMS表中

二、文件收集框架Flume

1)Flume 設計架構、原理(三大組件)
2)Flume初步使用,實時採集數據 
3)如何使用Flume監控文件夾數據,實時採集錄入HDFS中 4)任務調度框架Oozie

三、Oozie功能、安裝部署

1)使用Oozie調度MapReduce Job和HiveQL
2)定時調度任務使用


五、大數據Web開發框架 - 大數據WEB 工具Hue

Hue是一個開源的Apache Hadoop UI系統,最早是由Cloudera Desktop演化而來,由Cloudera貢獻給開源社區,它是基於Python Web框架Django實現的。通
過使用Hue我們可以在瀏覽器端的Web控制檯上與Hadoop集羣進行交互來分析處理數據,例如操作HDFS上的數據,運行MapReduce Job等等。

1)Hue架構、功能、編譯
2)Hue集成HDFS 
3)Hue集成MapReduce

4)Hue集成Hive、DataBase
5)Hue集成Oozie

六、大數據核心開發技術 - 分佈式數據庫HBase從入門到精通

HBase是一個分佈式的、面向列的開源數據庫,該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分佈式存儲系統”。HBase在
Hadoop之上提供了類似於Bigtable的能力,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大
規模結構化存儲集羣

一、HBase初窺使用

1)HBase是什麼、發展、與RDBMS相比優勢、企業使用
2)HBase Schema、表的設計
3)HBase 環境搭建、shell初步使用(CRUD等)

二、HBase 深入使用

1)HBase 數據存儲模型
2)HBase Java API使用(CRUD、SCAN等)
3)HBase 架構深入剖析
4)HBase 與MapReduce集成、數據導入導出

三、HBase 高級使用

1)如何設計表、表的預分區(依據具體業務分析講解)
2)HBase 表的常見屬性設置(結合企業實際)
3)HBase Admin操作(Java API、常見命令)

四、進行分析

1)依據需求設計表、創建表、預分區
2)進行業務查詢分析 
3)對於密集型讀和密集型寫進行HBase參數調優

七、大數據核心開發技術 - Storm實時數據處理

Storm是Twitter開源的分佈式實時大數據處理框架,被業界稱爲實時版Hadoop。 隨着越來越多的場景對Hadoop的MapReduce高延遲無法容忍,比如網站統計、
推薦系統、預警系統、金融系統(高頻交易、股票)等等, 大數據實時處理解決方案(流計算)的應用日趨廣泛,目前已是分佈式技術領域最新爆發點,而Storm更是
流計算技術中的佼佼者和主流。 按照storm作者的說法,Storm對於實時計算的意義類似於Hadoop對於批處理的意義。Hadoop提供了map、reduce原語,使我
們的批處理程序變得簡單和高效。 同樣,Storm也爲實時計算提供了一些簡單高效的原語,而且Storm的Trident是基於Storm原語更高級的抽象框架,類似於基於
Hadoop的Pig框架, 讓開發更加便利和高效。本課程會深入、全面的講解Storm,並穿插企業場景實戰講述Storm的運用。 淘寶雙11的大屏幕實時監控效果衝擊
了整個IT界,業界爲之驚歎的同時更是引起對該技術的探索。 可以自己開發升級版的“淘寶雙11”?

1)Storm簡介和課程介紹
2)Storm原理和概念詳解 
3)Zookeeper集羣搭建及基本使用 
4)Storm集羣搭建及測試 
5)API簡介和入門案例開發 
6)Spout的Tail特性、storm-starter及maven使用、Grouping策略 
7)實例講解Grouping策略及併發 
8)併發度詳解、案例開發(高併發運用) 
9)案例開發——計算網站PV,通過2種方式實現彙總型計算。 
10)案例優化引入Zookeeper鎖控制線程操作 
11)計算網站UV(去重計算模式) 
12)【運維】集羣統一啓動和停止shell腳本開發 
13)Storm事務工作原理深入講解 14)Storm事務API及案例分析

15)Storm事務案例實戰之 ITransactionalSpout 
16)Storm事務案例升級之按天計算 
17)Storm分區事務案例實戰 
18)Storm不透明分區事務案例實戰 
19)DRPC精解和案例分析 
20)Storm Trident 入門
21)Trident API和概念
22)Storm Trident實戰之計算網站PV
23)ITridentSpout、FirstN(取Top N)實現、流合併和Join
24)Storm Trident之函數、流聚合及核心概念State
25)Storm Trident綜合實戰一(基於HBase的State)
26)Storm Trident綜合實戰二
27)Storm Trident綜合實戰三
28)Storm集羣和作業監控告警開發

八、Spark技術實戰之基礎篇 -Scala語言從入門到精通

爲什麼要學習Scala?源於Spark的流行,Spark是當前最流行的開源大數據內存計算框架,採用Scala語言實現,各大公司都在使用Spark:IBM宣佈承諾大力推進
Apache Spark項目,並稱該項目爲:在以數據爲主導的,未來十年最爲重要的新的開源項目。這一承諾的核心是將Spark嵌入IBM業內領先的分析和商務平臺,
Scala具有數據處理的天然優勢,Scala是未來大數據處理的主流語言

1)-Spark的前世今生
2)-課程介紹、特色與價值 
3)-Scala編程詳解:基礎語法 
4)-Scala編程詳解:條件控制與循環 
5)-Scala編程詳解:函數入門 
6)-Scala編程詳解:函數入門之默認參數和帶名參數 
7)-Scala編程詳解:函數入門之變長參數 
8)-Scala編程詳解:函數入門之過程、lazy值和異常 
9)-Scala編程詳解:數組操作之Array、ArrayBuffer以及遍歷數組 
10)-Scala編程詳解:數組操作之數組轉換

11)-Scala編程詳解:Map與Tuple
12)-Scala編程詳解:面向對象編程之類 
13)-Scala編程詳解:面向對象編程之對象 
14)-Scala編程詳解:面向對象編程之繼承 
15)-Scala編程詳解:面向對象編程之Trait 
16)-Scala編程詳解:函數式編程 
17)-Scala編程詳解:函數式編程之集合操作 
18)-Scala編程詳解:模式匹配 
19)-Scala編程詳解:類型參數 
20)-Scala編程詳解:隱式轉換與隱式參數 
21)-Scala編程詳解:Actor入門

九、大數據核心開發技術 - 內存計算框架Spark

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點。啓用了內存分佈數據集,除
了能夠提供交互式查詢外,它還可以優化迭代工作負載。Spark Streaming: 構建在Spark上處理Stream數據的框架,基本的原理是將Stream數據分成小的時間片斷
(幾秒),以類似batch批量處理的方式來處理這小部分數據

1)Spark 初識入門
2)Spark 概述、生態系統、與MapReduce比較
3)Spark 編譯、安裝部署(Standalone Mode)及測試
4)Spark應用提交工具(spark-submit,spark-shell) 
5)Scala基本知識講解(變量,類,高階函數) 
6)Spark 核心RDD
7)RDD特性、常見操作、緩存策略 
8)RDD Dependency、Stage常、源碼分析
9)Spark 核心組件概述

10)案例分析
11)Spark 高階應用
12)Spark on YARN運行原理、運行模式及測試
13)Spark HistoryServer歷史應用監控
14)Spark Streaming流式計算
15)Spark Streaming 原理、DStream設計
16)Spark Streaming 常見input、out
17)Spark Streaming 與Kafka集成
18)使用Spark進行分析

十、大數據核心開發技術 - Spark深入剖析

1)Scala編程、Hadoop與Spark集羣搭建、Spark核心編程、Spark內核源碼深度剖析、Spark性能調優
2)Spark源碼剖析 

十一、企業大數據平臺高級應用

完成大數據相關企業場景與解決方案的剖析應用及結合一個電子商務平臺進行實戰分析,主要包括有: 企業大數據平臺概述、搭建企業
大數據平臺、真實服務器手把手環境部署、使用CM 5.3.x管理CDH 5.3.x集羣

1)企業大數據平臺概述
2)大數據平臺基本組件 
3)Hadoop 發行版本、比較、選擇
4)集羣環境的準備(系統、基本配置、規劃等) 
5)搭建企業大數據平臺 
6)以實際企業項目需求爲依據,搭建平臺 
7)需求分析(主要業務) 
8)框架選擇(Hive\HBase\Spark等)

9)真實服務器手把手環境部署
10)安裝Cloudera Manager 5.3.x
11)使用CM 5.3.x安裝CDH 5.3.x
12)如何使用CM 5.3.x管理CDH 5.3.x集羣
13)基本配置,優化 
14)基本性能測試 
15)各個組件如何使用

十二、項目實戰:驢媽媽旅遊網大型離線數據電商分析平臺

離線數據分析平臺是一種利用hadoop集羣開發工具的一種方式,主要作用是幫助公司對網站的應用有一個比較好的瞭解。尤其是在電商、旅遊、銀行、證券、遊戲
等領域有非常廣泛,因爲這些領域對數據和用戶的特性把握要求比較高,所以對於離線數據的分析就有比較高的要求了。 本課程講師本人之前在遊戲、旅遊等公司
專門從事離線數據分析平臺的搭建和開發等,通過此項目將所有大數據內容貫穿,並前後展示!

1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、離線數據分析,SpringMVC,Highchat
2)Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts實現的電商離線數據分析 
3)日誌收集系統、日誌分析、數據展示設計

十三、項目實戰:基於1號店的電商實時數據分析系統

1)全面掌握Storm完整項目開發思路和架構設計
2)掌握Storm Trident項目開發模式
3)掌握Kafka運維和API開發、與Storm接口開發 
4)掌握HighCharts各類圖表開發和實時無刷新加載數據 
5)熟練搭建CDH5生態環境完整平臺

6)靈活運用HBase作爲外部存儲
7)可以做到以一己之力完成從後臺開發(Storm、Kafka、Hbase開發) 
到前臺HighCharts圖表開發、Jquery運用等,所有工作一個人搞定! 
可以一個人搞定淘寶雙11大屏幕項目!

十四、項目實戰:基於美團網的大型離線電商數據分析平臺

本項目使用了Spark技術生態棧中最常用的三個技術框架,Spark Core、Spark SQL和Spark Streaming,進行離線計算和實時計算業務模塊的開發。實現了包括用
戶訪問session分析、頁面單跳轉化率統計、熱門商品離線統計、 廣告點擊流量實時統計4個業務模塊。過合理的將實際業務模塊進行技術整合與改造,
該項目完全涵蓋了Spark Core、Spark SQL和Spark Streaming這三個技術框架中幾乎所有的功能點、知識點以及性能優化點。 僅一個項目,即可全面掌握Spark
技術在實際項目中如何實現各種類型的業務需求!在項目中,重點講解了實際企業項目中積累下來的寶貴的性能調優 、troubleshooting以及數據傾斜解決方案等知識和技術

1)真實還原完整的企業級大數據項目開發流程:
項目中採用完全還原企業大數據項目開發場景的方式來講解,
每一個業務模塊的講解都包括了數據分析、需求分析、方案設計、數據庫設計、編碼實現、功能測試、性能調優、troubleshooting與解決數據傾斜(後期運維)等環節
,真實還原企業級大數據項目開發場景。
讓學員掌握真實大數據項目的開發流程和經驗!

2)現場Excel手工畫圖與寫筆記:所有複雜業務流程、架構原理
、Spark技術原理、業務需求分析、技術實現方案等知識的講解
,採用Excel畫圖或者寫詳細比較的方式進行講解與分析,
細緻入微、形象地透徹剖析理論知識,幫助學員更好的理解、記憶與複習鞏固。

十五、機器學習及實踐

基於PyMC語言以及一系列常用的Python數據分析框架,如NumPy、SciPy和Matplotlib,通過概率編程的方式,講解了貝葉斯推斷的原理和實現方法。
該方法常常可以在避免引入大量數學分析的前提下,有效地解決問題。課程中使用的案例往往是工作中遇到的實際問題,有趣並且實用。迴歸等算法有較爲深入的瞭解,以Python編程語言爲基礎,在不涉及大量數學模型與複雜編程知識的前提下,熟悉並且掌握當下最流行的機器學習算法,如迴歸、決策樹、SVM等,並通過代碼實例來 展示所討論的算法的實際應用。

1)Mahout、Spark MLlib概述 
2)機器學習概述 
3)線性迴歸及Mahout、SparkMLlib案例 
4)Logistic迴歸、softmax分類及Mahout、SparkMLlib案例 
5)KNN及Mahout、SparkMllib案例 
6)SVM及Mahout、SparkMllib案例 
7)決策樹及Mahout、SparkMllib案例

8)隨機森林及Mahout、SparkMllib案例 
9)GBDT及Mahout、SparkMllib案例 
10)KMeans及Mahout、SparkMllib案例 
11)貝葉斯及Mahout、SparkMllib案例 
12)集成學習 
13)特徵處理及模型優化

十六、推薦系統

開發推薦系統的方法,尤其是許多經典算法,重點探討如何衡量推薦系統的有效性。課程內容分爲基本概念和進展兩部分:前者涉及協同推薦、基於
內容的推薦、基於知識的推薦、混合推薦方法,推薦系統的解釋、評估推薦系統和實例分析;後者包括針對推薦系統的***、在線消費決策、推薦系統和下一代互聯網以及普適環境中的推薦

1)協同過濾推薦
2)基於內容的推薦
3)基於知識的推薦
4)混合推薦方法

5)推薦系統的解釋 
6)評估推薦系統
7)案例研究

十七、分佈式搜索引擎Elasticsearch開發

聯網+、大數據、網絡爬蟲、搜索引擎等等這些概念,如今可謂炙手可熱

1)Elasticsearch概念
2)Elasticsearch安裝和插件介紹
3)Elasticsearch基本使用和簡單查詢 
4)Elasticsearch的Java客戶端使用

5)Elasticsearch索引和Mapping 
6)Elasticsearch搜索深入 
7)Elasticsearch與Spring集成 
8)Elasticsearch實戰

十八、大數據高併發系統架構實戰方案(LVS負載均衡、Nginx、共享存儲、海量數據、隊列緩存 )

隨着互聯網的發展,高併發、大數據量的網站要求越來越高。而這些高要求都是基礎的技術和細節組合而成的。

十九、大數據高併發服務器實戰

隨着Web技術的普及,Internet上的各類網站第天都在雪崩式增長。但這些網站大多在性能上沒做過多考慮。當然,它們情況不同。有的是Web技術本身的原因(主
要是程序代碼問題),還有就是由於Web服務器未進行優化。不管是哪種情況,一但用戶量在短時間內激增,網站就會明顯變慢,甚至拒絕放訪問。要想有效地解決
這些問題,就只有依靠不同的優化技術。本課程就是主要用於來解決大型網站性能問題,能夠承受大數據、高併發。主要涉及 技術有:nginx、tomcat、memcached、redis緩存、負載均衡等高級開發技術

 

大數據分析、數據可視化

二十、Tableau商業智能與可視化應用實戰

Tableau的數據連接與編輯、圖形編輯與展示功能,包括數據連接與管理、基礎與高級圖形分析、地圖分析、高級數據操作、基礎統計分析、如何與R集成進行高級分析、分析圖表整合以及分析成果共享等主要內容。

1)什麼是數據可視化? 
2)如何用圖表講故事
3)Tableau發展歷程 
4)Tableau家族產品 
5)Tableau產品優勢 
6)Tableau Desktop安裝配置 
7)Tableau的導航與菜單 
8)Tableau設計流程最佳實踐 
9)Tableau數據類型與文件 
10)Tableau數據源初探 
11)數據源深入

12)工作表
13)Tableau中的函數與計算
14)Tableau高級分析與項目實戰
15)Tableau中的排序與篩選器
16)Tableau中的參數
17)Tableau圖表分析
18)Tableau地圖繪製與圖像
19)Tableau 儀表盤和故事
20)項目一_教育網站指標評估
21)項目二_網站用戶行爲分析
22)項目三_零售行業進銷存分析

二十一、Echarts從入門到上手實戰

對數據可視化技術有一個全面、系統、深入的瞭解,最終達到能夠利用Echarts圖表結合後端數據進行前端可視化報表展示的目的,

1)數據可視化概述 
2)什麼是數據可視化? 
3)經典可視化案例 
4)大數據可視化的價值 
5)數據可視化工具、案例、書籍 
6)Echarts概述 
7)Echarts特性介紹 
8)如何快速上手開發一個Echarts可視化圖表 
9)如何閱讀Echarts官方文檔 
10)Echarts學習必備基礎知識

11)Echarts3.x與Echarts2.x的區別 
12)Echarts基礎架構與常見名詞術語 
13)Echarts標準開發模板 
14)十大常見圖表_小結 
15)Echarts圖表高級
16)北上廣最佳前10航行路線圖
17)豆瓣最新熱映電影排名分析
18)圖表適用場景
19)數據可視化方法 
20)數據可視化誤區

 

二十二、Vue.js快速上手

Vue.js是一套構建用戶界面的輕量級MVVM框架,與其他重量級框架不同的是, Vue.js 的核心庫只關注視圖層,並且非常容易學習,很容易與其它前端技術或已有的項目整合。 本課程主要分兩部分講解:1.掌握Vue.js設計規範的語法; 

1)Vue.js簡介和MVC、MVP以及MVVM架構
2)Vue.js介紹、開發工具的介紹以及HelloWorld程序演示
3)Vue.js的構造器和擴展
4)Vue實例的屬性
5)Vue實例生命週期
6)計算屬性及案例
7)方法調用
8)觀察屬性
9)文本、HTML插值
10)屬性插值和表達式
11)指令的格式
12)條件指令
13)v-show指令
14)v-bind指令
15)列表渲染
16)過濾器
17)事件處理

18)事件修飾符
19)表單處理
20)自定義組件
21)過渡效果
22)動畫效果
23)過渡和動畫的回調函數
24)路由技術
25)混合
26)Render函數
27)單文件工程
28)單元測試
29)服務器端渲染
30)生產環境部署
31)動態評分案例
32)圖片輪播案例
33)OLTP系統的管理界面
34)聊天室案例


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章