大數據學習方向
一、大數據運維之Linux基礎
打好Linux基礎,以便更好地學習Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等。因爲企業
中的項目基本上都是使用Linux環境下搭建或部署的。
1)Linux系統概述 | 6)用戶和用戶組管理 |
很多初學者,對大數據的概念都是模糊不清的,大數據是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大數據學習qq羣:199427210,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大數據講師給大家免費授課,給大家分享目前國內最完整的大數據高端實戰實用學習流程體系
二、大數據開發核心技術 - Hadoop 2.x從入門到精通
大數據的基石:其一,分佈式文件系統HDFS用於存儲海量數據,無論是Hive、HBase或者Spark數據存儲在其上面;其二是分佈式資源管理框架
YARN,是Hadoop 雲操作系統(也稱數據系統),管理集羣資源和分佈式數據處理框架MapReduce、Spark應用的資源調度與監控;分佈式並行計算框架
MapReduce目前是海量數據並行處理的一個最常用的框架。Hadoop 2.x的編譯、環境搭建、HDFS Shell使用,YARN 集羣資源管理與任務監控,MapReduce編
程,分佈式集羣的部署管理(包括高可用性HA)必須要掌握的。
一、初識Hadoop 2.x 1)大數據應用發展、前景 | 二、深入Hadoop 2.x 1)HDFS文件系統的架構、功能、設計 |
三、高級Hadoop 2.x 1)分佈式部署Hadoop 2.x |
三、大數據開發核心技術 - 大數據倉庫Hive
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行
運行。其優點是學習成本低,可以通類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
一、Hive 初識入門 1)Hive功能、體系結構、使用場景 | 二、Hive深入使用 1)Hive中的內部表、外部表、分區表 |
三、Hive高級進階 1)Hive數據的存儲和壓縮 | 四、結合實際案例分析 1)依據業務設計表 |
四、大數據協作框架 - Sqoop/Flume/Oozie
Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL
,Oracle ,Postgres等)中的數據導進到關係型數據庫中。Sqoop項目開始於2009年,最早是作爲Hadoop的一個第三方模塊存在,後來爲了讓使用者能夠快速部
署,也爲了讓開發人員能夠更快速的迭×××發,Sqoop獨立成爲一個Apache項目。
一、數據轉換工具Sqoop 1)Sqoop功能、使用原則 | 二、文件收集框架Flume 1)Flume 設計架構、原理(三大組件) |
三、Oozie功能、安裝部署 1)使用Oozie調度MapReduce Job和HiveQL |
五、大數據Web開發框架 - 大數據WEB 工具Hue
Hue是一個開源的Apache Hadoop UI系統,最早是由Cloudera Desktop演化而來,由Cloudera貢獻給開源社區,它是基於Python Web框架Django實現的。通
過使用Hue我們可以在瀏覽器端的Web控制檯上與Hadoop集羣進行交互來分析處理數據,例如操作HDFS上的數據,運行MapReduce Job等等。
1)Hue架構、功能、編譯 | 4)Hue集成Hive、DataBase |
六、大數據核心開發技術 - 分佈式數據庫HBase從入門到精通
HBase是一個分佈式的、面向列的開源數據庫,該技術來源於 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分佈式存儲系統”。HBase在
Hadoop之上提供了類似於Bigtable的能力,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大
規模結構化存儲集羣
一、HBase初窺使用 1)HBase是什麼、發展、與RDBMS相比優勢、企業使用 | 二、HBase 深入使用 1)HBase 數據存儲模型 |
三、HBase 高級使用 1)如何設計表、表的預分區(依據具體業務分析講解) | 四、進行分析 1)依據需求設計表、創建表、預分區 |
七、大數據核心開發技術 - Storm實時數據處理
Storm是Twitter開源的分佈式實時大數據處理框架,被業界稱爲實時版Hadoop。 隨着越來越多的場景對Hadoop的MapReduce高延遲無法容忍,比如網站統計、
推薦系統、預警系統、金融系統(高頻交易、股票)等等, 大數據實時處理解決方案(流計算)的應用日趨廣泛,目前已是分佈式技術領域最新爆發點,而Storm更是
流計算技術中的佼佼者和主流。 按照storm作者的說法,Storm對於實時計算的意義類似於Hadoop對於批處理的意義。Hadoop提供了map、reduce原語,使我
們的批處理程序變得簡單和高效。 同樣,Storm也爲實時計算提供了一些簡單高效的原語,而且Storm的Trident是基於Storm原語更高級的抽象框架,類似於基於
Hadoop的Pig框架, 讓開發更加便利和高效。本課程會深入、全面的講解Storm,並穿插企業場景實戰講述Storm的運用。 淘寶雙11的大屏幕實時監控效果衝擊
了整個IT界,業界爲之驚歎的同時更是引起對該技術的探索。 可以自己開發升級版的“淘寶雙11”?
1)Storm簡介和課程介紹 | 15)Storm事務案例實戰之 ITransactionalSpout |
八、Spark技術實戰之基礎篇 -Scala語言從入門到精通
爲什麼要學習Scala?源於Spark的流行,Spark是當前最流行的開源大數據內存計算框架,採用Scala語言實現,各大公司都在使用Spark:IBM宣佈承諾大力推進
Apache Spark項目,並稱該項目爲:在以數據爲主導的,未來十年最爲重要的新的開源項目。這一承諾的核心是將Spark嵌入IBM業內領先的分析和商務平臺,
Scala具有數據處理的天然優勢,Scala是未來大數據處理的主流語言
1)-Spark的前世今生 | 11)-Scala編程詳解:Map與Tuple |
九、大數據核心開發技術 - 內存計算框架Spark
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點。啓用了內存分佈數據集,除
了能夠提供交互式查詢外,它還可以優化迭代工作負載。Spark Streaming: 構建在Spark上處理Stream數據的框架,基本的原理是將Stream數據分成小的時間片斷
(幾秒),以類似batch批量處理的方式來處理這小部分數據
1)Spark 初識入門 | 10)案例分析 |
十、大數據核心開發技術 - Spark深入剖析
1)Scala編程、Hadoop與Spark集羣搭建、Spark核心編程、Spark內核源碼深度剖析、Spark性能調優 |
十一、企業大數據平臺高級應用
完成大數據相關企業場景與解決方案的剖析應用及結合一個電子商務平臺進行實戰分析,主要包括有: 企業大數據平臺概述、搭建企業
大數據平臺、真實服務器手把手環境部署、使用CM 5.3.x管理CDH 5.3.x集羣
1)企業大數據平臺概述 | 9)真實服務器手把手環境部署 |
十二、項目實戰:驢媽媽旅遊網大型離線數據電商分析平臺
離線數據分析平臺是一種利用hadoop集羣開發工具的一種方式,主要作用是幫助公司對網站的應用有一個比較好的瞭解。尤其是在電商、旅遊、銀行、證券、遊戲
等領域有非常廣泛,因爲這些領域對數據和用戶的特性把握要求比較高,所以對於離線數據的分析就有比較高的要求了。 本課程講師本人之前在遊戲、旅遊等公司
專門從事離線數據分析平臺的搭建和開發等,通過此項目將所有大數據內容貫穿,並前後展示!
1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、離線數據分析,SpringMVC,Highchat |
十三、項目實戰:基於1號店的電商實時數據分析系統
1)全面掌握Storm完整項目開發思路和架構設計 | 6)靈活運用HBase作爲外部存儲 |
十四、項目實戰:基於美團網的大型離線電商數據分析平臺
本項目使用了Spark技術生態棧中最常用的三個技術框架,Spark Core、Spark SQL和Spark Streaming,進行離線計算和實時計算業務模塊的開發。實現了包括用
戶訪問session分析、頁面單跳轉化率統計、熱門商品離線統計、 廣告點擊流量實時統計4個業務模塊。過合理的將實際業務模塊進行技術整合與改造,
該項目完全涵蓋了Spark Core、Spark SQL和Spark Streaming這三個技術框架中幾乎所有的功能點、知識點以及性能優化點。 僅一個項目,即可全面掌握Spark
技術在實際項目中如何實現各種類型的業務需求!在項目中,重點講解了實際企業項目中積累下來的寶貴的性能調優 、troubleshooting以及數據傾斜解決方案等知識和技術
1)真實還原完整的企業級大數據項目開發流程: | 2)現場Excel手工畫圖與寫筆記:所有複雜業務流程、架構原理 |
十五、機器學習及實踐
基於PyMC語言以及一系列常用的Python數據分析框架,如NumPy、SciPy和Matplotlib,通過概率編程的方式,講解了貝葉斯推斷的原理和實現方法。
該方法常常可以在避免引入大量數學分析的前提下,有效地解決問題。課程中使用的案例往往是工作中遇到的實際問題,有趣並且實用。迴歸等算法有較爲深入的瞭解,以Python編程語言爲基礎,在不涉及大量數學模型與複雜編程知識的前提下,熟悉並且掌握當下最流行的機器學習算法,如迴歸、決策樹、SVM等,並通過代碼實例來 展示所討論的算法的實際應用。
1)Mahout、Spark MLlib概述 | 8)隨機森林及Mahout、SparkMllib案例 |
十六、推薦系統
開發推薦系統的方法,尤其是許多經典算法,重點探討如何衡量推薦系統的有效性。課程內容分爲基本概念和進展兩部分:前者涉及協同推薦、基於
內容的推薦、基於知識的推薦、混合推薦方法,推薦系統的解釋、評估推薦系統和實例分析;後者包括針對推薦系統的***、在線消費決策、推薦系統和下一代互聯網以及普適環境中的推薦
1)協同過濾推薦 | 5)推薦系統的解釋 |
十七、分佈式搜索引擎Elasticsearch開發
聯網+、大數據、網絡爬蟲、搜索引擎等等這些概念,如今可謂炙手可熱
1)Elasticsearch概念 | 5)Elasticsearch索引和Mapping |
十八、大數據高併發系統架構實戰方案(LVS負載均衡、Nginx、共享存儲、海量數據、隊列緩存 )
隨着互聯網的發展,高併發、大數據量的網站要求越來越高。而這些高要求都是基礎的技術和細節組合而成的。
十九、大數據高併發服務器實戰
隨着Web技術的普及,Internet上的各類網站第天都在雪崩式增長。但這些網站大多在性能上沒做過多考慮。當然,它們情況不同。有的是Web技術本身的原因(主
要是程序代碼問題),還有就是由於Web服務器未進行優化。不管是哪種情況,一但用戶量在短時間內激增,網站就會明顯變慢,甚至拒絕放訪問。要想有效地解決
這些問題,就只有依靠不同的優化技術。本課程就是主要用於來解決大型網站性能問題,能夠承受大數據、高併發。主要涉及 技術有:nginx、tomcat、memcached、redis緩存、負載均衡等高級開發技術
大數據分析、數據可視化
二十、Tableau商業智能與可視化應用實戰
Tableau的數據連接與編輯、圖形編輯與展示功能,包括數據連接與管理、基礎與高級圖形分析、地圖分析、高級數據操作、基礎統計分析、如何與R集成進行高級分析、分析圖表整合以及分析成果共享等主要內容。
1)什麼是數據可視化? | 12)工作表 |
二十一、Echarts從入門到上手實戰
對數據可視化技術有一個全面、系統、深入的瞭解,最終達到能夠利用Echarts圖表結合後端數據進行前端可視化報表展示的目的,
1)數據可視化概述 | 11)Echarts3.x與Echarts2.x的區別 |
二十二、Vue.js快速上手
Vue.js是一套構建用戶界面的輕量級MVVM框架,與其他重量級框架不同的是, Vue.js 的核心庫只關注視圖層,並且非常容易學習,很容易與其它前端技術或已有的項目整合。 本課程主要分兩部分講解:1.掌握Vue.js設計規範的語法;
1)Vue.js簡介和MVC、MVP以及MVVM架構 | 18)事件修飾符 |