《Hadoop大數據零基礎高端實戰培訓系列配文本挖掘項目(七大亮點、十大目標)》
課程講師:迪倫
課程分類:大數據
適合人羣:初級
課時數量:230課時
用到技術:部署Hadoop集羣
涉及項目:京東商城、百度、阿里巴巴
諮詢QQ:1609173918
下載地址:
鏈接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542
密碼:8tkb
第一階段:Hadoop基礎篇(50課時) - 千里之行,始於足下(贈送課程)
課程一、基於Linux操作系統平臺下的Java語言開發(20課時)
本套課程主要介紹了Linux系統下的Java環境搭建及最基礎的Java語法知識。學習Linux操作系統下Java語言開發的好處 好處一:不再束縛在Windows操作系統下,開闊眼界。
好處二:熟練Linux操作系統的指令,走出“指指點點”的開發,成爲真正的代碼程序員。
好處三:增加自己的競爭實力,爲自己應聘時加上濃濃的一筆。
第一講 安裝虛擬機以及Linux操作系統
第二講 Linux桌面系統
第三講 Linux文件和目錄管理
第四講 VIM的使用(上)
第五講 VIM的使用(下)
第六講 Linux終端常用命令
第七講 Java開發環境的搭建
第八講 Java語言基礎(上)
第九講 Java語言基礎(下)
第十講 Java中IO詳解(上)
第十一講 Java中IO詳解(下)
第十二講 Java中容器詳解(上)
第十三講 Java中容器詳解(下)
第十四講 Java中Swing詳解(上)
第十五講 Java中Swing詳解(下)
第十六講 JSP開發環境的搭建
第十七講 JSP語法詳解(上)
第十八講 JSP語法詳解(下)
第十九講 開發用戶登陸,用戶註冊系統
課程二、零基礎實戰Mysql數據庫應用開發(30課時)
通過本課程的學習,用戶可在最短的時間內掌握MySQL的安裝配置與使用、MySQL DML特性的高級用法、MySQL常見內置函數的高級用法、MySQL中存儲過程寫法、視圖、用戶自定義函數、觸發器等高級用法、MySQL中的事務功能。並瞭解圖形化管理工具的使用、字符集及亂碼處理、MySQL的數據備份與還原技術、MySQL的安全技術、MySQL的系統管理、MySQL集羣的配置。
第一部分:安裝配置MySQL數據庫(1課時)
第二部分:圖形化管理工具(2課時)
第三部分:存儲引擎及數據庫基本操作(2課時)
第四部分:字符集及亂碼處理(2課時)
第五部分:MySQL DML特性的高級用法(5課時)
第六部分:MySQL內置函數(1課時)
第七部分: MySQL 中的存儲過程、觸發器高級應用(2課時)
第八部分:MySQL中視圖與事務高級應用(3課時)
第九部分:MySQL中索引的使用(1課時)
第十部分:MySQL數據庫的安全技術(1課時)
第十一部分:系統管理(1課時)
第十二部分:MySQL備份和還原操作(1課時)
第十三部分:性能優化(1課時)
第十四部分:集羣的配置及應用(1課時)
第二階段:Hadoop全面深入篇(96課時) - 十年寒窗苦,成名天下知
課程一、 Greenplum 分佈式數據庫開發入門到精通(41課時)
Greenplum的架構採用了MPP(大規模並行處理)。在 MPP 系統中,每個 SMP 節點也可以運行自己的操作系統、數據庫等,它的特點主要就是查詢速度快,數據裝載速度快,批量DML處理快。而且性能可以隨着硬件的添加,呈線性增加,擁有非常良好的可擴展性。因此,它主要適用於面向分析的應用。比如構建企業級ODS/EDW,或者數據集市等等。本課程全面深入地介紹了Greenplum數據庫,包括架構特性、部署、管理、開發和調優等,由淺入深,理論結合實戰,讓同學全面徹底掌握這把大數據利劍。
一、 Greenplum架構
什麼是Greenplum
Greenplum體系結構
Greenplum高可用性架構
二、安裝Greenplum
配置環境
安裝並初始化GPDB系統
啓停數據庫
配置GP系統
三、分佈式數據庫存儲
數據是如何存儲的
分佈策略
四、 GBDB查詢處理
查詢命令的執行
SQL查詢處理機制
並行查詢計劃
五、角色權限及客戶端認證管理
客戶端認證
管理用戶和組
六、客戶端接口和程序
pgAdmin III
PSQL
七、定義數據庫對象
創建並管理數據庫
創建並管理表空間
創建並管理模式
創建並管理表
分區表
數據分佈與分區
壓縮存儲與行列存儲
序列、索引與視圖
八、管理數據
插入、更新、刪除記錄
事務管理
空間回收和統計
九、查詢數據
定義查詢
使用函數和運算符
查詢分析
十、工作負載及資源管理
GP工作負載管理概述
配置工作負載管理
創建資源隊列
分配資源隊列
檢查資源隊列狀態
十一、裝載和卸載數據
GP裝載命令概述
裝載數據到GP
從GP卸載數據
格式化數據文件
十二、備份恢復
串行備份和恢復
並行恢復和恢復
十三、性能調優
如何進行調優
常見的性能問題
十四、GP系統配置參數
關於GP的Master參數與本地化參數
設置配置參數
配置參數種類
十五、開啓高可用性
GP高可用概述
開啓GP的Mirror
獲知Segment何時失敗
恢復失敗的Segment
恢復失敗的Master
十六、GP MapReduce
MapReduce基礎
GP MapReduce編程
MapReduce作業執行和故障診斷
課程二、全面深入Greenplum Hadoop大數據分析平臺(55課時)
大量的半結構化和非結構化信息無法管理和存儲,大數據增長速度驚人,每年以幾何級數速度增長,需要有專業化的解決方案應對大數據挑戰。EMC收購了Greenplum之後,推出的針對Hadoop的Greenplum的數據庫軟件。
採用Greenplum HD技術管理半結構化和非結構化信息,整體TCO更低,除了進行有效存儲和管理,可以通過MapReduce技術進行並行的分析和挖掘,把大量的數據存儲變成有價值的數據資產。本課程深入闡述了Hadoop的架構原理,Hadoop整體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等實戰運用。另外還介紹了雲計算的基礎知識和Hadoop在雲計算領域的運用,以及剖析了Hadoop在各個互聯網巨頭商業環境的運用。
一、 Hadoop的起源和體系
Hadoop思想起源:Google
Hadoop子項目家族
Hadoop的架構
二、 Hadoop的安裝與配置
準備和配置環境
三種運行模式
完全分佈式模式安裝
三、 HDFS-大數據存儲
HDFS概念與體系結構
HDFS的可靠性
HDFS文件操作
HDFS API
四、 關於MapReduce
MapReduce編程模型
MapReduce的集羣行爲
MapReduce任務的優化
MapReduce工作機制
錯誤處理及作業調度機制
五、 MapReduce應用開發
Hadoop Eclipse插件開發
數據篩選程序開發
倒排索引程序開發
六、 Hadoop監控與管理
頁面監控
hadoop備份
七、 HBase數據庫
Hbase體系結構
HBase shell
HBase API應用實例
HBase場景應用
HBase模式設計
八、 Hive數據倉庫
Hive組件與體系架構
Hive安裝配置
Hive的服務接口
HiveQL常用操作
Hive的優化
Hive UDF編程
Hive綜合實戰
九、 Pig數據分析平臺
Pig框架
Pig安裝配置
Pig的使用
Pig的數據模型
常用Pig Latin操作
Pig UDF編程
Pig數據分析實戰
十、ZooKeeper分佈式服務框架
ZooKeeper工作原理
ooKeeper設計目標
ZooKeeper的數據結構和組成
ZooKeeper的安裝配置
ZooKeeper命令行工具
ZooKeeper API
ZooKeeper實戰:Hadoop任務調度
十一、 Chukwa集羣監控系統
Chukwa的組成
Chukwa架構和設計
Chukwa安裝與配置
常用Chukwa命令
實現自定義數據處理
十二、 Hadoop商業應用案例
雲計算概念和特徵
雲計算服務模式和形態
Hadoop在雲計算的運用
京東商城
百度
阿里巴巴
騰訊
十三、 Greenplum Hadoop集羣
集成架構的特徵
集成架構的優勢
配置gphdfs協議使用環境
使用HDFS外部表
第三階段:Hadoop高階應用篇(81課時) - 會當臨絕頂,一覽衆山小
課程一:Hadoop2.0/YARN深入淺出(21課時)
詳細講解了Hadoop 2.0架構、部署以及YARN,並講解了運行在YARN上主要的計算框架,包括Spark、Storm和Tez
一、Hadoop 2.0(6課時)
Hadoop 2.0產生背景
Hadoop 2.0基本構成
二、HDFS 2.0
MapReduce 2.0
Hadoop 2.0安裝配置
集羣測試
三、YARN資源管理系統(4課時)
YARN產生背景
YARN基本設計思想
YARN基本架構
YARN工作流程
YARN通信協議
YARN容錯
YARN資源調度機制
四、YARN支持的計算框架(Storm,Tez,Spark)(11課時)
以YARN爲核心的生態系統
Storm基本概念
Storm流式計算框架
基於YARN的Storm架構
YARN-Storm部署
Storm On YARN服務
Apache Tez介紹
Tez特點
Tez數據處理引擎
DAGAppMaster實現
Tez優化機制
Tez應用場景
Tez部署
什麼是Spark
Spark生態系統
Spark的核心--RDD和Lineage
RDD的存儲、容錯機制、內部設計及數據模型
Spark調度框架
Spark的分佈式部署方式
基於Mesos的Spark模式
基於YARN的Spark模式
Spark的獨立模式部署
Spark的YARN模式部署
課程二:MapReduce/Hbase進階提升(29課時)
本部分內容主要針對MapReduce和HBase的高階應用做深入的講解和實戰演練
一、MapReduce多語言編程(5課時)
MapReduce編程接口
Java編程接口實例解析
Hadoop Streaming實現方式
Hadoop Streaming編程實戰(C++,PHP,PYTHON)
Hadoop Streaming原理剖析
Hadoop Pipes的編程實例
Hadoop Pipes的原理剖析
二、MapReduce高階實現(14課時)
複雜的MapReduce應用
K-means聚類、貝葉斯分類等
工作流編程實例及原理剖析
JobControl、ChainMapper/ChainReducer
Hadoop工作流引擎
常用MapReduce優化技巧
配置多個reducer
設置Stream的處理格式
控制分片的大小
避免分片
輸入格式:文本輸入、多種類型輸入
輸出控制:多個輸出、延遲輸出
實戰:數據分區 ?
MapReduce高級特性
計數器、內置計數器
實例:用戶自定義計數器
MapReduce部分排序的實現
實例:MapReduce全排序
Terasort算法分析
實例:MapReduce實現二次排序
連接、Map端連接的實現
實例:Reduce端連接
連接類型、連接策略介紹
重分區連接框架的實現
複製連接框架的實現
實例:半連接
全局作業參數/數據文件傳遞
三、HBase編程實踐及案例分析(10課時)
HBase基礎精講
HBase Java編程實例
HBase多語言編程
Thrift安裝、服務配置
HBase C++編程實例
HBase Python編程實例
HBase MapReduce編程基礎
實戰:HBase MapReduce編程
Hbase案例:OpenTSDB的實現
基於HBase的爬蟲調度庫
基於HBase的爬蟲索引庫
銀行人民幣查詢系統
課程三:Hadoop Sqoop/Flume/Avro實戰(14課時)
Hadoop Sqoop、Flume、Avro重要子項目的技術實戰
一、Sqoop(6課時)
Sqoop產生背景、基本
Sqoop1和Sqoop2架構及特點
Sqoop1安裝配置(版本1.4.4)
Sqoop導入介紹
實戰:從mysql導入數據到HDFS
實戰:從mysql導入數據到Hive
Sqoop導出介紹
實戰:將Hive數據導出到Mysql
Sqoop與Hbase結合
Sqoop作業操作
Sqoop作業安全配置
Sqoop2安裝配置(版本1.99.3)
Sqoop2使用綜合實戰
二、Flume日誌收集系統(7課時)
Flume概念和特點
Flume OG架構、組成、特點、容錯機制設計
日誌收集系統綜合比較
Flume NG架構、核心概念
Flume OG的安裝
Flume OG的配置(Web端、Flume shell)
Flume NG的安裝配置、測試
Flume NG模塊配置(Source、Channel、Sink)
三、Avro數據序列化系統(1課時)
Avro介紹
Avro特性、主要作用
RPC使用Avro
Avro與其他序列化系統的區別
課程四:深入淺出Hadoop Mahout數據挖掘實戰(17課時)
1、Mahout數據挖掘工具
2、Hadoop實現推薦系統的綜合實戰,涉及到MapReduce、Pig和Mahout的綜合實戰
一、Mahout數據挖掘工具(10課時)
數據挖掘概念、系統組成
數據挖掘常用方法及算法(迴歸分析、分類、聚類等)
數據挖掘分析工具
Mahout支持的算法
Mahout起源和特點
Mahout安裝、配置及測試
實戰:Mahout K-means聚類分析
Mahout實現Canopy算法
Mahout實現分類算法
實戰:Mahout邏輯迴歸分類預測
實戰:Mahout樸素貝葉斯分類
推薦系統的概念及分類
協同過濾推薦算法概念、分類及應用
實戰:實現基於Mahout的電影推薦系統
二、Hadoop綜合實戰-文本挖掘項目(7課時)
文本挖掘的概念及應用場景
項目背景
項目流程
中文分詞技術
庖丁分詞器的使用
MapReduce並行分詞程序的設計與實現
Pig劃分數據集
Mahout構建樸素貝葉斯文本分類器
模型應用-計算用戶偏好類別