Hadoop大數據零基礎高端實戰培訓系列配文本挖掘項目

《Hadoop大數據零基礎高端實戰培訓系列配文本挖掘項目(七大亮點、十大目標)》 

課程講師:迪倫 

課程分類:大數據 

適合人羣:初級 

課時數量:230課時 

用到技術:部署Hadoop集羣 

涉及項目:京東商城、百度、阿里巴巴 

諮詢QQ:1609173918 


下載地址: 

鏈接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542 

密碼:8tkb 



第一階段:Hadoop基礎篇(50課時) - 千里之行,始於足下(贈送課程) 


課程一、基於Linux操作系統平臺下的Java語言開發(20課時) 


本套課程主要介紹了Linux系統下的Java環境搭建及最基礎的Java語法知識。學習Linux操作系統下Java語言開發的好處 好處一:不再束縛在Windows操作系統下,開闊眼界。 

好處二:熟練Linux操作系統的指令,走出“指指點點”的開發,成爲真正的代碼程序員。 

好處三:增加自己的競爭實力,爲自己應聘時加上濃濃的一筆。 


第一講 安裝虛擬機以及Linux操作系統 

第二講 Linux桌面系統 

第三講 Linux文件和目錄管理 

第四講 VIM的使用(上) 

第五講 VIM的使用(下) 

第六講 Linux終端常用命令 

第七講 Java開發環境的搭建 

第八講 Java語言基礎(上) 

第九講 Java語言基礎(下) 

第十講 Java中IO詳解(上) 

第十一講 Java中IO詳解(下) 

第十二講 Java中容器詳解(上) 

第十三講 Java中容器詳解(下) 

第十四講 Java中Swing詳解(上) 

第十五講 Java中Swing詳解(下) 

第十六講 JSP開發環境的搭建 

第十七講 JSP語法詳解(上) 

第十八講 JSP語法詳解(下) 

第十九講 開發用戶登陸,用戶註冊系統 


課程二、零基礎實戰Mysql數據庫應用開發(30課時) 

通過本課程的學習,用戶可在最短的時間內掌握MySQL的安裝配置與使用、MySQL DML特性的高級用法、MySQL常見內置函數的高級用法、MySQL中存儲過程寫法、視圖、用戶自定義函數、觸發器等高級用法、MySQL中的事務功能。並瞭解圖形化管理工具的使用、字符集及亂碼處理、MySQL的數據備份與還原技術、MySQL的安全技術、MySQL的系統管理、MySQL集羣的配置。 

第一部分:安裝配置MySQL數據庫(1課時) 

第二部分:圖形化管理工具(2課時) 

第三部分:存儲引擎及數據庫基本操作(2課時) 

第四部分:字符集及亂碼處理(2課時) 

第五部分:MySQL DML特性的高級用法(5課時) 

第六部分:MySQL內置函數(1課時) 

第七部分: MySQL 中的存儲過程、觸發器高級應用(2課時) 

第八部分:MySQL中視圖與事務高級應用(3課時) 

第九部分:MySQL中索引的使用(1課時) 

第十部分:MySQL數據庫的安全技術(1課時) 

第十一部分:系統管理(1課時) 

第十二部分:MySQL備份和還原操作(1課時) 

第十三部分:性能優化(1課時) 

第十四部分:集羣的配置及應用(1課時) 



第二階段:Hadoop全面深入篇(96課時) - 十年寒窗苦,成名天下知 


課程一、 Greenplum 分佈式數據庫開發入門到精通(41課時) 


Greenplum的架構採用了MPP(大規模並行處理)。在 MPP 系統中,每個 SMP 節點也可以運行自己的操作系統、數據庫等,它的特點主要就是查詢速度快,數據裝載速度快,批量DML處理快。而且性能可以隨着硬件的添加,呈線性增加,擁有非常良好的可擴展性。因此,它主要適用於面向分析的應用。比如構建企業級ODS/EDW,或者數據集市等等。本課程全面深入地介紹了Greenplum數據庫,包括架構特性、部署、管理、開發和調優等,由淺入深,理論結合實戰,讓同學全面徹底掌握這把大數據利劍。 


一、 Greenplum架構 

什麼是Greenplum 

Greenplum體系結構 

Greenplum高可用性架構 


二、安裝Greenplum 

配置環境 

安裝並初始化GPDB系統 

啓停數據庫 

配置GP系統 


三、分佈式數據庫存儲 

數據是如何存儲的 

分佈策略 


四、 GBDB查詢處理 

查詢命令的執行 

SQL查詢處理機制 

並行查詢計劃 

五、角色權限及客戶端認證管理 

客戶端認證 

管理用戶和組 


六、客戶端接口和程序 

pgAdmin III 

PSQL 


七、定義數據庫對象 

創建並管理數據庫 

創建並管理表空間 

創建並管理模式 

創建並管理表 

分區表 

數據分佈與分區 

壓縮存儲與行列存儲 

序列、索引與視圖 


八、管理數據 

插入、更新、刪除記錄 

事務管理 

空間回收和統計 


九、查詢數據 

定義查詢 

使用函數和運算符 

查詢分析 


十、工作負載及資源管理 

GP工作負載管理概述 

配置工作負載管理 

創建資源隊列 

分配資源隊列 

檢查資源隊列狀態 


十一、裝載和卸載數據 

GP裝載命令概述 

裝載數據到GP 

從GP卸載數據 

格式化數據文件 


十二、備份恢復 

串行備份和恢復 

並行恢復和恢復 

十三、性能調優 

如何進行調優 

常見的性能問題 


十四、GP系統配置參數 

關於GP的Master參數與本地化參數 

設置配置參數 

配置參數種類 


十五、開啓高可用性 

GP高可用概述 

開啓GP的Mirror 

獲知Segment何時失敗 

恢復失敗的Segment 

恢復失敗的Master 


十六、GP MapReduce 

MapReduce基礎 

GP MapReduce編程 

MapReduce作業執行和故障診斷 


課程二、全面深入Greenplum Hadoop大數據分析平臺(55課時) 


大量的半結構化和非結構化信息無法管理和存儲,大數據增長速度驚人,每年以幾何級數速度增長,需要有專業化的解決方案應對大數據挑戰。EMC收購了Greenplum之後,推出的針對Hadoop的Greenplum的數據庫軟件。 

採用Greenplum HD技術管理半結構化和非結構化信息,整體TCO更低,除了進行有效存儲和管理,可以通過MapReduce技術進行並行的分析和挖掘,把大量的數據存儲變成有價值的數據資產。本課程深入闡述了Hadoop的架構原理,Hadoop整體技術架構,包括HBase、Hive、Pig、ZooKeeper、Chukwa等實戰運用。另外還介紹了雲計算的基礎知識和Hadoop在雲計算領域的運用,以及剖析了Hadoop在各個互聯網巨頭商業環境的運用。 


一、 Hadoop的起源和體系 

Hadoop思想起源:Google 

Hadoop子項目家族 

Hadoop的架構 


二、 Hadoop的安裝與配置 

準備和配置環境 

三種運行模式 

完全分佈式模式安裝 


三、 HDFS-大數據存儲 

HDFS概念與體系結構 

HDFS的可靠性 

HDFS文件操作 

HDFS API 


四、 關於MapReduce 

MapReduce編程模型 

MapReduce的集羣行爲 

MapReduce任務的優化 

MapReduce工作機制 

錯誤處理及作業調度機制 


五、 MapReduce應用開發 

Hadoop Eclipse插件開發 

數據篩選程序開發 

倒排索引程序開發 


六、 Hadoop監控與管理 

頁面監控 

hadoop備份 


七、 HBase數據庫 

Hbase體系結構 

HBase shell 

HBase API應用實例 

HBase場景應用 

HBase模式設計 


八、 Hive數據倉庫 

Hive組件與體系架構 

Hive安裝配置 

Hive的服務接口 

HiveQL常用操作 

Hive的優化 

Hive UDF編程 

Hive綜合實戰 


九、 Pig數據分析平臺 

Pig框架 

Pig安裝配置 

Pig的使用 

Pig的數據模型 

常用Pig Latin操作 

Pig UDF編程 

Pig數據分析實戰 


十、ZooKeeper分佈式服務框架 

ZooKeeper工作原理 

ooKeeper設計目標 

ZooKeeper的數據結構和組成 

ZooKeeper的安裝配置 

ZooKeeper命令行工具 

ZooKeeper API 

ZooKeeper實戰:Hadoop任務調度 


十一、 Chukwa集羣監控系統 

Chukwa的組成 

Chukwa架構和設計 

Chukwa安裝與配置 

常用Chukwa命令 

實現自定義數據處理 


十二、 Hadoop商業應用案例 

雲計算概念和特徵 

雲計算服務模式和形態 

Hadoop在雲計算的運用 

京東商城 

百度 

阿里巴巴 

騰訊 


十三、 Greenplum Hadoop集羣 

集成架構的特徵 

集成架構的優勢 

配置gphdfs協議使用環境 

使用HDFS外部表 


第三階段:Hadoop高階應用篇(81課時) - 會當臨絕頂,一覽衆山小 


課程一:Hadoop2.0/YARN深入淺出(21課時) 

詳細講解了Hadoop 2.0架構、部署以及YARN,並講解了運行在YARN上主要的計算框架,包括Spark、Storm和Tez 


一、Hadoop 2.0(6課時) 

Hadoop 2.0產生背景 

Hadoop 2.0基本構成 


二、HDFS 2.0 

MapReduce 2.0 

Hadoop 2.0安裝配置 

集羣測試 


三、YARN資源管理系統(4課時) 

YARN產生背景 

YARN基本設計思想 

YARN基本架構 

YARN工作流程 

YARN通信協議 

YARN容錯 

YARN資源調度機制 


四、YARN支持的計算框架(Storm,Tez,Spark)(11課時) 

以YARN爲核心的生態系統 

Storm基本概念 

Storm流式計算框架 

基於YARN的Storm架構 

YARN-Storm部署 

Storm On YARN服務 

Apache Tez介紹 

Tez特點 

Tez數據處理引擎 

DAGAppMaster實現 

Tez優化機制 

Tez應用場景 

Tez部署 

什麼是Spark 

Spark生態系統 

Spark的核心--RDD和Lineage 

RDD的存儲、容錯機制、內部設計及數據模型 

Spark調度框架 

Spark的分佈式部署方式 

基於Mesos的Spark模式 

基於YARN的Spark模式 

Spark的獨立模式部署 

Spark的YARN模式部署 


課程二:MapReduce/Hbase進階提升(29課時) 

本部分內容主要針對MapReduce和HBase的高階應用做深入的講解和實戰演練 


一、MapReduce多語言編程(5課時) 

MapReduce編程接口 

Java編程接口實例解析 

Hadoop Streaming實現方式 

Hadoop Streaming編程實戰(C++,PHP,PYTHON) 

Hadoop Streaming原理剖析 

Hadoop Pipes的編程實例 

Hadoop Pipes的原理剖析 


二、MapReduce高階實現(14課時) 

複雜的MapReduce應用 

K-means聚類、貝葉斯分類等 

工作流編程實例及原理剖析 

JobControl、ChainMapper/ChainReducer 

Hadoop工作流引擎 

常用MapReduce優化技巧 

配置多個reducer 

設置Stream的處理格式 

控制分片的大小 

避免分片 

輸入格式:文本輸入、多種類型輸入 

輸出控制:多個輸出、延遲輸出 

實戰:數據分區 ? 

MapReduce高級特性 

計數器、內置計數器 

實例:用戶自定義計數器 

MapReduce部分排序的實現 

實例:MapReduce全排序 

Terasort算法分析 

實例:MapReduce實現二次排序 

連接、Map端連接的實現 

實例:Reduce端連接 

連接類型、連接策略介紹 

重分區連接框架的實現 

複製連接框架的實現 

實例:半連接 

全局作業參數/數據文件傳遞 


三、HBase編程實踐及案例分析(10課時) 

HBase基礎精講 

HBase Java編程實例 

HBase多語言編程 

Thrift安裝、服務配置 

HBase C++編程實例 

HBase Python編程實例 

HBase MapReduce編程基礎 

實戰:HBase MapReduce編程 

Hbase案例:OpenTSDB的實現 

基於HBase的爬蟲調度庫 

基於HBase的爬蟲索引庫 

銀行人民幣查詢系統 


課程三:Hadoop Sqoop/Flume/Avro實戰(14課時) 

Hadoop Sqoop、Flume、Avro重要子項目的技術實戰 


一、Sqoop(6課時) 

Sqoop產生背景、基本 

Sqoop1和Sqoop2架構及特點 

Sqoop1安裝配置(版本1.4.4) 

Sqoop導入介紹 

實戰:從mysql導入數據到HDFS 

實戰:從mysql導入數據到Hive 

Sqoop導出介紹 

實戰:將Hive數據導出到Mysql 

Sqoop與Hbase結合 

Sqoop作業操作 

Sqoop作業安全配置 

Sqoop2安裝配置(版本1.99.3) 

Sqoop2使用綜合實戰 


二、Flume日誌收集系統(7課時) 

Flume概念和特點 

Flume OG架構、組成、特點、容錯機制設計 

日誌收集系統綜合比較 

Flume NG架構、核心概念 

Flume OG的安裝 

Flume OG的配置(Web端、Flume shell) 

Flume NG的安裝配置、測試 

Flume NG模塊配置(Source、Channel、Sink) 


三、Avro數據序列化系統(1課時) 

Avro介紹 

Avro特性、主要作用 

RPC使用Avro 

Avro與其他序列化系統的區別 


課程四:深入淺出Hadoop Mahout數據挖掘實戰(17課時) 

1、Mahout數據挖掘工具 

2、Hadoop實現推薦系統的綜合實戰,涉及到MapReduce、Pig和Mahout的綜合實戰 


一、Mahout數據挖掘工具(10課時) 

數據挖掘概念、系統組成 

數據挖掘常用方法及算法(迴歸分析、分類、聚類等) 

數據挖掘分析工具 

Mahout支持的算法 

Mahout起源和特點 

Mahout安裝、配置及測試 

實戰:Mahout K-means聚類分析 

Mahout實現Canopy算法 

Mahout實現分類算法 

實戰:Mahout邏輯迴歸分類預測 

實戰:Mahout樸素貝葉斯分類 

推薦系統的概念及分類 

協同過濾推薦算法概念、分類及應用 

實戰:實現基於Mahout的電影推薦系統 


二、Hadoop綜合實戰-文本挖掘項目(7課時) 

文本挖掘的概念及應用場景 

項目背景 

項目流程 

中文分詞技術 

庖丁分詞器的使用 

MapReduce並行分詞程序的設計與實現 

Pig劃分數據集 

Mahout構建樸素貝葉斯文本分類器 

模型應用-計算用戶偏好類別


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章