學習大數據需要的基礎
1、java SE、EE(SSM)
90%的大數據框架都是Java寫的
2、MySQL
SQL on Hadoop
3、Linux
大數據的框架安裝在Linux操作系統上
- 需要學什麼
.在入門學習大數據的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大數據學習交流裙:251956502 ,裙文件有我這幾年整理的大數據學習手冊,開發工具,PDF文檔書籍,你可以自行下載。
大數據離線分析
一般處理T+1數據(T:可能是1天、一週、一個月、一年)
a、Hadoop :一般不選用最新版本,踩坑難解決
(common、HDES、MapReduce、YARN)
環境搭建、處理數據的思想
b、Hive:大數據的數據倉庫
通過寫SQL對數據進行操作,類似於MySQL數據庫的sql
c、HBase:基於HDFS的NOSQL數據庫
面向列存儲
d、協作框架:
sqoop(橋樑:HDFS《==》RDBMS)
flume:蒐集日誌文件中的信息
e、調度框架
anzkaban
瞭解:crotab(Linux自帶)
zeus(Alibaba)
Oozie(cloudera)
f、前沿框架擴展:
kylin、impala、ElasticSearch(ES)
大數據實時分析
以spark框架爲主
Scala:OOP(面向對象程序設計)+FP(函數是程序設計)
sparkCore:類比MapReduce
sparkSQL:類比hive
sparkStreaming:實時數據處理
kafka:消息隊列
前沿框架擴展:flink
阿里巴巴:blink
大數據機器學習
spark MLlib:機器學習庫
pyspark編程:Python和spark的結合
推薦系統
python數據分析
python機器學習