大數據學習筆記——hadoop生態圈

學習hadoop入門閱讀資料,google的三篇論文
《Google file system》:論述了怎樣藉助普通機器有效的存儲海量的大數據;
《Google MapReduce》:論述了怎樣快速計算海量的數據;

《Google BigTable》:論述了怎樣實現海量數據的快速查詢;


大數據技術本質上無非解決4個核心問題。
1、存儲,海量的數據怎樣有效的存儲?主要包括hdfs、Kafka;
2、計算,海量的數據怎樣快速計算?主要包括MapReduce、Spark、Flink等;
3、查詢,海量數據怎樣快速查詢?主要爲Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,
其中Nosql主要解決隨機查詢,Olap技術主要解決關聯查詢;

4、挖掘,海量數據怎樣挖掘出隱藏的知識?也就是當前火熱的機器學習和深度學習等技術,包括TensorFlow、caffe、mahout等;


從生態圈角度展示圖:




從架構角度展示圖:


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章