《Google file system》:論述了怎樣藉助普通機器有效的存儲海量的大數據;
《Google MapReduce》:論述了怎樣快速計算海量的數據;
《Google BigTable》:論述了怎樣實現海量數據的快速查詢;
大數據技術本質上無非解決4個核心問題。
1、存儲,海量的數據怎樣有效的存儲?主要包括hdfs、Kafka;
2、計算,海量的數據怎樣快速計算?主要包括MapReduce、Spark、Flink等;
3、查詢,海量數據怎樣快速查詢?主要爲Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,
其中Nosql主要解決隨機查詢,Olap技術主要解決關聯查詢;
4、挖掘,海量數據怎樣挖掘出隱藏的知識?也就是當前火熱的機器學習和深度學習等技術,包括TensorFlow、caffe、mahout等;
從生態圈角度展示圖:
從架構角度展示圖: