原创 NoSQL數據庫

NoSQL優缺點 ** 優點:** 易擴展 NoSQL數據庫種類繁多,但是一個共同的特點都是去掉關係數據庫的關係型特性。數據之間無關係,這樣 就非常容易擴展。也無形之間,在架構的層面上帶來了可擴展的能力。 大數據量,高性能,快速讀

原创 cach、persist、checkpoint的區別

cache與persist的區別 cache 底層調用的是 persist 方法,存儲等級爲: memory only,persist 的默認存儲級別也是 memory only,persist 與 cache 的主要區別是 pe

原创 行存儲列存儲優缺點

行存儲 列存儲 優點 寫入效率高,保證數據完整性 讀取效率高,沒有冗餘 缺點 數據有冗餘現象,計算速度慢 寫入次數多,速度慢,消耗cpu 使用場景 關注整張表內容,或者需要經常更新數據、需要經常讀取整行數據

原创 kafka Drictor維護偏移量

Apache Spark 2.1.x以及spark-streaming-kafka-0-10使用新的的消費者API即異步提交API。你可以在你確保你處理後的數據已經妥善保存之後使用commitAsync API(異步提交 API)

原创 Parquet存儲格式

Parquet是一種列式存儲格式,可用於Hadoop生態系統中的任何項目,無論選擇何種數據處理框架,數據模型或編程語言。 ####特點: a、更高的壓縮比 parquet的gzip的壓縮比率最高,若不考慮備份可以達到27倍。可能這也是

原创 HBase預分區

什麼是預分區? HBase提供了預分區功能,即用戶可以在創建表的時候對錶按照一定的規則分區。 HBase表在剛剛被創建時,只有1個分區(region),當一個region過大(達到hbase.hregion.max.filesize屬

原创 spark 自定義分區

說明:將相同numPars分到一個分區 class SouGouPartition(numPars : Int) extends Partitioner{ override def numPartitions: Int =

原创 hive報錯MetaException(message:An exception was thrown while adding/validating class

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:An exceptio

原创 redis+mysql結合使用

redis-mysql mysql:數據放在磁盤 是關係型數據庫,主要用於存放持久化數據, redis:數據放在內存 AOF:增量更新 RDB:覆蓋 是NOSQL,非關係型數據庫, redis和mysql的區別總結 (1)類型上 從

原创 Spark shuffle和mapreduce shuffle的區別

1.從整體功能上看,兩者並沒有大的差別。 都是將 mapper(Spark 裏是 ShuffleMapTask)的輸出進行 partition,不同的 partition 送到不同的 reducer(Spark 裏 reducer 可

原创 spark優化

1、 性能調優 1.1、 分配更多資源 1.1.1、分配哪些資源? Executor的數量 每個Executor所能分配的CPU數量 每個Executor所能分配的內存量 Driver端分配的內存數量 1.1.2、在哪裏分配這些資源?

原创 Streaming消費Kafka數據的兩種方式

1.receiver模式 Receiver接收固定時間間隔的數據,放在Spark executors內存中操作,使用kafka高級API,自動維護偏移量,達到固定時間才能進行處理,效率低下,並且容易丟失數據。 數據備份兩次,保存到hd

原创 Spark任務提交全流程(簡述+全流程)

概略: 1.Driver端啓動SparkSubmit進程,啓動後開始向Master進行通信,此時創建了一個對象(SparkContext),接着向Master發送任務消息 2.Master接收到任務信息後,開始資源調度,此時會和所有

原创 tried to access method com.google.common.base.Stopwatch.()V from class org.apache.hadoop.mapre

小編在學習編寫wordcount時發現異常(tried to access method com.google.common.base.Stopwatch.()V from class org.apache.hadoop.mapred

原创 RDD依賴關係

RDD和它依賴的父RDD(s)的關係有兩種不同的類型,即窄依賴(narrow dependency)和寬依賴(wide dependency)。 一般有shuffle過程即寬依賴,無shuffle過程就窄依賴但是窄依賴也有可能產生數據