原创 spark troubleshooting--錯誤的持久化方式以及checkpoint的使用

troubleshooting 錯誤的持久化方式以及checkpoint的使用 錯誤的持久化使用方式: usersRDD,想要對這個RDD做一個ca

原创 Spark性能優化——解決Spark數據傾斜

爲何要處理數據傾斜(Data Skew)   什麼是數據傾斜 對Spark/Hadoop這樣的大數據系統來講,數據量大並不可怕,可怕的是數據傾斜。 何謂數據傾斜?數據傾斜指的是,並行處理的數據集中,某一部分(如Spark或Kaf

原创 spark 數據傾斜解決方案 (二)聚合源數據以及過濾導致傾斜的key

數據傾斜解決方案 聚合源數據以及過濾導致傾斜的key 數據傾斜的解決,跟之前講解的性能調優,有一點異曲同工之妙。 性能調優,跟大家講過一個道理,“重

原创 spark troubleshooting--shuffle reduce端緩衝大小以避免OOM

troubleshooting shuffle reduce端緩衝大小以避免OOM 在我們IT裏面就是解決線上故障! shuffle reduce

原创 filebeat-5.1.1配置詳解

#=========================== Filebeat prospectors============================= filebeat.prospectors:    #指定文件的輸入類型log(

原创 spark troubleshooting--解決yarn-cluster模式的JVM棧內存溢出問題

troubleshooting 解決yarn-cluster模式的JVM棧內存溢出問題 大公司裏面你的機器節點一般都是虛擬機啊!所以不能yarn-c

原创 spark troubleshooting--YARN隊列資源不足導致的application直接失敗

troubleshooting YARN隊列資源不足導致的application直接失敗 現象: 如果說,你是基於yarn來提交spark。比如ya

原创 spark troubleshooting--JVM GC導致的shuffle文件拉取失敗

troubleshooting JVM GC導致的shuffle文件拉取失敗 比如,executor的JVM進程,可能內存不是很夠用了。那麼此時可能

原创 Elasticsearch 分佈式存儲原理

路由一份文檔(Document)到一個分片(Shard) 當你索引一份文檔時,它會被保存到一個主要分片(Primary Shard)上。那麼ES是如何知道該文檔應該被保存到哪個分片上呢?當我們創建了一份新文檔,ES是如何知道它究竟

原创 spark數據傾斜解決方案(一)炫酷的4個方案

A,數據傾斜解決方案  使用隨機key實現雙重聚合 使用隨機key實現雙重聚合 1、原理 把key前面都加上個隨機數,使得key分散,讓key跑到不

原创 HBase性能優化方法總結(一):表的設計

HBase性能優化方法總結(一):表的設計 1.表的設計 1.1 Pre-CreatingRegions 默認情況下,在創建HBase表的時候會自動創建一個region分區,當導入數據的時候,所有的HBase客戶端都向這一個region寫

原创 spark2.1.0連接mysql

package scala21.sparkSQL import java.sql.DriverManager import org.apache.spark.rdd.RDD import org.apache.spark.sql.

原创 hadoop-hhbase調優

一、調優的目的充分的利用機器的性能,更快的完成mr程序的計算任務。甚至是在有限的機器條件下,能夠支持運行足夠多的mr程序。 二、調優的總體概述從mr

原创 Zookeeper管理員指南

1.部署 本章節主要講述如何部署 ZooKeeper,包括以下三部分的內容: 1.  系統環境 2.  集羣模式的配置 3.  單機模式的配置 系統環境和集羣模式配置這兩節內容大體講述瞭如何部署一個能夠用於生產環境的ZK 集羣。如

原创 hive優化

Hive 優化 要點:優化時,把 hive sql 當做 map reduce 程序來讀,會有意想不到的驚喜。 理解 hadoop 的核心能力,是 hive 優化的根本。  長期觀察 hadoop 處理數據的過程,有幾個顯著的特徵: