台部落gerry.tan

troubleshooting 錯誤的持久化方式以及checkpoint的使用錯誤的持久化使用方式： usersRDD，想要對這個RDD做一個ca

2020-06-25 08:22:57

爲何要處理數據傾斜（Data Skew）什麼是數據傾斜對Spark/Hadoop這樣的大數據系統來講，數據量大並不可怕，可怕的是數據傾斜。何謂數據傾斜？數據傾斜指的是，並行處理的數據集中，某一部分（如Spark或Kaf

2020-06-25 08:22:56

數據傾斜解決方案聚合源數據以及過濾導致傾斜的key 數據傾斜的解決，跟之前講解的性能調優，有一點異曲同工之妙。性能調優，跟大家講過一個道理，“重

2020-06-25 08:22:56

troubleshooting shuffle reduce端緩衝大小以避免OOM 在我們IT裏面就是解決線上故障！ shuffle reduce

2020-06-25 08:22:56

#=========================== Filebeat prospectors============================= filebeat.prospectors: #指定文件的輸入類型log(

2020-06-25 08:22:56

troubleshooting 解決yarn-cluster模式的JVM棧內存溢出問題大公司裏面你的機器節點一般都是虛擬機啊！所以不能yarn-c

2020-06-25 08:22:56

troubleshooting YARN隊列資源不足導致的application直接失敗現象：如果說，你是基於yarn來提交spark。比如ya

2020-06-25 08:22:56

troubleshooting JVM GC導致的shuffle文件拉取失敗比如，executor的JVM進程，可能內存不是很夠用了。那麼此時可能

2020-06-25 08:22:56

路由一份文檔(Document)到一個分片(Shard) 當你索引一份文檔時，它會被保存到一個主要分片(Primary Shard)上。那麼ES是如何知道該文檔應該被保存到哪個分片上呢？當我們創建了一份新文檔，ES是如何知道它究竟

2020-06-01 03:46:07

A，數據傾斜解決方案使用隨機key實現雙重聚合使用隨機key實現雙重聚合 1、原理把key前面都加上個隨機數，使得key分散，讓key跑到不

2020-02-21 06:04:44

HBase性能優化方法總結（一）：表的設計 1.表的設計 1.1 Pre-CreatingRegions 默認情況下，在創建HBase表的時候會自動創建一個region分區，當導入數據的時候，所有的HBase客戶端都向這一個region寫

2020-02-21 06:04:44

package scala21.sparkSQL import java.sql.DriverManager import org.apache.spark.rdd.RDD import org.apache.spark.sql.

2020-02-21 06:04:44

一、調優的目的充分的利用機器的性能，更快的完成mr程序的計算任務。甚至是在有限的機器條件下，能夠支持運行足夠多的mr程序。二、調優的總體概述從mr

2020-02-21 06:04:44

1.部署本章節主要講述如何部署 ZooKeeper，包括以下三部分的內容： 1. 系統環境 2. 集羣模式的配置 3. 單機模式的配置系統環境和集羣模式配置這兩節內容大體講述瞭如何部署一個能夠用於生產環境的ZK 集羣。如

2020-02-21 06:04:44

Hive 優化要點：優化時，把 hive sql 當做 map reduce 程序來讀，會有意想不到的驚喜。理解 hadoop 的核心能力，是 hive 優化的根本。長期觀察 hadoop 處理數據的過程，有幾個顯著的特徵:

2020-02-21 06:04:44