原创 Linux 命令使用筆記【chkconfig】

chkconfig 命令   chkconfig 命令檢查、設置系統的各種服務。這是 Red Hat 公司遵循 GPL 規則所開發的程序,它可查詢操作系統在每一個執行等級中會執行哪些系統服務,其中包括各類常駐服務。謹記 chkconfig

原创 Linux 命令使用筆記【zcat】

zcat 命令   zcat 命令用於不真正解壓縮文件,就能顯示壓縮包中文件的內容的場合。 語法 zcat (選項)(參數) 選項 -S:指定 gzip 格式的壓縮包的後綴。當後綴不是標準壓縮包後綴時使用此選項; -c:將文件內容寫到標註

原创 Linux 命令使用筆記【systemctl】

systemctl 命令   systemctl 命令是系統服務管理器指令,它實際上將 service 和 chkconfig 這兩個命令組合到一起。 任務 舊指令 新指令 使某服務自動啓動 chkconfig --le

原创 Linux 命令使用筆記【yum】

yum 命令   yum 命令是在 Fedora 和 RedHat 以及 SUSE 中基於 rpm 的軟件包管理器,它可以使系統管理人員交互和自動化地更細與管理RPM軟件包,能夠從指定的服務器自動下載RPM包並且安裝,可以自動處理依賴性關

原创 1、Flink Managing Execution - Task Failure Recovery(Flink Task 故障恢復)

當任務失敗時,Flink 需要重新啓動失敗的任務和其他受影響的任務,將作業恢復到正常狀態。 重新啓動策略和故障轉移策略用於控制任務重新啓動。重新啓動策略決定是否以及何時可以重新啓動失敗/受影響的任務。故障轉移策略決定應該重新啓動哪些任務以

原创 乾貨 | 喫透Elasticsearch 堆內存

1、什麼是堆內存? Java 中的堆是 JVM 所管理的最大的一塊內存空間,主要用於存放各種類的實例對象。 在 Java 中,堆被劃分成兩個不同的區域: - 新生代 ( Young )、 - 老年代 ( Old )。 新生代 ( You

原创 Flink Internals - Data Streaming Fault Tolerance(數據流容錯)

簡介 Apache Flink 提供了一種容錯機制來一致地恢復數據流應用程序的狀態。該機制確保即使存在故障,程序的狀態最終將精確地反映數據流中的每條記錄一次。注意,這裏有一個開關,將擔保降級到至少一次(如下所述)。 容錯機制連續繪製分佈式

原创 Spark Streaming + Kafka 構造指南(Kafka broker version 0.10.0 or higher)

Table of Contents 依賴 創建一個直接流 偏移量策略 消費者的策略 Creating an RDD 獲得offsets 存儲offsets Checkpoints Kafka itself Your own data st

原创 Spark面試,Spark面試題,Spark面試彙總

Table of Contents 1、你覺得spark 可以完全替代hadoop 麼? 2、Spark消費 Kafka,分佈式的情況下,如何保證消息的順序? 3、對於 Spark 中的數據傾斜問題你有什麼好的方案? 4、你所理解的 Sp

原创 使用 Hbase Shell 命令創建預分區表(hbase預分區)

在通過 HBase Shell create 命令創建表時,可以使用多種選項來對錶進行預分區。最簡單的方法是在創建表時指定一個拆分點數組。 注意:當將字符串文本指定爲拆分點時,這些拆分點將基於字符串的底層字節表示創建拆分點。 因此,當

原创 Hive分隔符

Table of Contents 特殊字符 通過digraph輸入 測試數據 查看隱藏字符的方法 cat vim 特殊字符 以下這些字符是可以在Hive中應用,並且DATAX也支持的: char digraph hex dec offi

原创 Spark Streaming Programming Guide

Table of Contents 簡述 簡易樣例 基本概念 依賴 StreamingContext初始化 Discretized Streams (DStreams) 輸入數據流和接收器 基礎Sources 高級Sources 自定義S

原创 Hbase 面試問答

問:Hbase大量寫入很慢,一個列族,每個200多列,一秒寫30000條數據,使用mutate添加數據,clientbuffer緩存大小爲10M,四臺測試機,128G內存,分配60G給Hbase,該怎麼優化? 答:可以使用bulkload

原创 Hase Java API 和 Hbase Scala API

Table of Contents Java 版的 Hbase 工具類,配置 zookeeper 的地址 建表操作 修改表結構 列出所有表 刪表 寫表 根據 rowKey 刪數據 查表,所有數據 根據 rowKey 查數據 Scala 版

原创 Building Spark(重新構建編譯Spark)

Apache Maven 基於 Maven 的構建是 Apache Spark 的參考構建。使用 Maven 構建 Spark 需要 Maven 3.3.9或更新版本和 Java 7+。 注意,從Spark 2.0.0開始,對Java