原创 Spark on YARN的兩種模式

目錄 前言 一、Client模式 二、Cluster模式 三、兩種模式對比   前言 需要在環境變量裏設置HADOOP_CONF_DIR或YARN_CONF_DIR,告訴Spark如何連接Hadoop 一、Client模式 spark-

原创 SparkStreaming消費Kafka數據Offset的管理

參考鏈接: https://blog.csdn.net/xueba207/article/details/51135423   kafka 0.8.2.2 http://spark.apache.org/docs/latest/strea

原创 Kafka Eagle的安裝部署

一、簡介 Kafka Eagle是一個用於監控和管理Kafka的系統,可以很方便的管理和可視化Kafka集羣的一些信息,例如Broker詳情、性能指標趨勢、Topic集合、消費者信息等 官網:http://www.kafka-eagle

原创 Spark Streaming中foreachRDD的使用及閉包問題的產生處理

一、前言          foreachRDD是用來把Spark Streaming的數據sink到外部系統,但是使用的時候,這個算子將會被執行在driver進程中,而從driver到executor必然會涉及到序列化的問題。 二、測試

原创 Kafka的基本使用(一)

一、Kakfa介紹 官網:http://kafka.apache.org/ 中文:http://kafka.apachecn.org/ 1.1Kafka是什麼? Kafka一個高吞吐量的分佈式發佈訂閱消息系統。 1.2Kafka幹什麼?

原创 Hadoop的壓縮格式

1、 hadoop中的壓縮格式 壓縮格式 文件擴展名 是否可分割 壓 縮 比 由 高 到 低    壓 縮 時 間 由 長 到 慢 BZIP2 .bz2 是 GZIP .gz 否 LZO .lzo 是(建立index) LZ4 .

原创 簡單算法之冒泡排序(Java)

import java.util.Arrays; public class Maopao {/** 1.外層循環控制冒泡個數 (a.length-1)最後一個就不用冒泡了* 2.內層循環實現冒泡排序(* j<a.length-1-i)

原创 File類的常用

<pre name="code" class="java">import java.io.File; import java.io.IOException; public class ReadAndWrite { /* * 1.f

原创 android studio 快捷鍵(持續更新)

1.打印快捷鍵 Log.d();//打印一些調試信息 Log.i();//打印一些比較重要的信息 Log.w();//打印一些警告 Log.e();//打印程序中的錯誤1.logt //快速打出TAG 2.logd // 3.log

原创 簡單算法之二分法

public class Erfenfa { /* * 思想:對於一個升序的數組,在數組中找一個一個數索引,取出這個數組中間的數a與b之比較 * 如果a>b,則往左邊找 * 如果a<b,則往右邊找 * 以此類推

原创 Javaweb項目虛擬路徑

1.創建工程是默認虛擬路徑和項目名字一樣 2.如果更改項目名字 虛擬路徑並不會改,如果你想修改的話  a.右鍵項目名屬性  b.選擇MyEclipse 下的web c.更改Web  Context-root下的虛擬路徑

原创 Flink源碼編譯(Flink1.7.0+Hadoop2.6.0+CDH5.16.1)

Flink源碼編譯 一、概述 源碼編譯文檔 . https://ci.apache.org/projects/flink/flink-docs-release-1.8/flinkDev/building.html 源碼下載地址

原创 Hadoop YARN

文章轉載自:https://blog.csdn.net/Mr_HHH/article/details/81127373 1、概述 Yarn的設計目標就是允許我們的各種應用以共享、安全、多租戶的形式使用整個集羣。 YARN主要有以下