原创 Spark 排序原理

Spark基本排序原理 經典wordcount排序原理,單詞個數降序 Java版BasicSort public class BasicSort { public static void main(String[] args)

原创 優酷hadoop mapred 面試題[find friends]

package com.sanmao.hadoop_02.mianshi; import com.sanmao.hadoop_02.mr.WordCountTest; import org.apache.hadoop.conf.

原创 消息中間件Kafka

Kafka簡介 消息 Message 網絡中的兩臺計算機或者兩個通訊設備之間傳遞的數據。例如說:文本、音樂、視頻等內容。 隊列 Queue 一種特殊的線性表(數據元素首尾相接),特殊之處在於只允許在首部刪除元素和在尾部追加元素。入

原创 大數據之hadoop[序列化與壓縮]

Hadoop的序列化 序列化:數據從內存中的到輸出流,比如磁盤,網絡,也就是說數據出內存的過程就是序列化的過程。 反序列化:數據從輸入流到內存緩衝區,比如從磁盤、網絡,也就是說數據進入內存的過程就是發序列化的過

原创 RDD原理詳解

RDD 原理 在這些特性中,最難實現的是容錯性,一般來說,分佈式數據集的容錯性有兩種方式,一般來說,分佈式數據集的容錯性有兩種方式:即數據檢查點和記錄數據的更新。我們面向的是大規模數據分析,數據檢查點操作成本很高:需要通過數據中

原创 關於ElasticSearch集羣自動掃描同網段錯誤

關於集羣搭建 , discovery.zen 代表ES的自動發現節點機制,ES是一個基於p2p的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通信,同時也支持點對點的交互。

原创 Java面試寶典【java基礎部分】(一)

1、一個”.java”源文件中是否可以包括多個類(不是內部類)?有什麼限制? 可以有多個類,但只能有一個 public 的類,並且 public 的類名必須與文件名相一致。 2、 Java 有沒有 goto? java 中的保留字

原创 Spark 調度架構原理深度解析

Spark 調度框架原理圖(深度) 我們的說明是基於Spark standalone模式來給大家說明的,集羣裏面一主二從,也就是說有一個Master,兩個Worker節點 Driver spark-submit.sh Dr

原创 Scala快跑系列【面向對象入門】

Scala中的類 在本節中,你將會學習如何用Scala實現類。如果你瞭解Java中的類,你不會覺得這有多難,並且你會很享受Scala更加精簡的表示法帶來的便利。 本節的要點包括: 1. 類中的字段自動帶有getter方法和set

原创 土肥圓的猿

歡迎來到 三毛 的個人博客!!! 郵箱:[email protected] 博客主頁:http://blog.csdn.net/qq_16103331 Github: http://iam

原创 spark RDD ,wordcount案例解析

spark RDD ,wordcount案例解析 spark RDD 內存計算模型 數據來源:可以從HDFS文件,Hive表,Hbase,本地磁盤,MQ spark集羣,RDD中的數據都是存放在worker,都分區的

原创 RDD持久化原理與共享變量

RDD 持久化工作原理 Spark非常重要的一個功能特性就是可以將RDD 持久化在內存中,當對RDD執行持久化操作時,每個節點都會將自己操作的RDD的partition持久化到內存中,並且在之後對該RDD的反覆使用中,直接使用內

原创 Spark 調度架構原理解析

Spark 調度架構原理解析 1. 啓動spark集羣,就是執行sbin/start-all.sh ,啓動master和多個worker節點,master主要作爲集羣的管理和監控,worker節點主要擔任運行各個applica

原创 spark-submit

spark-submit java程序部署到集羣 在spark 目錄下創建一個腳本 spark-submit.sh /opt/spark/bin/spark-submit \ --class $1 \ --num-executor

原创 玩shell(雜碎一)

查看後臺線程 ps -ef | grep spark 殺死進程 kill -9 pid 管道 who | wc -l 2 printf格式化輸出 printf “this is ‘%s’\n” Hello Worl