原创 Spark 排序原理
Spark基本排序原理 經典wordcount排序原理,單詞個數降序 Java版BasicSort public class BasicSort { public static void main(String[] args)
原创 優酷hadoop mapred 面試題[find friends]
package com.sanmao.hadoop_02.mianshi; import com.sanmao.hadoop_02.mr.WordCountTest; import org.apache.hadoop.conf.
原创 消息中間件Kafka
Kafka簡介 消息 Message 網絡中的兩臺計算機或者兩個通訊設備之間傳遞的數據。例如說:文本、音樂、視頻等內容。 隊列 Queue 一種特殊的線性表(數據元素首尾相接),特殊之處在於只允許在首部刪除元素和在尾部追加元素。入
原创 大數據之hadoop[序列化與壓縮]
Hadoop的序列化 序列化:數據從內存中的到輸出流,比如磁盤,網絡,也就是說數據出內存的過程就是序列化的過程。 反序列化:數據從輸入流到內存緩衝區,比如從磁盤、網絡,也就是說數據進入內存的過程就是發序列化的過
原创 RDD原理詳解
RDD 原理 在這些特性中,最難實現的是容錯性,一般來說,分佈式數據集的容錯性有兩種方式,一般來說,分佈式數據集的容錯性有兩種方式:即數據檢查點和記錄數據的更新。我們面向的是大規模數據分析,數據檢查點操作成本很高:需要通過數據中
原创 關於ElasticSearch集羣自動掃描同網段錯誤
關於集羣搭建 , discovery.zen 代表ES的自動發現節點機制,ES是一個基於p2p的系統,它先通過廣播尋找存在的節點,再通過多播協議來進行節點之間的通信,同時也支持點對點的交互。
原创 Java面試寶典【java基礎部分】(一)
1、一個”.java”源文件中是否可以包括多個類(不是內部類)?有什麼限制? 可以有多個類,但只能有一個 public 的類,並且 public 的類名必須與文件名相一致。 2、 Java 有沒有 goto? java 中的保留字
原创 Spark 調度架構原理深度解析
Spark 調度框架原理圖(深度) 我們的說明是基於Spark standalone模式來給大家說明的,集羣裏面一主二從,也就是說有一個Master,兩個Worker節點 Driver spark-submit.sh Dr
原创 Scala快跑系列【面向對象入門】
Scala中的類 在本節中,你將會學習如何用Scala實現類。如果你瞭解Java中的類,你不會覺得這有多難,並且你會很享受Scala更加精簡的表示法帶來的便利。 本節的要點包括: 1. 類中的字段自動帶有getter方法和set
原创 土肥圓的猿
歡迎來到 三毛 的個人博客!!! 郵箱:[email protected] 博客主頁:http://blog.csdn.net/qq_16103331 Github: http://iam
原创 spark RDD ,wordcount案例解析
spark RDD ,wordcount案例解析 spark RDD 內存計算模型 數據來源:可以從HDFS文件,Hive表,Hbase,本地磁盤,MQ spark集羣,RDD中的數據都是存放在worker,都分區的
原创 RDD持久化原理與共享變量
RDD 持久化工作原理 Spark非常重要的一個功能特性就是可以將RDD 持久化在內存中,當對RDD執行持久化操作時,每個節點都會將自己操作的RDD的partition持久化到內存中,並且在之後對該RDD的反覆使用中,直接使用內
原创 Spark 調度架構原理解析
Spark 調度架構原理解析 1. 啓動spark集羣,就是執行sbin/start-all.sh ,啓動master和多個worker節點,master主要作爲集羣的管理和監控,worker節點主要擔任運行各個applica
原创 spark-submit
spark-submit java程序部署到集羣 在spark 目錄下創建一個腳本 spark-submit.sh /opt/spark/bin/spark-submit \ --class $1 \ --num-executor
原创 玩shell(雜碎一)
查看後臺線程 ps -ef | grep spark 殺死進程 kill -9 pid 管道 who | wc -l 2 printf格式化輸出 printf “this is ‘%s’\n” Hello Worl