原创 Hbase尋址(2)

讀寫過程 讀請求過程: (1) 客戶端通過zookeeper以及root表和meta表找到目標數據所在的regionserver (2)聯繫regionserver查詢目標數據 (3)regionserver定位到目標數據所

原创 Hbase之建表高級應用(1)

1、BLOOMFILTER 默認是NONE 是否使用布隆過慮及使用何種方式 布隆過濾可以每列族單獨啓用。 使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL

原创 hbase的shell命令行(2)

查詢user表中列族爲info、列標示符爲name的信息,並且版本最新的5個 scan ‘user’, {COLUMNS => ‘info:name’, VERSIONS => 5} 查詢user表中列族爲info和data且列

原创 spark之RDD(1)

Rdd概述:rdd是spark中彈性分佈式數據集,不可變可分區其中元素可以並行計算的集合 特性: 1. A list of partitions rdd最小劃分在每個分區中一般hdfs中未指定以block數量作爲分區

原创 spark&yarn兩種運行模式(1)

spark在yarn上的運行模式(cluster模式和client模式) 1.cluster模式 官網案例計算PI spark-submit --class org.apache.spark.examples.SparkPi \

原创 spark&yarn兩種運行模式(2)

兩種模式的原理: cluster模式: Spark Driver首先作爲一個ApplicationMaster在YARN集羣中啓動,客戶端提交給ResourceManager的每一個job都會在集羣的NodeManager節

原创 habase之master工作機制

Master工作機制: master上線 master啓動進行以下步驟: (1) 從zookeeper上獲取唯一一個代表active master的鎖,用來阻止其它master成爲活着的master。 (2)掃描zooke

原创 hbase之Region管理

region管理: (1) region分配 任何時刻,一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region

原创 Hbase之建表高級應用(2)

alter 使用方法: 如 修改壓縮算法 disable 'table' alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} enable 'tabl

原创 sacla之akka

概述: akka是rpc輕量級框架 ,Scala 在 2.11.x 版本中將 Akka 加入其中,作爲其默認的 Actor,而老版本使用的 Actor 已經廢棄 組成: master worker

原创 Hadoop HA 集羣的搭建(1)

搭建準備: 系統:centos6.x 版本:hadoop2.7.4 jdk1.8 zookeeper-3.4.5 集羣部署節點角色的規劃(7節點) server01 namenode

原创 hadoop HA集羣搭建(2)

修改配置文件: 2.2.2修改core-site.xml <configuration> <!-- 集羣名稱在這裏指定!該值來自於hdfs-site.xml中的配置 --> <property> <name>fs.defaultF

原创 hadoop HA 集羣搭建(3)

啓動步驟: 2.5啓動zookeeper集羣(分別在hadoop05、hadoop06、tcast07上啓動zk) bin/zkServer.sh start #查看狀態:一個leader,兩個f

原创 spark和flume整合

軟件版本:spark2.02 開發環境:idea,maven maven依賴: <properties> <scala.version>2.11.8</scala.version> <ha

原创 Hive on Spark

Hive on Spark用的是Spark執行引擎,而不是MapReduce 處理hive元數據的不再是map和reduce工程而是通過spark的rdd就可以充分利用Spark的快速執行能力來縮短HiveQL的響應時間 配置