原创 Hbase尋址(2)
讀寫過程 讀請求過程: (1) 客戶端通過zookeeper以及root表和meta表找到目標數據所在的regionserver (2)聯繫regionserver查詢目標數據 (3)regionserver定位到目標數據所
原创 Hbase之建表高級應用(1)
1、BLOOMFILTER 默認是NONE 是否使用布隆過慮及使用何種方式 布隆過濾可以每列族單獨啓用。 使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL
原创 hbase的shell命令行(2)
查詢user表中列族爲info、列標示符爲name的信息,並且版本最新的5個 scan ‘user’, {COLUMNS => ‘info:name’, VERSIONS => 5} 查詢user表中列族爲info和data且列
原创 spark之RDD(1)
Rdd概述:rdd是spark中彈性分佈式數據集,不可變可分區其中元素可以並行計算的集合 特性: 1. A list of partitions rdd最小劃分在每個分區中一般hdfs中未指定以block數量作爲分區
原创 spark&yarn兩種運行模式(1)
spark在yarn上的運行模式(cluster模式和client模式) 1.cluster模式 官網案例計算PI spark-submit --class org.apache.spark.examples.SparkPi \
原创 spark&yarn兩種運行模式(2)
兩種模式的原理: cluster模式: Spark Driver首先作爲一個ApplicationMaster在YARN集羣中啓動,客戶端提交給ResourceManager的每一個job都會在集羣的NodeManager節
原创 habase之master工作機制
Master工作機制: master上線 master啓動進行以下步驟: (1) 從zookeeper上獲取唯一一個代表active master的鎖,用來阻止其它master成爲活着的master。 (2)掃描zooke
原创 hbase之Region管理
region管理: (1) region分配 任何時刻,一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region
原创 Hbase之建表高級應用(2)
alter 使用方法: 如 修改壓縮算法 disable 'table' alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} enable 'tabl
原创 sacla之akka
概述: akka是rpc輕量級框架 ,Scala 在 2.11.x 版本中將 Akka 加入其中,作爲其默認的 Actor,而老版本使用的 Actor 已經廢棄 組成: master worker
原创 Hadoop HA 集羣的搭建(1)
搭建準備: 系統:centos6.x 版本:hadoop2.7.4 jdk1.8 zookeeper-3.4.5 集羣部署節點角色的規劃(7節點) server01 namenode
原创 hadoop HA集羣搭建(2)
修改配置文件: 2.2.2修改core-site.xml <configuration> <!-- 集羣名稱在這裏指定!該值來自於hdfs-site.xml中的配置 --> <property> <name>fs.defaultF
原创 hadoop HA 集羣搭建(3)
啓動步驟: 2.5啓動zookeeper集羣(分別在hadoop05、hadoop06、tcast07上啓動zk) bin/zkServer.sh start #查看狀態:一個leader,兩個f
原创 spark和flume整合
軟件版本:spark2.02 開發環境:idea,maven maven依賴: <properties> <scala.version>2.11.8</scala.version> <ha
原创 Hive on Spark
Hive on Spark用的是Spark執行引擎,而不是MapReduce 處理hive元數據的不再是map和reduce工程而是通過spark的rdd就可以充分利用Spark的快速執行能力來縮短HiveQL的響應時間 配置