台部落cyclebozhou

讀寫過程讀請求過程：（1）客戶端通過zookeeper以及root表和meta表找到目標數據所在的regionserver （2）聯繫regionserver查詢目標數據（3）regionserver定位到目標數據所

2020-07-01 16:02:31

1、BLOOMFILTER 默認是NONE 是否使用布隆過慮及使用何種方式布隆過濾可以每列族單獨啓用。使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL

2020-07-01 16:02:31

查詢user表中列族爲info、列標示符爲name的信息,並且版本最新的5個 scan ‘user’, {COLUMNS => ‘info:name’, VERSIONS => 5} 查詢user表中列族爲info和data且列

2020-07-01 16:02:31

Rdd概述:rdd是spark中彈性分佈式數據集,不可變可分區其中元素可以並行計算的集合特性: 1. A list of partitions rdd最小劃分在每個分區中一般hdfs中未指定以block數量作爲分區

2020-07-01 16:02:31

spark在yarn上的運行模式（cluster模式和client模式） 1.cluster模式官網案例計算PI spark-submit --class org.apache.spark.examples.SparkPi \

2020-07-01 16:02:31

兩種模式的原理: cluster模式： Spark Driver首先作爲一個ApplicationMaster在YARN集羣中啓動，客戶端提交給ResourceManager的每一個job都會在集羣的NodeManager節

2020-07-01 16:02:31

Master工作機制: master上線 master啓動進行以下步驟: （1）從zookeeper上獲取唯一一個代表active master的鎖，用來阻止其它master成爲活着的master。（2）掃描zooke

2020-07-01 16:02:31

region管理: (1) region分配任何時刻，一個region只能分配給一個region server。master記錄了當前有哪些可用的region server。以及當前哪些region分配給了哪些region

2020-07-01 16:02:31

alter 使用方法：如修改壓縮算法 disable 'table' alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} enable 'tabl

2020-07-01 16:02:31

概述: akka是rpc輕量級框架 ,Scala 在 2.11.x 版本中將 Akka 加入其中，作爲其默認的 Actor，而老版本使用的 Actor 已經廢棄組成: master worker

2020-02-24 09:51:57

搭建準備: 系統:centos6.x 版本:hadoop2.7.4 jdk1.8 zookeeper-3.4.5 集羣部署節點角色的規劃（7節點） server01 namenode

2020-02-24 09:51:57

修改配置文件: 2.2.2修改core-site.xml <configuration>  <property> <name>fs.defaultF

2020-02-24 09:51:57

啓動步驟: 2.5啓動zookeeper集羣（分別在hadoop05、hadoop06、tcast07上啓動zk） bin/zkServer.sh start #查看狀態：一個leader，兩個f

2020-02-24 09:51:57

軟件版本:spark2.02 開發環境:idea,maven maven依賴: <properties> <scala.version>2.11.8</scala.version> <ha

2020-02-24 09:51:57

Hive on Spark用的是Spark執行引擎，而不是MapReduce 處理hive元數據的不再是map和reduce工程而是通過spark的rdd就可以充分利用Spark的快速執行能力來縮短HiveQL的響應時間配置

2020-02-24 09:51:57