淺析Hbase

原創

2020-02-20 23:31

無論是 NoSQL，還是大數據領域，HBase 都是非常"炙熱"的一門數據庫。本文將對 HBase 做一些基礎性的介紹，旨在入門。

一、簡介

HBase 是一個開源的、面向列的非關係型分佈式數據庫，目前是Hadoop體系中非常關鍵的一部分。在最初，HBase是基於谷歌的 BigTable 原型實現的，許多技術來自於Fay Chang在2006年所撰寫的Google論文"BigTable"。與 BigTable基於Google文件系統（File System）一樣，HBase則是基於HDFS(Hadoop的分佈式文件系統)之上而開發的。

HBase 採用 Java 語言實現，在其內部實現了BigTable論文提到的一些壓縮算法、內存操作和布隆過濾器等，這些能力使得HBase 在海量數據存儲、高性能讀寫場景中得到了大量應用，如 Facebook 在 2010年11 月開始便一直選用 HBase來作爲消息平臺的存儲層技術。HBase 以 Apache License Version 2.0開源，這是一種對商業應用友好的協議，同時該項目當前也是Apache軟件基金會的頂級項目之一。

有什麼特性

基於列式存儲模型，對於數據實現了高度壓縮，節省存儲成本
採用 LSM 機制而不是B(+)樹，這使得HBase非常適合海量數據實時寫入的場景
高可靠，一個數據會包含多個副本(默認是3副本)，這得益於HDFS的複製能力，由RegionServer提供自動故障轉移的功能
高擴展，支持分片擴展能力(基於Region)，可實現自動、數據均衡
強一致性讀寫，數據的讀寫都針對主Region上進行，屬於CP型的系統
易操作，HBase提供了Java API、RestAPI/Thrift API等接口
查詢優化，採用Block Cache 和布隆過濾器來支持海量數據的快速查找

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hadoop Installation - Pseudodistributed Mode

Hadoop Installation - Pseudodistributed Mode 目錄 Hadoop Installation - Pseudodistributed Mode 目錄準備條件安裝配置配置 ss

2020-07-08 06:35:36

ES特定場景性能優化

1. Overview 本文主要介紹一下Elasticsearch（後文簡稱ES）做相關基準測試的流程，及分享一些我們做過的一些測試結論。簡要說明下我們使用情況：寬表的用戶畫像OLAP分析場景，集羣規模200節點，數據量30T

2020-07-07 18:10:00

Scala_(2)_面向對象

1.類 class HiScala{ private var name="Spark" def sayName(){...} def getName = name } 創建實例：new HiScala 暴露get 方法

2020-07-07 15:16:54

Scala_(1)_基礎

1.函數 sum(1 to 100:_*)// 提取出1-100中的所有元素,並實現sum操作 2.lazy 只有在初次運行時調用如：lazy val content = fromFile(path) 3.集合 val a

2020-07-07 15:16:54

HBase基礎使用篇01

HBase 高併發處理方案簡圖一、概述官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時，可以使用HBase。

沙滩上的漫步者

2020-07-06 15:48:54

Spark 源碼分析（六）: Executor 向 driver 進行註冊

前一篇文章介紹了 Executor 進程的啓動，最後啓動的是 CoarseGrainedExecutorBackend，執行啓動命令後會執行它的 main 方法，啓動 CoarseGrainedExecutorBackend 進程

2020-07-06 10:37:09

SparkSQL 性能調優參數

1，spark.hadoopRDD.ignoreEmptySplits 默認是false，如果是true，則會忽略那些空的splits，減小task的數量。 2，spark.hadoop.mapreduce.input.filei

2020-07-06 10:36:59

Flume+Hbase--採集和儲存日誌數據

前言大數據時代，誰掌握了足夠的數據，誰就有可能掌握未來，而其中的數據採集就是將來的流動資產積累。幾乎任何規模企業，每時每刻也都在產生大量的數據，但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的

2020-07-05 10:57:53

HBase權限控制

修改 hbase-site.xml 文件 <property> <name>hbase.superuser</name> <value>hbase</value> </property> <property> <nam

2020-07-05 02:34:49

NodeManager啓動失敗--防火牆篇

Hadoop環境CDH4.4 今天年後第一天上班（實習中），還過一個月，實習第一份實習合同就到期了~ Hadoop集羣的虛擬環境看上去太亂，所以就將3個節點（1master + 2Slaves）重啓，結果NodeManager啓動失敗。查

2020-07-04 16:49:38

Hadoop啓動datanode/namenode失敗或者無法啓動

文章目錄問題描述問題產生原因解決方法注：看有沒有重要數據吧，但是一般頻發格式化namenode時，應該也知道自己沒啥重要數據，採取簡單粗暴的方法吧問題描述當我使用./hdfs namenode -format 多次對文件系統進

渐宽阁读书小弟

2020-07-03 08:41:16

Yarn-Session集羣啓動失敗：Unauthorized request to start container

文章目錄問題報錯出錯點：Unauthorized request to start container解決方法：問題報錯 2020-03-31 18:29:28,992 ERROR org.apache.flink.yarn.c

渐宽阁读书小弟

2020-07-03 08:41:16

大數據組件資源包（百度雲盤分享，永久有效）

文章目錄目前打包資源：資源鏈接：hadoop分佈式集羣安裝詳見：目前打包資源： CentOS-6.5-x86_64-minimal.iso flink-1.7.2-bin-hadoop26-scala_2.11.tgz fli

渐宽阁读书小弟

2020-07-03 08:41:16

Centos虛擬機網絡配置（爲安裝大數據組件做準備）

文章目錄修改網絡當前ip信息：ifconfig -a查看虛擬機的網關：修改ifcfg-eth0：vi /etc/sysconfig/network-scripts/ifcfg-eth0重啓網絡服務： service network

渐宽阁读书小弟

2020-07-03 08:41:16

超級詳細超級簡單助你搭建hadoop分佈式集羣

文章目錄資源鏈接安裝Centos6.5:（超詳細）Centos6.5虛擬機網絡配置及克隆2臺服務器（超詳細）安裝java安裝配置hadoop格式化namenode(第一次安裝)啓動hadoop：資源鏈接點擊進入資源下載鏈接，很

渐宽阁读书小弟

2020-07-03 08:41:16

24小時熱門文章

最新文章

最新評論文章