原创 小小的里程碑,Mark一下

      從接觸到研究hbase也有1年多的時間了。從之前的瞭解、安裝、使用。到後來的應用開發、性能調優。hbase每次都能帶給我不一樣的驚喜,無論的併發查詢還是數據寫入。多維查詢還是監控擴展,bulkload擴展。都讓我對hbase的

原创 Hive-如何基於分區優化

最近一直做系統優化,但從建模的角度今天有個小優化,原理比較簡單,效果可能不是很大,但很有意思。 這種優化的好處是不用改變sql代碼,對用戶是透明的。 所以分享下。 - 由於hive在文件基礎上,而會全部掃一個分區裏面的內容。 hive表的

原创 hbase入庫效率提升研究(二)

接着前一篇文章所說,在hbase入庫效率上有較大作用的幾個因素   一、writebuffersize大小的設置,太大和太小都會使速度下降。原因是太大每次提交數量大,提交頻度下降;太小每次提交數量小,提交頻度高。按照目前的測試結果來看64

原创 hbase中服務器時間不同步造成的regionserver啓動失敗

      今天配置hbase的時候發現有幾臺機器的regionserver啓不來。報錯如下:           at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Nat

原创 Cassandra分析

一、 簡介 Apache Cassandra是一套開源分佈式Key-Value存儲系統。它最初由Facebook開發,用於儲存特別大的數據。Facebook目前在使用此係統。 主要特性: 分佈式 基於column的結構化 高伸展性 Cas

原创 hbase0.94新特性

HBase 0.94 版本最近發佈了,距上次的0.92 版本發佈又四個月了,下面我們就來看一下這個版本中豐富的功能增強。 性能相關 讀緩存改進: HDFS 將圖片和checksum存儲在不同的block中的,所以每次我們進行讀操作,都需要

原创 cloudera建議的datanode配置

Typical ‘base’ configuration for a slave Node – 4 x 1Tb hard drives, in a JBOD* configuration– Do not use RAID! (See la

原创 Hadoop World 大會上的文章選摘(一)

Compression          LZOor Snappy(20% better than LZO)——Block(default)   Serialization          AVROdidn’t work well——d

原创 hbase二級索引

  二級索引與索引Join是多數業務系統要求存儲引擎提供的基本特性,RDBMS早已支持,NOSQL陣營也在摸索着符合自身特點的最佳解決方案。 這篇文

原创 MR操作hbase的一點心得(含hbase表拷貝樣例代碼)

      最近在寫基於hbase的MR程序。總結如下:       1、使用TableMapper來讀取表       2、寫入表的第一種方式是用TableMapReduceUtil.initTableReducerJob的方法,這裏既

原创 hbase+hadoop運維的一點經驗

目前系統上線,不斷的有新問題,也不斷的在總結一些經驗,發在這裏,做下mark,同時也爲hbase使用者提供一些思路吧。 1、單條rowkey下雖然能支持百萬列,但是建議不要這麼做,因爲真正一個rowkey下掛了這麼多數據時會在兩個地方出現

原创 hbase修復.META.表與HDFS文件不一致問題

       在實際環境中遇到hbase fbck檢查報hdfs數據塊與META表信息不一致的錯誤。表現就是數據寫入無法進行。       經過檢查,發現在.META.表中對應的一些region塊的子列少了regioninfo這一列;同時

原创 hbase入庫過程中JVM 新生代大小配置試驗

       hbase入庫過程中,除了hbase-site.xml中的一些常見的配置參數,其實很關鍵的一個環節是hbase-env.sh中的jvm參數配置。之前修改的一個重要參數就是新生代的大小。       在大規模寫入數據的試驗中,

原创 hbase中region的規劃與硬盤配置分析

      Hbase在邏輯上的存儲最小單位是Region,物理上來說事HFile。每個Region由多個HFile組成。那麼,是否有一個推薦值,確定每臺regionserver上運行多少個region,,每個region的size多大是

原创 HFileInputFormat實現

hbase的底層存儲採用的是hfile文件格式,可以作爲mr的輸入,進行hfile的mr。代碼如下: import java.io.IOException; import org.apache.hadoop.conf.Configura