原创 eclipse maven pom.xml錯誤

錯誤提示爲:   Failure to transfer org.apache.maven.plugins:maven-compiler-plugin:pom:2.0.2 fromhttp://repo1.maven.org/maven2

原创 相似數據檢測算法(shingle,SimHash,Bloomfilter) 比較

  相似數據檢測算法 相似數據檢測算法對給定的一對數據序列計算兩者之間的相似度([0,1],1表示完全相同)或距離([0, ), 0表示完全相同),從而度量數據之間的相似程度。相似數據檢測在信息科學領域具有非常重要的應用價值,比如搜索引

原创 自己編譯hadoop 2.5.2-eclipse插件

  轉載自 hadoop插件 一.hadoop集羣環境配置  參考我的前一篇文章(ubuntu + hadoop2.5.2分佈式環境配置 http://www.cnblogs.com/huligong1234/p/4136331.h

原创 kafka關鍵問題解釋

1 Kafka如何處理消費過的消息 (1)  如果想消費已經被消費過的數據 consumer是底層採用的是一個阻塞隊列,只要一有producer生產數據,那consumer就會將數據消費。當然這裏會產生一個很嚴重的問題,如果你重啓一消費者

原创 linux 文件轉碼

有時候寫的shell腳本中帶有中文,但是傳輸到其他主機之後,中文全部變成亂碼。需要藉助以下命令進行轉碼: iconv -f GBK -t UTF-8 -c 源文件 -o 轉換後文件名

原创 solr5.3錯誤 Bad return type

solr 5.3 使用如下代碼產生錯誤:     HttpSolrClient solrSvr = new HttpSolrClient(url); SolrQuery query=new SolrQuery();

原创 hbase 性能調優

轉載自 :hbase性能調優 一、服務端調優  1、參數配置    1)hbase.regionserver.handler.count:該設置決定了處理RPC的線程數量,默認值是10,通常可以調大,比如:150,當請求內容

原创 簡單粗暴的eclipse hadoop 2.5.2 插件

 如果你想直接使用插件,懶得弄編譯。那麼你只需要按照我的 文件位置來創建文件,使用我的eclipse-hadoop 插件即可。 1  hadoop安裝位置:  D:\hadoop_cluster\hadoop-2.5.2 。設置 環境變

原创 solr 5.4 創建core

創建Core   如果你沒有使用solr自帶的實例配置,你必須自己創建一個core來建立索引和搜索。命令如下:    $ bin/solr create -c <name> 這將會創建一個數據驅動架構的core,此架構會在你添加Docu

原创 HBase java關鍵API

轉載自 hbase java api 幾個相關類與HBase數據模型之間的對應關係 java類 HBase數據模型 HBaseAdmin 數據庫(DataBase) HBaseConfiguration HTable

原创 kafka參數詳解

轉自:http://shift-alt-ctrl.iteye.com/blog/1930345 1.Broker主要配置 ##broker標識,cluster中,此ID必須唯一 broker.id=0 ##接受consumer/

原创 pig優化器之一(翻譯pig wiki):combiner使用

Combiner   1何時使用combiner參數       combiner通常用在非嵌套 的foreach語句中,且此foreach語句中的所有投影運算(projections)都是group(pig的bag被執行group語句

原创 kafka筆記(PacktPub.Apache.Kafka)

1 kafka提供了信息的生產者和消費者的無縫集成,同時不會阻塞信息的生產者,且生產者無需知道最終消費者是什麼。    Kafka provides seamless integration between information of

原创 pig腳本總結

 1 如果在宏中需要使用UDF,無需再宏中註冊和定義該UDF,直接使用即可。因爲pig的宏相當於直接將宏的代碼與調用該宏的代碼合併之後執行。 2 宏中傳入的字段解析錯誤。比如傳入的日期字段,會莫名其妙的被解析爲1970年的時間,比如:

原创 hadoop集羣部署,內存,存儲配置

翻譯自:http://blog.octo.com/en/hadoop-in-my-it-department-how-to-plan-a-cluster/ 和http://blog.cloudera.com/blog/2013/08/ho