原创 【甘道夫】Hadoop2.4.1嚐鮮部署+完整版配置文件

引言       轉眼間,Hadoop的stable版本已經升級到2.4.1了,社區的力量真是強大!3.0啥時候release呢?       今天做了個調研,嚐鮮了一下2.4.1版本的分佈式部署,包括NN HA(目前已經部

原创 【甘道夫】Hive0.13.1圖形界面HWI嚐鮮

引言 HIVE的操作接口除了常用的CLI之外,還有圖形界面HWI,今天嘗試了下HWI,特此記錄供以後參考。 過程 apache-hive-0.13.1-bin.tar.gz 的 lib 目錄默認不包含 hive-hwi-0.13.1

原创 【甘道夫】如何在cdh5.2上運行mahout的itemcf on hadoop

環境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 步驟: 基本思路是,將mahout下的所有jar包都引入hadoop的classpath即可,所以修改了$HADOOP_HOME/e

原创 【甘道夫】官網MapReduce實例代碼詳細批註

引言 1.本文不描述MapReduce入門知識,這類知識網上很多,請自行查閱 2.本文的實例代碼來自官網 http://hadoop.apache.org/docs/current/hadoop-mapreduce-clien

原创 【甘道夫】Sqoop1.4.4原生增量導入特性探祕

原始思路 要想實現增量導入,完全可以不使用Sqoop的原生增量特性,僅使用shell腳本生成一個以當前時間爲基準的固定時間範圍,然後拼接Sqoop命令語句即可。 原生增量導入特性簡介 Sqoop提供了原生增量導入的特性,包含以下三個關

原创 【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署詳解

環境: hadoop2.2.0 hive0.13.1 Ubuntu 14.04 LTS java version "1.7.0_60" Oracle10g ***歡迎轉載,請註明來源***    http://blog.c

原创 【甘道夫】實現Hive數據同步更新的shell腳本

引言: 上一篇文章《【甘道夫】Sqoop1.4.4 實現將 Oracle10g 中的增量數據導入 Hive0.13.1 ,並更新Hive中的主表》http://blog.csdn.net/u010967382/article/deta

原创 【甘道夫】使用HIVE SQL實現推薦系統數據補全

需求 在推薦系統場景中,如果基礎行爲數據太少,或者過於稀疏,通過推薦算法計算得出的推薦結果很可能達不到要求的數量。 比如,希望針對每個item或user推薦20個item,但是通過計算只得到8個,剩下的12個就需要補全。 歡迎轉

原创 【甘道夫】Sqoop1.4.4 實現將 Oracle10g 中的增量數據導入 Hive0.13.1 ,並更新Hive中的主表

需求 將Oracle中的業務基礎表增量數據導入Hive中,與當前的全量表合併爲最新的全量表。 ***歡迎轉載,請註明來源***    http://blog.csdn.net/u010967382/article/details/

原创 【甘道夫】Win7+Eclipse+Maven進行Mahout編程,使其兼容Hadoop2.2.0環境運行

引言 之前成功在服務器上爲Mahout0.9打patch,使其支持Hadoop2.2.0。 今天的需求是:在Win7+Eclipse+Maven環境下開發Mahout程序,打jar包放到集羣上,使其在Hadoop2.2.0下正常運行。

原创 【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0

引言 Mahout0.9之前的版本默認不支持Hadoop2.2.0以上版本,但很多情況下,由於集羣環境的Hadoop已經是2.2.0以上版本,又必須使用Mahout,此時就需要編譯源碼,使得Mahout支持Hadoop2了。 歡迎轉載

原创 【甘道夫】基於Mahout0.9+CDH5.2運行分佈式ItemCF推薦算法

環境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 引言 雖然Mahout已經宣佈不再繼續基於Mapreduce開發,遷移到Spark,但是實際面臨的情況是公司集羣沒有足夠的內存支持

原创 【甘道夫】用貝葉斯文本分類測試打過1329-3.patch的Mahout0.9 on Hadoop2.2.0

引言 接前一篇文章《【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0》 http://blog.csdn.net/u010967382/article/details/39088035, 爲Mahout0

原创 【甘道夫】Mahout推薦算法編程實踐

引言 Taste是曾經風靡一時的推薦算法框架,後來被併入Mahout中,Mahout的部分推薦算法基於Taste實現。 下文介紹基於Taste實現最常用的UserCF和ItemCF。 本文不涉及UserCF和ItemCF算法的介紹

原创 【甘道夫】HBase連接池 -- HTablePool被Deprecated之後

說明: 最近兩天在調研HBase的連接池,有了一些收穫,特此記錄下來。 本文先將官方文檔(http://hbase.apache.org/book.html)9.3.1.1節翻譯,方便大家閱讀,然後查閱了關鍵類HConnection