原创 mahout計算一個簡單的推薦程序的準確率和召回率

package test.mahout.recommendation; import java.io.File; import java.io.IO

原创 mahout 爲約會數據集推薦

在http://libimseti.cz中下載約會的數據集 裏面的ratings.dat有257MB,以逗號分隔,包含用戶ID,檔案ID和評分(檔案ID和用戶ID不是採用同一個匿名方法) 這個數據集經過了預處理,剔除了生成評分個數不到20

原创 java遠程連接Oracle亂碼問題

用java連接服務器上的Oracle,中文出現亂碼 用sql查看Oracle字符集: select userenv('language') from dual 得到us7ascii 故在連接查詢時需要轉碼,如下: 查詢一條記錄: Co

原创 mahout 使用grouplens數據集定製datamodel以及評估

在grouplens官網上下載數據集ml-10m。有1000萬條記錄。 使用其中的rating.dat數據集,打開它可以看到它的分隔符是:: mahout無法直接處理,但是mahout下面有一個定製的groupLensDataModel,

原创 一個簡單的基於用戶的mahout推薦程序

mahout版本:0.9 根據《mahout實戰》中的第一個例子: 一個簡單的基於用戶的mahout推薦程序,輸入文件intro.csv如下 1,101,5 1,102,3 1,103,2.5 2,101,2 2,102,2.5 2,10

原创 利用mahout自帶的fpgrowth程序以及自己的原始數據挖掘頻繁模式

在上一篇中,我利用mahout的fpgrowth來嘗試挖掘自己創建的原始數據時結果爲亂碼。 原因:沒有指定原始數據中的分隔符 原始數據如下: 1,5,2,3 5,7,3,4 5,2,3 1,5,2,7,3,4 1,2,4 5,2,4 1,

原创 weka apriori參數設置意義

1.        car 如果設爲真,則會挖掘類關聯規則而不是全局關聯規則。 2.        classindex 類屬性索引。如果設置爲-1,最後的屬性被當做類屬性。 3.        delta 以此數值爲迭代遞減單位。

原创 mahout安裝配置

mahout安裝很簡單,在官網上下載,複製到服務器上。 解壓: tar -xzvf /opt/mahout-distribution-0.9.tar.gz 將安裝位置添加到環境變量 vi /etc/profile export $MAHO

原创 ResourceManager相關配置參數

1.    ResourceManager相關配置參數 (1) yarn.resourcemanager.address 參數解釋:ResourceManager 對客戶端暴露的地址。客戶端通過該地址向RM提交應用程序,殺死應用程序等。

原创 Eclipse打包mapreduce程序並提交至hadoop集羣運行

在命令行裏能夠將程序運行在hadoop集羣環境後,將Eclipse裏的各種配置也相應配好,點擊run on hadoop。 作業成功運行,hdfs上能夠看到結果,但是仍然,沒有提交至真正的集羣環境。 查了好久資料,直接在代碼中指定遠程jo

原创 mahout之數據承載

推薦數據的處理是大規模的,在集羣環境下一次要處理的數據可能是數GB,所以Mahout針對推薦數據進行了優化。 Preference在Mahout中,

原创 eclipse運行出現SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".

環境:eclipse-standard-luna-R-win32 運行程序時出現紅色的警告如下 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". SLF4J:

原创 利用mahout自帶的fpgrowth算法挖掘頻繁模式

建立測試文件,將測試文件上傳至hdfs上。這裏我的測試文件是自己隨便寫的幾行數字 1,5,2,3 5,7,3,4 5,2,3 1,5,2,7,3,4 1,2,4 5,2,4 1,2,3 1,5,2,6,3 1,5,6,3 hadoop f

原创 mahout評估一個簡單的推薦程序

上一篇建立了一個簡單的推薦引擎,現在就來評估下 代碼如下: package test.mahout.recommendation; import java.io.File; import java.io.IOException; impo

原创 mahout中布爾型數據推薦系統的生成與評估

按照《mahout實戰》中的布爾型數據的生成與評估代碼如下:     public static void booleanPrefEvaluator() throws IOException, TasteException     {