mahout kmeans 測試

原創

flyeagle88

2020-06-27 10:29

參考網址：

http://www.cnblogs.com/linjiqin/archive/2013/03/15/2961649.html

http://blog.163.com/jiayouweijiewj@126/blog/static/171232177201011475716354/

執行算法命令

hadoop jar /opt/cloudera/parcels/CDH/lib/mahout/mahout-examples-0.7-cdh4.3.0-job.jar \

org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

查看結果

mahout seqdumper：將SequenceFile文件轉成可讀的文本形式，對應的源文件是org.apache.mahout.utils.SequenceFileDumper.java
mahout vectordump：將向量文件轉成可讀的文本形式，對應的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump：分析最後聚類的輸出結果，對應的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java

clusteredPoints：存放的是最後聚類的結果，將cluster-id和documents-id都展示出來了，用mahoutseqdumper讀clusteredPoints結果的key-value類型是(IntWritable,WeightedVectorWritable)

查看命令：

mahout seqdumper -i /user/root/output/clusteredPoints/part-m-00000 -o clusteredPoints.txt

clusters-N：是第N次聚類的結果，其中n爲某類的樣本數目，c爲各類各屬性的中心，r爲各類屬性的半徑。 clusters-N結果類型是(Text,Cluster)

查看命令：(測試有問題，顯示不出來....)

mahout seqdumper -i /user/root/output/clusters-0/part-00000

mahout seqdumper -i /user/root/output/clusters-9-final/part-r-00000

data：存放的是原始數據，這個文件夾下的文件可以用mahout vectordump來讀取，原始數據是向量形式的，其它的都只能用mahout seqdumper來讀取，向量文件也可以用mahout seqdumper來讀取，只是用vectordump讀取出來的是數字結果，沒有對應的key，用seqdumper讀出來的可以看到key，即對應的url，而value讀出來的是一個類描述，而不是數組向量

例如要查看data下的文件用命令：

mahout vectordump -i /user/root/output/data/part-m-00000 -o data_vector.txt

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

mahout kmeans 測試

執行算法命令

查看結果

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Mellanox網卡開啓SR-IOV

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

【轉】在eclipse3.7中配置hadoop1.0.1插件

【轉】sqlserver CAST 和 CONVERT函數

sqoop導入數據到hive

hbase命令使用筆記

hadoop & hbase 上下線

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結