原创 mahout中k-means算法運行與查看

1.首先,下載數據集synthetic_control.data,並將其導入到分佈式文件系統上。 運行hadoop 命令建立testdata文件夾: $HADOOP_HOME/bin/hadoop fs -mkdir testda

原创 hive 自定義UDF處理的一些網址

參考 1. http://blog.csdn.net/shingle_/article/details/71480334(pandas) 2. http://www.cnblogs.com/timtike/p/6562402.

原创 基於物品的相似度計算

基於物品的協同過濾 import math import operator class ItemBasedCF: def __init__(self, train_file): self.train_fi

原创 Hbase 刪除表格問題--- Table already exists

1. 首先輸入$hbase zkcli命令進入zookeeper client模式 2. 在zk client模式下輸入ls /hbase/table命令看到zombie table,查看有哪些表 此時可以在正常模式下看下當

原创 相似度計算

關於相似度計算,現有的幾種基本方法都是基於向量的,其實也就是計算兩個向量的距離,距離越近相似度越大。在推薦的場景中,在用戶-物品偏好的二維矩陣中,我們可以將一個用戶對所有物品的偏好作爲一個向量來計算用戶之間的相似度,或者將所有用戶

原创 jupyter(ipython) notebook的 修改工作路徑方法

#安裝 Jupyter Notebook(此前被稱爲 IPython notebook)是一個交互式筆記本,支持運行 40 多種編程語言。 在windows下安裝:只需要在cmd中運行命令 pip install jupyter

原创 查看liunx 下查看磁盤空間的幾個命令

執行命令 df -h ,查看當前佔用情況 [ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on /dev/vda3

原创 hive 中mapjoin 出現情況分析

1.當兩個表join的時候,當一方表數據量比較小的時候,運行hive的時候會自動進行mapjoin,但是進行mapjoin數據又跑不動,現在需要運行的時候加一句:關閉mapjion set hive.auto.convert.jo

原创 徑向基網絡基礎知識

一般機器學習的樣本都是離散的數據集,如果是像線性情況,只需要計算出直線的斜率和截距就可以定位迴歸線。對於非線性的情況,就有點複雜了。因爲求解的迴歸線是一條曲線(面),而且該曲線(面)要最大限度地擬合出離散樣本的變化趨勢。 在數學上

原创 ipython markdown

https://www.cnblogs.com/pymkl/articles/7966934.html ipython markdown http://blog.leanote.com/post/freewalk/Markdow

原创 hive 中join和Group的優化

group by 優化 set hive.map.aggr = true; //是否在 Map 端進行聚合,默認爲 True ;該設置會消耗更多的內存。 set hive.groupby.mapaggr.checkinter

原创 python pandas 位置索引

loc——通過行標籤索引行數據 iloc——通過行號索引行數據 ix——通過行標籤或者行號索引行數據(基於loc和iloc 的混合) from numpy import * import pandas as pd data=

原创 PCA降維

PCA的思想是將n維特徵映射到k維上(k小於n),這k維是全新的正交特徵。這k維特徵稱爲主成分,是重新構造出來的k維特徵,而不是簡單地從n維特徵中去除其餘n-k維特徵。 PCA降維過程: 數據預處理(均值歸一化): impor

原创 hive left join 條件on 和 where 的放置

http://blog.csdn.net/muxiaoshan/article/details/7617533

原创 hive UDF自定義函數 map處理

創建工程 新建JAVA或者maven項目,並添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar  hive-exec-2.1.0.jar 在HIVE安裝目錄的lib目錄下,從安裝目錄直