台部落小亚文

1.首先，下載數據集synthetic_control.data，並將其導入到分佈式文件系統上。運行hadoop 命令建立testdata文件夾: $HADOOP_HOME/bin/hadoop fs -mkdir testda

2020-06-28 02:37:15

參考 1. http://blog.csdn.net/shingle_/article/details/71480334（pandas） 2. http://www.cnblogs.com/timtike/p/6562402.

2020-06-16 10:51:14

基於物品的協同過濾 import math import operator class ItemBasedCF: def __init__(self, train_file): self.train_fi

2020-06-16 10:51:14

1. 首先輸入$hbase zkcli命令進入zookeeper client模式 2. 在zk client模式下輸入ls /hbase/table命令看到zombie table，查看有哪些表此時可以在正常模式下看下當

2020-05-10 14:59:01

關於相似度計算，現有的幾種基本方法都是基於向量的，其實也就是計算兩個向量的距離，距離越近相似度越大。在推薦的場景中，在用戶-物品偏好的二維矩陣中，我們可以將一個用戶對所有物品的偏好作爲一個向量來計算用戶之間的相似度，或者將所有用戶

2020-02-23 12:14:28

#安裝 Jupyter Notebook（此前被稱爲 IPython notebook）是一個交互式筆記本，支持運行 40 多種編程語言。在windows下安裝：只需要在cmd中運行命令 pip install jupyter

2020-02-23 12:14:18

執行命令 df -h ，查看當前佔用情況 [ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on /dev/vda3

2020-02-23 12:14:18

1.當兩個表join的時候，當一方表數據量比較小的時候，運行hive的時候會自動進行mapjoin，但是進行mapjoin數據又跑不動，現在需要運行的時候加一句：關閉mapjion set hive.auto.convert.jo

2020-02-23 12:14:18

一般機器學習的樣本都是離散的數據集，如果是像線性情況，只需要計算出直線的斜率和截距就可以定位迴歸線。對於非線性的情況，就有點複雜了。因爲求解的迴歸線是一條曲線（面），而且該曲線（面）要最大限度地擬合出離散樣本的變化趨勢。在數學上

2020-02-23 12:14:18

https://www.cnblogs.com/pymkl/articles/7966934.html ipython markdown http://blog.leanote.com/post/freewalk/Markdow

2020-02-23 12:14:18

group by 優化 set hive.map.aggr = true; //是否在 Map 端進行聚合，默認爲 True ；該設置會消耗更多的內存。 set hive.groupby.mapaggr.checkinter

2020-02-23 12:14:18

loc——通過行標籤索引行數據 iloc——通過行號索引行數據 ix——通過行標籤或者行號索引行數據（基於loc和iloc 的混合） from numpy import * import pandas as pd data=

2020-02-23 12:14:18

PCA的思想是將n維特徵映射到k維上（k小於n）,這k維是全新的正交特徵。這k維特徵稱爲主成分，是重新構造出來的k維特徵，而不是簡單地從n維特徵中去除其餘n-k維特徵。 PCA降維過程：數據預處理（均值歸一化）： impor

2020-02-23 12:14:18

http://blog.csdn.net/muxiaoshan/article/details/7617533

2020-02-23 12:14:18

創建工程新建JAVA或者maven項目，並添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar 　hive-exec-2.1.0.jar 在HIVE安裝目錄的lib目錄下,從安裝目錄直

2020-02-23 12:14:18