原创 Linux下安裝Superset實踐

一、安裝 安裝虛擬環境,避免影響本機python環境 conda create --name super python=3.6 source activate super $yum install gcc gcc-c++ libff

原创 Redis緩存數據庫安裝及python讀寫redis數據

一、安裝Redis 1.獲取redis資源 wget http://download.redis.io/releases/redis-4.0.8.tar.gz 2.解壓 tar xzvf redis-4.0.8.tar.gz 3.安裝

原创 PySpark任務在YARN集羣上運行 關聯python包numpy pandas scipy 等

使用pyspark的時候代碼會依賴numpy pandas scipy 等,這時候需要將相關的環境包一起提交,如何提交環境包文件,參考如下: Spark Application可以直接運行在YARN集羣上,這種運行模式,會將資源的管理與協

原创 pyspark讀取hive數據寫入到redis

1、首先把redis包引入工程,這樣就不需要在集羣裏每臺機器上安裝redis客戶端。 $pip install redis $cd /usr/local/lib/python3.6/dist-packages/ 找到自己環境的路徑 $zi

原创 Linux CentOS7安裝Hive2.3並配置sparkSQL訪問Hive

一、安裝mysql yum install wget wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm rpm -ivh mysql-communit

原创 Spark ALS算法理解

ALS算法 ALS的意思是交替最小二乘法(Alternating Least Squares),它只是是一種優化算法的名字,被用在求解spark中所提供的推薦系統模型的最優解。spark中協同過濾的文檔中一開始就說了,這是一個基於模型的協

原创 通過Spark訪問Hbase的Hive外部表(hive on hbase的表)

業務處理的過程中,使用到pyspark訪問hive,直接訪問沒有問題, 後面遇到使用pyspark訪問hive關聯hbase的表(hive on hbase),就出現報錯了。 首先集羣已經可以通過spark-sql讀取hive的數據,然

原创 pyspark讀取hive數據實例

使用pyspark讀取hive中的數據,測試代碼: vi test.py #!-*- coding:utf-8 -*- from pyspark import SparkConf, SparkContext from pyspark.

原创 GBDT+LR算法進行特徵擴增

簡介 CTR估計也就是廣告點擊率預估,計算廣告訓練與平滑思想說明了是用LR算法對於預測的有效性。LR(Logistic Regression)是廣義線性模型,與傳統線性模型相比,LR通過Logit變換將函數值映射到0~1區間,映射後的函數

原创 PCA降維(主成分分析)處理訓練集後,線上正式數據應該如何處理?

訓練數據集在使用PCA進行數據降維後,用基本分類器進行訓練得到一個分類模型,那線上預測真實數據應該怎麼辦?應該不能直接放入訓練的分類模型中去吧? 答:當然不能,要用你從訓練數據裏面得到的那個降維矩陣對測試數據降維,然後再送給分類器。 如何

原创 機器學習特徵工程經驗總結二

機器學習特徵工程經驗總結一機器學習特徵工程經驗總結二 -------------------------------------------- 如何做特徵處理和構建 特徵處理和構建一般對以下幾種數據類型做處理:     數值型     類

原创 機器學習特徵工程經驗總結一

這塊內容分爲兩篇文章,有一點長,但內容很實用,建議耐心的看一下。 機器學習特徵工程經驗總結一機器學習特徵工程經驗總結二 -------------------------------------------- 很多人其實非常好奇BAT裏機

原创 特徵構建:生成多項式特徵

解釋下特徵構建、特徵抽取和特徵選擇: 1、當數據拿到手裏後,首先需要從現有數據中挑選或將現有數據進行變形,組合形成新特徵,此過程稱爲特徵構建。 2、當特徵維度比較高,通過映射或變化的方式,用低維空間樣本來表示樣本,稱爲特徵抽取。 3、從一

原创 Keras CNN圖像實戰

Cifar-10 Cifar-10是由Hinton的兩個大弟子Alex Krizhevsky、Ilya Sutskever收集的一個用於普適物體識別的數據集。Cifar-10由60000張32*32的RGB彩色圖片構成,共10個分類。50

原创 keras推薦算法--矩陣分解實戰

(實踐操作過程中,如果數據量超大,單機會出現內存溢出報錯,無法正常運行,建議先用少量進行測試實現) 當今這個信息爆炸的社會,每個人都會面對無數的商品,無數的選擇。而推薦算法的目的幫助大家解決選擇困難症的問題,在大千世界中推薦專屬於你的商品