台部落levy

一、安裝安裝虛擬環境，避免影響本機python環境 conda create --name super python=3.6 source activate super $yum install gcc gcc-c++ libff

2020-03-19 14:01:32

一、安裝Redis 1.獲取redis資源 wget http://download.redis.io/releases/redis-4.0.8.tar.gz 2.解壓 tar xzvf redis-4.0.8.tar.gz 3.安裝

2020-02-24 16:08:19

使用pyspark的時候代碼會依賴numpy pandas scipy 等，這時候需要將相關的環境包一起提交，如何提交環境包文件，參考如下： Spark Application可以直接運行在YARN集羣上，這種運行模式，會將資源的管理與協

2020-02-24 16:08:19

1、首先把redis包引入工程，這樣就不需要在集羣裏每臺機器上安裝redis客戶端。 $pip install redis $cd /usr/local/lib/python3.6/dist-packages/ 找到自己環境的路徑 $zi

2020-02-24 16:08:19

一、安裝mysql yum install wget wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm rpm -ivh mysql-communit

2020-02-24 16:08:19

ALS算法 ALS的意思是交替最小二乘法（Alternating Least Squares），它只是是一種優化算法的名字，被用在求解spark中所提供的推薦系統模型的最優解。spark中協同過濾的文檔中一開始就說了，這是一個基於模型的協

2020-02-24 16:08:19

業務處理的過程中，使用到pyspark訪問hive，直接訪問沒有問題，後面遇到使用pyspark訪問hive關聯hbase的表（hive on hbase），就出現報錯了。首先集羣已經可以通過spark-sql讀取hive的數據，然

2020-02-24 16:08:19

使用pyspark讀取hive中的數據，測試代碼： vi test.py #!-*- coding:utf-8 -*- from pyspark import SparkConf, SparkContext from pyspark.

2020-02-24 16:08:19

簡介 CTR估計也就是廣告點擊率預估，計算廣告訓練與平滑思想說明了是用LR算法對於預測的有效性。LR（Logistic Regression）是廣義線性模型，與傳統線性模型相比，LR通過Logit變換將函數值映射到0~1區間，映射後的函數

2019-10-26 08:43:08

訓練數據集在使用PCA進行數據降維後，用基本分類器進行訓練得到一個分類模型，那線上預測真實數據應該怎麼辦？應該不能直接放入訓練的分類模型中去吧？答：當然不能，要用你從訓練數據裏面得到的那個降維矩陣對測試數據降維，然後再送給分類器。如何

2019-10-26 08:43:08

117

126