原创 推薦系統矩陣分解詳解之spark ALS

1.推薦系統與spark 做推薦系統的同學,一般都會用到spark。spark的用途相當廣泛,可以用來做效果數據分析,更是構建特徵與離線訓練集的不二人選,同時spark streaming也是做實時數據的常用解決方案,mllib包

原创 推薦系統中的矩陣分解詳解

0.前言 推薦系統最常見的兩種場景爲評分預測與排序。評分預測的典型場景爲豆瓣上一個用戶對電影的評分,淘寶上對某個商品的評分。排序的場景更爲普遍,比如信息流業務中,從海量的內容中挑選出最合適的topN內容給用戶展示,就是一個典型的排

原创 SparkStreaming kafka zookeeper本地環境調試安裝

1.需求 線上需要使用流式數據實時反饋CTR,因此想用spark streaming計算相關數據。之前一直沒有在本地配置streaming的調試環境,因此在本地安裝一下streaming的調試環境並記錄。 2.需要安裝的組件 sp

原创 解壓tar.gz文件與tar.bz2文件

解壓tar.gz文件與tar.bz2文件的命令是不一樣的。 其中 解壓tar.gz的命令爲 tar -zxvf ×××.tar.gz 解壓tar.bz2的命令爲 tar -jxvf ×××.tar.bz2 主要區別在於,一個參數爲

原创 ubuntu dock欄添加應用啓動圖標

1.問題描述 新安裝的ubuntu18系統,自己下載的軟件包安裝好以後,無法將啓動圖標固定在dock欄上,導致每次啓動都要去軟件安裝的目錄中執行對應的啓動腳本,非常不方便。爲了解決上述問題,可以採用如下解決方案。 2.解決辦法 以

原创 python 時間戳轉換,求時間差等常見用法

1.常用的模塊 from datetime import datetime import time from dateutil.parser import parse 2.得到當前時間 def getCurrentTime():

原创 ubuntu修改源爲阿里雲

1.備份 先備份原有的配置,以防不測。 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 2.修改配置 講sources.list原有內容全部刪除,加上如下配置 de

原创 tensorflow手動實現算法之三邏輯迴歸

1.邏輯迴歸算法 邏輯迴歸是日常工作中最常用的算法之一。雖然邏輯迴歸很簡單,出現的年代也比較久遠,但是實現簡單,可解釋性強,一般效果也不會太差,尤其在處理海量數據集的時候具有性能上的巨大優勢,因此邏輯迴歸一般會被用作線上算法的ba

原创 numpy與tensorflow中的廣播(broadcast)機制

1.numpy中的廣播 廣播(broadcast)是numpy中經常使用的一個技能點,他能夠對不同形狀的數組進行各種方式的計算。 舉個簡單的例子: a = np.array([1, 2, 3]) b = np.array([4,

原创 tensorflow手動實現算法之一線性迴歸

0.前言 現在算法相關的框架與工具,封裝得越來越好,調用越來越方便,以至於很多算法工程師被嘲笑或者自嘲爲"調包俠",“調參俠”。確實在實際工作中,需要自己從頭到尾實現算法的機會越來越少,尤其是分佈式的系統,最多就是在框架實現的基礎

原创 tensorflow手動實現算法之二多元線性迴歸

1.多元線性迴歸 與前面線性迴歸不同,線性迴歸的變量X只有一維,而多元線性迴歸的輸入 X有多維。其他方面都很類似。 2.代碼實現 ''' 0.00632 18.00 2.310 0 0.5380 6.5750 65.

原创 TypeError: Fetch argument has invalid type class 'numpy.float32', must be a string or Tensor

1.問題 tensorflow代碼在運行的時候,出現如下錯誤 Epoch: 0010 cost= 0.080483146 W= 0.23614137 b= 0.97142047 ... TypeError: Fetch argum

原创 小白都能理解的矩陣與向量求導鏈式法則

0.前言 深度學習中最常見的是各種向量還有矩陣運算,經常會涉及到求導操作。因此準確理解向量矩陣的求導操作就顯得非常重要,對我們推導計算過程以及代碼書寫覈對有非常大的幫助。 神經網絡中最常見的操作爲向量,矩陣乘法,在求導的時候經常需

原创 交叉熵損失函數(Cross Entropy Error Function)與均方差損失函數(Mean Squared Error)

1.均方差損失函數(Mean Squared Error) 均方差損失函數是預測數據和原始數據對應點誤差的平方和的均值。計算方式也比較簡單 MSE=1N(y^−y)2MSE = \frac{1}{N}(\hat y - y) ^

原创 小白都能看懂的numpy與pandas中axis解釋

1.axis參數 在numpy與pandas,以及各種涉及到數值計算的類庫中,都會有axis這個參數。這個參數非常重要,初學者理解起來比較困難,如果按二維矩陣中行列的概念去理解會比較難理解。今天咱們用另外一種角度去理解axis參數