原创 推薦分解:介紹SVD、SVD++

SVD介紹 SVD原理:奇異值分解 方陣可以求特徵矩陣 思路可參考:https://www.cnblogs.com/pinard/p/6251584.html 作用   可以用最大的k個的奇異值描述矩陣。 所以SVD可以用於PCA降維,來

原创 word2vec參數

word2vec訓練 、 一般來說word2vec的詞向量方法強於glove方法,而對於word2vec,cbow方法強於skip-gram lr = 0.05 dim = 100 ws = 5 epoch = 5 minCount =

原创 presto

目錄 特點 問題 Hive SQL -> Presto SQL 常見問題 Presto SQL優化 當前影響查詢效率的主要問題 presto會比hive快,原因:   Hive sql 轉換 Presto sql 經常遇到的一些問題,降

原创 FM詳解

FM因子分解機和矩陣分解 FM介紹 FM分解機是在線性迴歸的基礎上加上了交叉特徵,通過學習交叉特徵的權重從而得到每個交叉特徵的重要性。這個模型也經常用於點擊率預估。 其中,n代表樣本的特徵數量,x_i是第i個特徵的值,w_0,w_i,w

原创 安裝flink

安裝jdk 設置環境變量 變量名:JAVA_HOME 變量值:C:\jdk1.8.0_91 jdk路徑 變量名:CLASSPATH 變量值:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\too

原创 hive之函數篇

其他函數 NVL判斷是否爲null,替換 NVL(E1, E2)的功能爲:如果E1爲NULL,則函數返回E2,否則返回E1本身。 NVL(isclick, 0) as isclick 列轉行函數collect_set colle

原创 cnn知識點

Caffe的三級結構(Blobs,Layers,Nets) 1.Caffe總體架構 Caffe框架主要有五個組件:Blob,Solver,Net,Layer,Proto,大致可以分爲三層結構blob,layer,net Solver負責深

原创 圖算法分類簡介

最小生成樹能夠保證整個拓撲圖的所有路徑之和最小,但不能保證任意兩點之間是最短路徑。 (路總長最小連接所有點) 最短路徑是從一點出發,到達目的地的路徑最小 (一點到達零一點) 最小生成樹-prim和krustal 給定一個n個點m條邊的無向

原创 hive之細碎篇

1、strict嚴格模式 Hive配置中有個參數hive.mapred.mode,分爲nonstrict,strict,默認是nonstrict 如果該模式值爲strict,將會阻止以下三種查詢: (1)、對分區表查詢,wher

原创 hive之數據傾斜

hive之數據傾斜 如果大量數據都爲空會導致數據傾斜放到同一個reduce執行影響效率 • 有數據傾斜的時候進行負載均衡 • hive.groupby.skewindata = false --表現 1剩下幾個task,執行的特別

原创 MTL多目標學習介紹綜述等

工業界解決多目標問題的方案基本有三種策略:多模型分數融合、排序學習(Learning To Rank,LTR)、多任務學習(Multi-Task Learning,MTL) 1、 An Overview of Multi-Task Lea

原创 ubuntu安裝等相關

安裝軟件 1安裝chrome 官網下載包或者 sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt/sources.list.d/ wget

原创 Multi-task 模型在推薦場景的一些應用和工作

MMOE   左側的shallow tower部分和右側的main tower部分,論文中提到的採用類似Wide&Deep模型結構就是指這兩個tower,其中shallow tower可以對應Wide部分,main tower對應的是D

原创 推薦系統之MAP與NDCG

Accuracy,Precision, Recall, F1, MAP(Mean Average Precision) and NDCG(Normalized Discount Cumulative Gain )  1、Hit Ratio

原创 eval作用-python

處理輸入的字符串-將字符串轉成相應的對象(如list、tuple、dict和string之間的轉換) #相當於直接去掉引號的對象 a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]" a = "{1:'xx