原创 兩種將 (batch_size, seq_length, cell.input_size) => (seq_length, batch_size, cell.input_size)的方法

1。 ##batch_size=30, seq_length=6;cell.input_size=100 Y = np.random.randn(30,6, 100) inputs = tf.split(Y, 6, 1) inputs2

原创 Youtube 推薦系統框架

1 。推薦一般分爲match和rank. match階段採用了word2Vec思想。關鍵的一點要理解vedio vector的權重在哪裏。 在softmax那一步驟,比如user vector是100維,video vector是100

原创 解決數據傾斜的幾種方法

1.從數據源清理做起。比如去除噪點數據,裁剪邊 2.增加partition,提高並行度。(注意,這個只會緩解數據傾斜,使得每個excutor可以處理更少的key,但如果一個key的數目超級多,還是無法解決) 3.利用廣播變量調優。join

原创 MSE(L2損失)與MAE(L1損失)的分析

簡單來說,MSE計算簡便,但MAE對異常點有更好的魯棒性。訓練一個機器學習模型時,目標就是找到損失函數達到極小值的點。當預測值等於真實值時,這兩種函數都能達到最小。  分析:MSE對誤差取了平方(令e=真實值-預測值),因此若e>1,則M

原创 推薦系統 match階段爲什麼不做ctr預估

  1. 性能問題。 2.用的數據來源問題問題。match階段一般是用的多個系統的數據組成的行爲序列,比如搜索+個性化推薦的系統的數據。點擊率預估一般是用的自己的個性化推薦的系統數據。例如上圖的match和rank的數據是不同的。r

原创 訓練convNets Tip

原创 SVM 經典疑問收錄

1.回顧一下,w與αi,xi,yi的關係式爲: w = ∑ αi*yi*xi ,其中i = 1,2,3,...,N 我們初始化的α是一個全爲0的向量,即α1=α2=α3=...=αN=0,w的值即爲0. 我們進行SMO算法時,每輪挑選出

原创 Leetcode 尋找消失的數,尋找重複數彙總

總結,看一下題目的數字範圍是不是1到n,  如果不是的話,就需要設定一些條件即可。   442. Find All Duplicates in an Array public class Solution {//如果數組裏有負數的話不可

原创 快速排序、堆排序、歸併排序 的java 代碼

1. 快速排序  public class quick_sort { public int partition(int[]nums, int begin, int end){ int val = nums[begin]; i

原创 消除positon bias的幾種方法

1. 消除推薦系統中的位置偏置,一種常見的做法是在訓練階段將位置作爲一個特徵加入到模型中,而在預測階段置爲0或者一個統一的常數,如下圖所示:   2。 還有一種做法是在訓練階段將點擊率拆解爲兩個部分,即用戶看到物品的概率 * 用戶看到

原创 Xgboost windows編譯調試通過的經驗之談

調了3天終於跳出來了。。   用到的工具有VS studio 2015。 PS:當時博主搞的時候不知道VS studio2017對linux支持的很好,也是後來才知道,感興趣 的同學可以一上來就用VS studio2017試一下。 一開始

原创 c++ 什麼時候用指向指針的指針

void test(int *s) {         int tmp = 100;         s = &tmp; //嘗試對s的指向做了改變,但只是在局部有效         cout<< *s <<endl;     }   

原创 數據預處理的方式

1.樣本調權 2.歸一化 3.離散化 4.獨熱向量編碼 5.Log/exp 變換 6.PCA 點贊 收藏 分享 文章舉報 zzzz_123123 發佈了23 篇原創文章 · 獲

原创 batch normalization 爲什麼有效?

  4.1 Normalization 的權重伸縮不變性   從兩方面來看, 1、權重伸縮不變性可以有效地提高反向傳播的效率。       主要體現在對x求導。 2.權重伸縮不變性還具有參數正則化的效果,可以使用更高的學習率。    

原创 tf local_variables_initializer 和global_variables_initializer的區別

作者:batman 鏈接:https://www.zhihu.com/question/61834943/answer/828562407 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。   首先,glo