台部落Young

以下note是針對dmlc開源的相關API和參數 XGB API接口 XGBOOST提供了兩個獲取特徵重要度評分的方法，get_fscore和get_score。 get_score可選參數weight、gain、cover作爲衡

2020-06-23 22:53:40

Shell shell用法 awk文本篩選 Linux進程、線程 Vim Vim的基本用法

2020-06-21 21:23:50

DeepCTR包主要是對目前的一些“基於深度學習的點擊率預測算法”進行了實現，官方文檔參考本文主要記錄DeepFM算法的相關操作細節。實驗數據 prefix：用戶輸入(query前綴) query_prediction：預測的

2020-06-21 21:23:49

Bert是一種更合理的語言模型，基於bert預訓練模型fine-tune可以完成文本分類、問答匹配等任務。本文主要記錄使用bert預訓練語言模型做二分類文本分類的實驗過程。源碼下載：https://github.com/goog

2020-06-21 21:23:47

更新Beta分佈裏的alpha和beta參數 Beta(a,b)=θa−1(1−θ)b−1B(a,b),B函數是一個標準化函數\displaystyle Beta(a,b)=\frac{\theta^{a-1}(1-\theta)

2020-06-21 21:23:47

【stack】 1.empty() 堆棧爲空則返回真 2.pop() 移除棧頂元素 3.push() 在棧頂增加元素 4.size() 返回棧中元素數目 5.top() 返回棧頂元素【vector】 1.push_back()

2020-06-21 21:23:47

模型參數：（1）通過學習獲得（2）學習開始前設定，沒辦法在學習過程得到，如學習率、隱層數。把第（2）類參數稱爲超參數；優化超參數，可以提高模型在獨立數據集上的性能；常用交叉驗證法，評估不同超參數下，模型的泛化性能。 sklear

2020-06-21 21:23:47

寫文件用java中的 I/O 類（java.io.File)，如果文件不存在，直接創建新文件write新內容；如果文件存在，會刪去文件原有內容write新內容。 import java.io._ object file_le

2020-06-21 21:23:46

textCNN網絡結構 textCNN 只有一層卷積,一層max-pooling, 最後將輸出外接softmax 來n分類。（1）對句子分詞後onehot編碼，對應6*5矩陣；（2）4*5的卷積核作用後，產生3*1的featu

2020-06-21 21:23:46

大數據領域的奠基石，毫無疑問，是google 2003年發表的Big Table、Google File System和Map Reduce三篇論文。大數據平臺的發展：批處理、流計算、全面融合。批處理海量數據存儲在HDFS，通

2020-06-21 21:23:46

bm25算法 pagerank算法

2020-06-21 21:23:46

貝葉斯平滑ctr計算推薦系統特徵維度深度推薦模型包DeepCTR item-based CF user-based CF LFM/funk-SVD FM/FFM Wide&Deep/DeepFM 推薦系統常見問題推薦系統簡介

2020-06-21 21:23:46

awk是處理文本文件的一個應用程序，幾乎所有 Linux 系統都自帶這個程序。它依次處理文件的每一行，並讀取裏面的每一個字段。 [engine@client2v ~/yy1]$ cat demo.txt this+is+a+de

2020-06-21 21:23:46

NLP框架詞向量詞表(0/1) 詞頻 tf-idf(詞的全局重要度) Ngram(相鄰詞順序) NNLM(近義詞上下文) Word2vec ELMo(多義詞) 詞袋模型詞向量訓練 fastText的基本原理及參數 fast

2020-06-21 21:23:46

問題背景機器學習建模分類問題裏，各個類別樣本量差異較大時，就會出現類別不均衡問題。e.g.如果有99999個無症狀病例，1個有症狀病例，即使訓練的學習器將所有樣本識別成無症狀病例，準確率也高達99.9%；但是這樣的學習器沒有任何

2020-06-21 21:23:46