原创 XGBOOST常用接口參數

以下note是針對dmlc開源的相關API和參數 XGB API接口 XGBOOST提供了兩個獲取特徵重要度評分的方法,get_fscore和get_score。 get_score可選參數weight、gain、cover作爲衡

原创 Shell/Vim相關list

Shell shell用法 awk文本篩選 Linux進程、線程 Vim Vim的基本用法

原创 深度推薦模型包DeepCTR

DeepCTR包主要是對目前的一些“基於深度學習的點擊率預測算法”進行了實現,官方文檔參考 本文主要記錄DeepFM算法的相關操作細節。 實驗數據 prefix:用戶輸入(query前綴) query_prediction:預測的

原创 Bert文本分類

Bert是一種更合理的語言模型,基於bert預訓練模型fine-tune可以完成文本分類、問答匹配等任務。本文主要記錄使用bert預訓練語言模型做二分類文本分類的實驗過程。 源碼下載:https://github.com/goog

原创 貝葉斯平滑ctr計算

更新Beta分佈裏的alpha和beta參數 Beta(a,b)=θa−1(1−θ)b−1B(a,b),B函數是一個標準化函數\displaystyle Beta(a,b)=\frac{\theta^{a-1}(1-\theta)

原创 C++標準模板類STL

【stack】 1.empty() 堆棧爲空則返回真 2.pop() 移除棧頂元素 3.push() 在棧頂增加元素 4.size() 返回棧中元素數目 5.top() 返回棧頂元素 【vector】 1.push_back()

原创 調參方法-超參數優化

模型參數:(1)通過學習獲得(2)學習開始前設定,沒辦法在學習過程得到,如學習率、隱層數。 把第(2)類參數稱爲超參數;優化超參數,可以提高模型在獨立數據集上的性能;常用交叉驗證法,評估不同超參數下,模型的泛化性能。 sklear

原创 Scala文件操作

寫文件 用java中 的 I/O 類 (java.io.File),如果文件不存在,直接創建新文件write新內容;如果文件存在,會刪去文件原有內容write新內容。 import java.io._ object file_le

原创 TextCNN文本分類

textCNN網絡結構 textCNN 只有一層卷積,一層max-pooling, 最後將輸出外接softmax 來n分類。 (1)對句子分詞後onehot編碼,對應6*5矩陣;(2)4*5的卷積核作用後,產生3*1的featu

原创 大數據平臺幾種架構對比

大數據領域的奠基石,毫無疑問,是google 2003年發表的Big Table、Google File System和Map Reduce三篇論文。大數據平臺的發展:批處理、流計算、全面融合。 批處理 海量數據存儲在HDFS,通

原创 搜索算法相關list

bm25算法 pagerank算法

原创 推薦算法相關list

貝葉斯平滑ctr計算 推薦系統特徵維度 深度推薦模型包DeepCTR item-based CF user-based CF LFM/funk-SVD FM/FFM Wide&Deep/DeepFM 推薦系統常見問題 推薦系統簡介

原创 awk文本篩選

awk是處理文本文件的一個應用程序,幾乎所有 Linux 系統都自帶這個程序。它依次處理文件的每一行,並讀取裏面的每一個字段。 [engine@client2v ~/yy1]$ cat demo.txt this+is+a+de

原创 自然語言處理相關list

NLP框架 詞向量 詞表(0/1) 詞頻 tf-idf(詞的全局重要度) Ngram(相鄰詞順序) NNLM(近義詞 上下文) Word2vec ELMo(多義詞) 詞袋模型 詞向量訓練 fastText的基本原理及參數 fast

原创 類別不均衡問題

問題背景 機器學習建模分類問題裏,各個類別樣本量差異較大時,就會出現類別不均衡問題。e.g.如果有99999個無症狀病例,1個有症狀病例,即使訓練的學習器將所有樣本識別成無症狀病例,準確率也高達99.9%;但是這樣的學習器沒有任何