台部落thriving

Probabilistic Latent Semantic Analysis 主題模型簡介 plsa，也就是概率隱語義分析，是主題模型的一種。主題模型是什麼呢？先從文檔說起，每篇文檔用bag-of-words模型表示，也就是每篇文

2020-06-23 17:26:14

前向分步算法到AdaBoost 前向分步算法與AdaBoost有什麼關係呢？除了都屬於Boosting的模型，其實AdaBoost是當前向分步算法損失函數爲指數損失時的特例。這篇就寫一下推導的過程。前向分步算法 Forward

2020-02-23 18:46:47

GBDT由一系列的迴歸樹組成，如下圖所示（樹的深度未必都要一樣，下圖僅爲示意圖）。 GBDT原理針對每一個類別訓練一系列的迴歸樹，再累加每個類別迴歸樹的預測值得到針對每個類別的最終的預測值。單獨拿一個類別來說，訓練的過程中假設

2020-02-23 18:46:36

今年來人工智能的概念越來越火，AlphaGo以4：1擊敗李世石更是起到推波助瀾的作用。作爲一個開挖掘機的菜鳥，深深感到不學習一下deep learning早晚要被淘汰。既然要開始學，當然是搭一個深度神經網絡跑幾個數據集感受一下作

2020-02-23 18:46:36

一直對hadoop這套侷限在會用就好，沒有對hadoop生態有個系統性的深入瞭解，也就導致在用的時候出問題很難找到關鍵的原因，都得google so 各種找相關信息。所以現在覺得，還是得花一些時間，至少把與平時用到的相關部分的原理、概念理

2018-08-22 00:41:56

partition是spark rdd計算的最小單元。爲什麼是最小單元？先從分佈式說起，分佈式計算的特點就是批處理，將大量的數據分成若干批次，使得利用廉價機器搭建的集羣也可以完成海量數據的計算。大量的數據分散在集羣中的若干節點上，每個節點

2018-08-22 00:41:45

Attention機制在NLP上最早是被用於seq2seq的翻譯類任務中，如Neural Machine Translation by Jointly Learning to Align and Translate這篇文章所說。之後在文

2018-08-22 00:41:44

saved_model模塊主要用於TensorFlow Serving。TF Serving是一個將訓練好的模型部署至生產環境的系統，主要的優點在於可以保持Server端與API不變的情況下，部署新的算法或進行試驗，同時還有很高的性能。

2018-08-22 00:41:44

MySQL導入Hive可以用sqoop或者dump到本地再load into的方式導入Hive。還有一種方式就是用阿里開源的DataX，試了一下還挺方便的。用sqoop經常會出現數據傾斜的情況，DataX暫時還沒有遇見。要使用Data

2018-08-22 00:41:44

注：這裏用Hive泛指數據倉庫，數據還是存儲在HDFS裏。想要從MongoDB往Hive導數據主要有兩種方式 1. Hive直接連接MongoDB Hive連接MongoDB這篇講了怎麼連接。使用這種方式的好處在於，直接創建一個Hiv

2018-08-22 00:41:44

Siamese Network簡介 Siamese Network 是一種神經網絡的框架，而不是具體的某種網絡，就像seq2seq一樣，具體實現上可以使用RNN也可以使用CNN。簡單的說，Siamese Network用於評估兩個輸入樣

2018-08-22 00:41:43

因爲在組裏分享會要講word2vec，重新整理了之前凌亂的筆記，結果發現有不少新的收穫，真是所謂的溫故而知新！詞的向量化與word2vec簡介 word2vec最初是Tomas Mikolov發表的一篇文章[1]，同時開源了相應的代碼，

2018-08-22 00:41:43

Hive連接MongoDB Hive上創建的表可以是HDFS-based，也可以是MongoDB-based。MongoDB-based的Hive表，其實就是一個將MongoDB collection的數據與Hive表的字段相關聯的映射。

2018-08-22 00:41:43

藉着與同事組內分享的機會，根據論文Neural Machine Translation By Jointly Learning to Align and Translate把帶Attention機制的Seq2Seq框架Encoder與De

2018-08-22 00:41:43

CoreNLP 項目是Stanford開發的一套開源的NLP系統。包括tokenize, pos , parse 等功能，與SpaCy類似。SpaCy號稱是目前最快的NLP系統，並且提供現成的python接口，但不足之處就是目前還不支持

2018-08-22 00:41:43