原创 plsa(Probabilistic Latent Semantic Analysis) 概率隱語義分析

Probabilistic Latent Semantic Analysis 主題模型簡介 plsa,也就是概率隱語義分析,是主題模型的一種。主題模型是什麼呢?先從文檔說起,每篇文檔用bag-of-words模型表示,也就是每篇文

原创 從前向分步算法推導出AdaBoost

前向分步算法到AdaBoost 前向分步算法與AdaBoost有什麼關係呢?除了都屬於Boosting的模型,其實AdaBoost是當前向分步算法損失函數爲指數損失時的特例。這篇就寫一下推導的過程。 前向分步算法 Forward

原创 對GBDT的一點理解

GBDT由一系列的迴歸樹組成,如下圖所示(樹的深度未必都要一樣,下圖僅爲示意圖)。 GBDT原理 針對每一個類別訓練一系列的迴歸樹,再累加每個類別迴歸樹的預測值得到針對每個類別的最終的預測值。單獨拿一個類別來說,訓練的過程中假設

原创 Tensorflow實現卷積神經網絡,用於人臉關鍵點識別

今年來人工智能的概念越來越火,AlphaGo以4:1擊敗李世石更是起到推波助瀾的作用。作爲一個開挖掘機的菜鳥,深深感到不學習一下deep learning早晚要被淘汰。 既然要開始學,當然是搭一個深度神經網絡跑幾個數據集感受一下作

原创 Spark on YARN 筆記

一直對hadoop這套侷限在會用就好,沒有對hadoop生態有個系統性的深入瞭解,也就導致在用的時候出問題很難找到關鍵的原因,都得google so 各種找相關信息。所以現在覺得,還是得花一些時間,至少把與平時用到的相關部分的原理、概念理

原创 Spark Partition

partition是spark rdd計算的最小單元。爲什麼是最小單元?先從分佈式說起,分佈式計算的特點就是批處理,將大量的數據分成若干批次,使得利用廉價機器搭建的集羣也可以完成海量數據的計算。大量的數據分散在集羣中的若干節點上,每個節點

原创 用於文本分類的RNN-Attention網絡

Attention機制在NLP上最早是被用於seq2seq的翻譯類任務中,如Neural Machine Translation by Jointly Learning to Align and Translate這篇文章所說。 之後在文

原创 TensorFlow saved_model 模塊

saved_model模塊主要用於TensorFlow Serving。TF Serving是一個將訓練好的模型部署至生產環境的系統,主要的優點在於可以保持Server端與API不變的情況下,部署新的算法或進行試驗,同時還有很高的性能。

原创 MySQL導入Hive - DataX方案

MySQL導入Hive可以用sqoop或者dump到本地再load into的方式導入Hive。 還有一種方式就是用阿里開源的DataX,試了一下還挺方便的。用sqoop經常會出現數據傾斜的情況,DataX暫時還沒有遇見。 要使用Data

原创 MongoDB往Hive導數據

注:這裏用Hive泛指數據倉庫,數據還是存儲在HDFS裏。 想要從MongoDB往Hive導數據主要有兩種方式 1. Hive直接連接MongoDB Hive連接MongoDB這篇講了怎麼連接。 使用這種方式的好處在於,直接創建一個Hiv

原创 用於文本相似的Siamese Network

Siamese Network簡介 Siamese Network 是一種神經網絡的框架,而不是具體的某種網絡,就像seq2seq一樣,具體實現上可以使用RNN也可以使用CNN。 簡單的說,Siamese Network用於評估兩個輸入樣

原创 word2vec (一) 簡介與訓練過程概要

因爲在組裏分享會要講word2vec,重新整理了之前凌亂的筆記,結果發現有不少新的收穫,真是所謂的溫故而知新! 詞的向量化與word2vec簡介 word2vec最初是Tomas Mikolov發表的一篇文章[1],同時開源了相應的代碼,

原创 Hive連接MongoDB

Hive連接MongoDB Hive上創建的表可以是HDFS-based,也可以是MongoDB-based。MongoDB-based的Hive表,其實就是一個將MongoDB collection的數據與Hive表的字段相關聯的映射。

原创 帶Attention機制的Seq2Seq框架梳理

藉着與同事組內分享的機會,根據論文Neural Machine Translation By Jointly Learning to Align and Translate把帶Attention機制的Seq2Seq框架Encoder與De

原创 CoreNLP Python接口處理中文

CoreNLP 項目是Stanford開發的一套開源的NLP系統。包括tokenize, pos , parse 等功能,與SpaCy類似。SpaCy號稱是目前最快的NLP系統, 並且提供現成的python接口,但不足之處就是目前還不支持