台部落thriving

在用spark做中文分詞、詞性標註的時候遇到了一些問題，記錄一下場景及解決方法。場景是這樣的，我希望用spark做詞性標註，這可以用jieba分詞的POSTokenizer，本來只要集羣的每個節點上的pyspark包路徑都安裝jieba

2018-08-22 00:41:43

前言學習RNN的時候很多人應該都有看過Andrej Karpathy寫的The Unreasonable Effectiveness of Recurrent Neural Networks，使用基於字符粒度的RNN讓機器學會自己生成文

2018-08-22 00:41:41

前言這個系列主要是面向做工程的同事做一些分享，旨在讓大家都可以應用機器學習來解決問題，而不僅僅是看看理論淺嘗輒止。機器學習是一門包含多方面知識的學科，想要幾天掌握是不太可能的。但是如果把它當做一個工具來使用，不追本溯源，其實不需要花費

2018-08-22 00:41:41

TensorFlow 模型保存/載入我們在上線使用一個算法模型的時候，首先必須將已經訓練好的模型保存下來。tensorflow保存模型的方式與sklearn不太一樣，sklearn很直接，一個sklearn.externals.jobl

2018-08-22 00:41:41

最近學習了RL，感覺RL屬於機器學習中比較有意思的一個領域，監督學習、無監督學習都是扔一堆靜止的數據去訓練你的模型，而強化學習是讓模型與環境的交互中進行學習，讓人感覺更像一種有智慧的生物（然而並不是）。比如需要讓機器學會玩一個遊戲

2018-08-22 00:41:41

開源的word2vec工具已經有不少了，可以直接使用google開源的C版本，也可以用gensim版本的。這裏我就用gensim的word2vec來訓練一個詞向量空間。訓練語料輸入 gensim word2vec的API接受一系列的句子

2018-08-22 00:41:41

未完待續…

2018-08-22 00:41:40

最近在一個項目裏使用了fasttext[1]，這是facebook今年開源的一個詞向量與文本分類工具，在學術上沒有什麼創新點，但是好處就是模型簡單，訓練速度又非常快。我在最近的一個項目裏嘗試了一下，發現用起來真的很順手，做出來的結果也可

2018-08-22 00:41:16