原创 Spark做詞性標註遇到的問題及解決方法

在用spark做中文分詞、詞性標註的時候遇到了一些問題,記錄一下場景及解決方法。 場景是這樣的,我希望用spark做詞性標註,這可以用jieba分詞的POSTokenizer,本來只要集羣的每個節點上的pyspark包路徑都安裝jieba

原创 使用TensorFlow動手實現一個Char-RNN

前言 學習RNN的時候很多人應該都有看過Andrej Karpathy寫的The Unreasonable Effectiveness of Recurrent Neural Networks,使用基於字符粒度的RNN讓機器學會自己生成文

原创 7天從入門到運用機器學習 (一) -- 數據探索與預處理

前言 這個系列主要是面向做工程的同事做一些分享,旨在讓大家都可以應用機器學習來解決問題,而不僅僅是看看理論淺嘗輒止。 機器學習是一門包含多方面知識的學科,想要幾天掌握是不太可能的。但是如果把它當做一個工具來使用,不追本溯源,其實不需要花費

原创 TensorFlow 模型保存/載入的兩種方法

TensorFlow 模型保存/載入 我們在上線使用一個算法模型的時候,首先必須將已經訓練好的模型保存下來。tensorflow保存模型的方式與sklearn不太一樣,sklearn很直接,一個sklearn.externals.jobl

原创 強化學習入門學習記錄

最近學習了RL, 感覺RL屬於機器學習中比較有意思的一個領域,監督學習、無監督學習都是扔一堆靜止的數據去訓練你的模型,而強化學習是讓模型與環境的交互中進行學習,讓人感覺更像一種有智慧的生物(然而並不是)。比如需要讓機器學會玩一個遊戲

原创 word2vec (四) 動手訓練一個詞向量空間

開源的word2vec工具已經有不少了,可以直接使用google開源的C版本,也可以用gensim版本的。這裏我就用gensim的word2vec來訓練一個詞向量空間。 訓練語料輸入 gensim word2vec的API接受一系列的句子

原创 word2vec (二) CBOW

未完待續…

原创 FastText 文本分類使用心得

最近在一個項目裏使用了fasttext[1], 這是facebook今年開源的一個詞向量與文本分類工具,在學術上沒有什麼創新點,但是好處就是模型簡單,訓練速度又非常快。我在最近的一個項目裏嘗試了一下,發現用起來真的很順手,做出來的結果也可