原创 TIP-LAS 藏語分詞工具使用

最近處理藏語語料的時候找到了李亞超老師的TIP-LAS,詳細介紹可見論文: TIP-LAS:一個開源的藏文分詞詞性標註系統 這個工具可以對藏語進行分詞、詞性標註處理。只是使用時遇到了一些問題,在此記錄。 1.安裝 論文中給出的gi

原创 TensorFlow實現word2vec(Skip-Gram、CBOW)代碼記錄

最近學習word2vec,發現一些文章寫的有點,略。。(>﹏<),而且有些代碼有錯誤,這裏記錄一些學習代碼過程中的問題,這裏構建的方式是Skip-Gram,代碼不全部寫出,只寫一些覺得重要的地方。 首先,如果想要了解詳細的數學原理

原创 pyhanlp、HanLP安裝與使用

pyhanlp、HanLP安裝使用(Windows) 4.28更新:對於Python來說,官方給出了HanLP的Python接口,具體見:自然語言處理工具包HanLP的Python接口,使用一個簡單的pip命令就可以安裝使用了,但

原创 常用數據集總結文章記錄、IRIS數據集介紹

2019.4.15更新:最近想把一些常用的數據集總結一下的,結果發現已經有很多文章寫的很好了,不瞎忙活了,這裏記錄一下: 超全的數據集彙總: CVonline: Image Databases 這裏還有博主把上面的數據集翻譯了:

原创 Python 記錄(一)

記錄一些Python中遇到的零碎知識點~ 文章目錄1.字符串替換、刪除字符2.字符串前的'b', 'r', 'u'3.關於set的操作4.關於re.split()分割字符串5.關於Python表示多行字符串6.錯誤:Error o

原创 LaTex初次使用資料彙總

LaTex 使用 最近由於課程需要,要使用LaTex,初次使用,找錯誤找到崩潰。。。不過LaTex的輸出確實是好看啊,在這裏要吐槽一些博客,點開一看,只有一個網址,然後打開,又是一個網址???應該向所有博主推一條 “嚴禁套娃”的消

原创 關於 Numpy 以及 Pytorch 的數組shape的一點總結

文章目錄1.數組中數據存儲的結構2.數組的座標問題3.對於Pytorch 的shape相關問題4. Pytorch 中幾個常見的有關維度的函數4.1 squeeze() 和 unsqueeze()4.2 permute() 函數

原创 論文筆記:Tree-LSTM結構的三篇論文總結

對於序列數據而言,從最早的 RNN 結構單元,後來衍生出了 LSTM 以及 GRU 等等變種,這些變種單元的功能更好,並且有效解決了RNN的梯度消失/爆炸問題。對於樹結構信息來說也是如此,2015年,三篇論文同時期提出了 Tree

原创 Convolutional Nerual Network for Sentence Classification 論文學習

Convolutional Nerual Network for Sentence Classification 論文鏈接:Convolutional Neural Network for Sentence Classificat

原创 Python a = a + b 與 a+= b 問題

今天又遇到了這個問題,關於變量在函數內外定義以及修改的問題,在這裏簡要總結一下: 可變與不可變對象 首先這個問題歸根結底是Python變量機制中的可變與不可變對象,Python中萬物皆對象,簡單來說,不可變對象有這幾種: int

原创 sklearn中TF-IDF值的計算方式

關於TF-IDF值,首先簡單地提一下: TF(Term Frequency),也就是詞頻,這個定義很直觀,也就是某個詞語地頻數除以整個文檔的總詞數: TF=某個詞語出現次數文檔總詞語數 TF=\frac{某個詞語出現次數}{文檔總

原创 Tensorflow 錯誤:TypeError: Fetch argument XXXX has invalid typeXXXX,must be a string or Tensor

今天在訓練一個小模型的時候,出現了這樣的錯誤: TypeError: Fetch argument 2.19779 has invalid type <class 'numpy.float32'>, must be a stri

原创 Python 記錄(二)

文章目錄1.關於sum等函數中keepdims參數 1.關於sum等函數中keepdims參數 Numpy中很多函數提供了 axis 參數,這個參數可以指定計算按照的方向,這裏注意理解 “按照方向”,也就是在這個方向上進行 “壓縮

原创 二叉樹重建

給定二叉樹的先序遍歷序列和中序遍歷序列,進行二叉樹的重建以及後序遍歷隊列。 突然看到這個問題。。發現之前的想法都忘記了=_=||,果然算法題一日不寫手生啊,還是得好好堅持練習才行啊。 代碼: #include<cstdio> #i

原创 NLTK數據包快速安裝

使用Anaconda環境下,可以直接使用activate + 環境名的方式切到要安裝nltk的環境下,然後使用conda install nltk進行安裝,如果只是普通的python方式,則是可以使用pip install命令。