台部落无限大地NLP

preface: 最近師兄的任務需求，需要點新浪娛樂的新聞文本，通過半監督找到人物與人物之間的關係以充實訓練語料庫，方便後續實驗，並且爬取文本的技能也是做研究的基礎，之前也用過scrapy試着爬取動態網頁的內容但是未成功，這次爬取新浪娛樂

2020-02-21 14:23:51

Preface：以往爬取文本，這次需要爬取圖片pdf，先上手一個例子，爬取pdf，先取得url，然後通過urllib.urlretrieve函數將url的網頁內容遠程下載到本地，第一個參數爲url，第二個參數爲文件名(代碼中有誤)，第三個

2020-02-21 14:23:51

關鍵詞： spark對象初始化 transformer定義 VectorAssembler特徵合併 pipeline訓練模型保存及測試結果保存 from pyspark.sql import SparkSession spark =

2019-04-02 19:17:19

preface：隨着經歷的積累，覺得預處理問題愈發重要，需要整理整理。環境：mac，anaconda2 目錄一、文本編碼轉換二、繁轉簡三、停用詞四、表情異常符號五、html/json/xml標籤處理一、文本編碼轉換 pyth

2019-03-11 17:49:18

環境 Mac java1.8 Maven 一、調用 pom依賴 <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</art

2019-03-10 17:43:44

Preface：工作兩年多了，陸續接觸過蠻多工具，時常沒有時間整理整理，最近接觸得多了，整理整理自己接觸到的NLP這塊工具環境： macOS anaconda2 目錄一、下載安裝資源二、使用運行配置及栗子分詞及POS 命名實

2019-03-10 17:43:44

preface：樹核是一個計算相似度比較強大的工具。在nlp領域裏面對句子的語義分析，解析出句法分析樹，通過比較樹的結構，對比不同句子的相似度等等，可以應用到很多方面。其中樹核早就在svm-light這個強大的工具裏面實現了，只需要將需要

2018-08-24 22:35:52

preface: 在使用python的路上，總會遇到各種問題，各種trick，正如《Effective Python:編寫高質量Python代碼的59個有效方法》、《編寫高質量代碼——改善Python編程的91個建議》，以下也是自己在路

2018-08-24 22:35:51

preface：最近的任務，還是爬微博。之前的用不上，post提交，還是不太熟悉，模擬登陸不了，故換種方式，用selenium模擬登陸，從此任何登錄以及js調用都是浮雲，我模擬登錄分分鐘解決。之前的時而有用，時而沒用，不穩定，寫得不夠魯棒

2018-08-24 22:35:37

preface：最近在整內比賽MDD。遇到一些數據處理方面的事情，用python pandas是最爲方便的，遠比我想象的強大。幾行代碼就完成了數據的處理，多個文件的融合，再用sklearn裏面的模型跑一跑，就能得到結果。爲此，經常記錄下來

2018-08-24 22:35:30

preface：最近所忙的任務需要用到排序，同仁提到SVMrank這個工具，好像好強大的樣紙，不過都快十年了，還有其他ranklib待了解。原文鏈接：SVMrank，百度搜索svm rank即可。 SVMrank 基於支持向量機的排

2018-08-24 22:35:29

一篇關於STR和UNICODE的好文章整理下python編碼相關的內容注意: 以下討論爲Python2.x版本, Py3k的待嘗試開始用python處理中文時，讀取文件或消息，http參數等等，一運行，發現亂碼(字符串

2018-08-24 22:35:27

preface：做着最近的任務，對數據處理，做些簡單的提特徵，用機器學習算法跑下程序得出結果，看看哪些特徵的組合較好，這一系列流程必然要用到很多函數，故將自己常用函數記錄上。應該說這些函數基本上都會用到，像是數據預處理，處理完了後特徵提取

2018-08-24 22:35:27

preface:主要是最近用層次遍歷比較多，先中後序的遍歷都有遞歸與非遞歸的方式，也比較容易明白，但層次不是很熟悉，自己不是很擅長，故記錄下來。遞歸與非遞歸 class TreeNode(object): def __ini

2018-08-24 22:35:24

Preface：在自然語言處理的道路上，不知不覺地漸行漸遠，查找資料見過很多工具，也看過很多文檔，依然還是過不好這一生。積累太少了，查找資料雖多，實際應用上卻很少，記錄下來接觸過的一些NLP的工具。更新中...我愛自然語言處理：http:

2018-08-24 22:35:24