原创 python 爬蟲——scrapy框架爬取新浪娛樂文本初探

preface: 最近師兄的任務需求,需要點新浪娛樂的新聞文本,通過半監督找到人物與人物之間的關係以充實訓練語料庫,方便後續實驗,並且爬取文本的技能也是做研究的基礎,之前也用過scrapy試着爬取動態網頁的內容但是未成功,這次爬取新浪娛樂

原创 Python爬蟲——爬取網頁中的圖片小試牛刀

Preface:以往爬取文本,這次需要爬取圖片pdf,先上手一個例子,爬取pdf,先取得url,然後通過urllib.urlretrieve函數將url的網頁內容遠程下載到本地,第一個參數爲url,第二個參數爲文件名(代碼中有誤),第三個

原创 spark進行機器學習初探Demo

關鍵詞: spark對象初始化 transformer定義 VectorAssembler特徵合併 pipeline訓練 模型保存及測試 結果保存 from pyspark.sql import SparkSession spark =

原创 NLP預處理——編碼、繁轉簡、停用詞、表情、標籤

preface:隨着經歷的積累,覺得預處理問題愈發重要,需要整理整理。 環境:mac,anaconda2 目錄 一、文本編碼轉換 二、繁轉簡 三、停用詞 四、表情異常符號 五、html/json/xml標籤處理 一、文本編碼轉換 pyth

原创 NLP工具——stanford coreNLP NER模塊學習

環境 Mac java1.8 Maven 一、調用 pom依賴 <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</art

原创 NLP工具——stanford Parser使用手冊

Preface:工作兩年多了,陸續接觸過蠻多工具,時常沒有時間整理整理,最近接觸得多了,整理整理自己接觸到的NLP這塊工具 環境: macOS anaconda2 目錄 一、下載 安裝 資源 二、使用 運行配置及栗子 分詞及POS 命名實

原创 TREE KERNELS IN SVM-LIGHT---在svm-light中樹核的使用(翻譯)

preface:樹核是一個計算相似度比較強大的工具。在nlp領域裏面對句子的語義分析,解析出句法分析樹,通過比較樹的結構,對比不同句子的相似度等等,可以應用到很多方面。其中樹核早就在svm-light這個強大的工具裏面實現了,只需要將需要

原创 python若干小函數的使用

preface: 在使用python的路上,總會遇到各種問題,各種trick,正如《Effective Python:編寫高質量Python代碼的59個有效方法》、《編寫高質量代碼——改善Python編程的91個建議》,以下也是自己在路

原创 python爬蟲——基於selenium用火狐模擬登陸爬搜索關鍵詞的微博

preface:最近的任務,還是爬微博。之前的用不上,post提交,還是不太熟悉,模擬登陸不了,故換種方式,用selenium模擬登陸,從此任何登錄以及js調用都是浮雲,我模擬登錄分分鐘解決。之前的時而有用,時而沒用,不穩定,寫得不夠魯棒

原创 Python 數據處理——小函數

preface:最近在整內比賽MDD。遇到一些數據處理方面的事情,用python pandas是最爲方便的,遠比我想象的強大。幾行代碼就完成了數據的處理,多個文件的融合,再用sklearn裏面的模型跑一跑,就能得到結果。爲此,經常記錄下來

原创 SVMrank——Support Vector Machine for Ranking(SVMrank——使用svm的排序)

preface:最近所忙的任務需要用到排序,同仁提到SVMrank這個工具,好像好強大的樣紙,不過都快十年了,還有其他ranklib待了解。 原文鏈接:SVMrank,百度搜索svm rank即可。 SVMrank 基於支持向量機的排

原创 python函數——編碼問題——str與Unicode的區別

一篇關於STR和UNICODE的好文章  整理下python編碼相關的內容 注意: 以下討論爲Python2.x版本, Py3k的待嘗試 開始 用python處理中文時,讀取文件或消息,http參數等等,一運行,發現亂碼(字符串

原创 python sklearn包——混淆矩陣、分類報告等自動生成

preface:做着最近的任務,對數據處理,做些簡單的提特徵,用機器學習算法跑下程序得出結果,看看哪些特徵的組合較好,這一系列流程必然要用到很多函數,故將自己常用函數記錄上。應該說這些函數基本上都會用到,像是數據預處理,處理完了後特徵提取

原创 python數據結構——層次遍歷的兩種方法

preface:主要是最近用層次遍歷比較多,先中後序的遍歷都有遞歸與非遞歸的方式,也比較容易明白,但層次不是很熟悉,自己不是很擅長,故記錄下來。 遞歸與非遞歸 class TreeNode(object): def __ini

原创 自然語言處理的一些工具文檔介紹

Preface:在自然語言處理的道路上,不知不覺地漸行漸遠,查找資料見過很多工具,也看過很多文檔,依然還是過不好這一生。積累太少了,查找資料雖多,實際應用上卻很少,記錄下來接觸過的一些NLP的工具。更新中...我愛自然語言處理:http: