台部落无限大地NLP

奧萊裏公司有一個很不錯的書籍系列，是以xxx cookbook爲名，比如Ruby cookbook、rails cookbook、python cookbook、c# cookbook等等。這些書當然不是讓你用Ruby或者Python煮

2020-06-17 13:04:46

第十章利用K均值聚類算法對未標註數據分組 10.1 K-均值聚類算法 K-均值是發現給定數據集的k個簇的算法，每個簇通過其質心來描述。其優點爲容易實現，但可能收斂到局部最小值，在大規模數據集上收斂較慢。隨機確定k個初始點爲質心，爲

2020-06-17 12:14:20

preface: 最近一個同學需要收集去哪兒網的一些景點信息，爬蟲上場。像是這麼有規律的之間用urllib及BeautifulSoup這兩個包就可破。實際上是我想少了。一、抓取分析 http://piao.qunar.com/tick

2020-06-17 12:14:20

1、插入排序描述插入排序的基本操作就是將一個數據插入到已經排好序的有序數據中，從而得到一個新的、個數加一的有序數據，算法適用於少量數據的排序，時間複雜度爲O(n^2)。是穩定的排序方法。插入算法把要排序的數組分成兩部分：第一部分

2020-06-17 12:14:19

preface: 最近的任務需要解析xml文件，毋庸置疑用lxml，普通的解析流程網上博客甚多w3cschool裏的就足夠了，不用再贅言。可是處理的文件裏面，明明有那個結點但xpath就是找不到，不知道爲何，查找資料用print大法找到

2020-06-04 05:18:57

preface：做實驗少不了交叉驗證，平時常用from sklearn.cross_validation import train_test_split，用train_test_split()函數將數據集分爲訓練集和測試集，但這樣還不夠。

2020-06-04 05:18:57

preface：最近小妹需要將pdf文件轉爲word/txt，將裏面的文字copy出來。一般可以複製的pdf可以使用adobe pdf之類的軟件直接轉，但是遇到不可複製的那種（比如截圖到word轉成的pdf），則沒法用普通的軟件轉爲wor

2020-06-04 05:18:57

Preface：最近忙的一個query理解服務的項目，關於分詞工具的問題，升級爲使用北京側的分詞工具，屬於工程性質的。其中，需要加載動態庫和model文件夾，而且，由於服務部署到多臺機器上，爲此，動態庫和model文件夾不能直接放到代碼上

2020-06-04 05:18:57

Preface：許久沒有更新博客了，把老夫以往整理的技術相關，再整理下。。。在遇到大規模數據處理時，計算資源受到制約，爲此需要進行各種加速方法。數值計算加速方法有cpython、numba等，但如大規模分詞，NLP相關的處理，對文本進行處

2020-04-21 22:26:11

最近在研究pathon的命令行解析工具，argparse，它是Python標準庫中推薦使用的編寫命令行程序的工具。用python來實現命令行，核心計算模塊可以用c自己寫擴展庫，效果挺好。學習了argparse，在官方文檔中找到一

2020-02-21 14:23:52

preface: 找出語料中跟某個詞類似的詞。 word2vec作爲google的一個開源工具，比較強大，效果也比較好，便試試。一、工具下載：http://word2vec.googlecode.com/svn/trunk/（翻牆

2020-02-21 14:23:52

第十二章使用FP-Growth算法來高效發現頻繁項集 FP-growth算法，基於Apriori構建，但在完成相同任務時採用了不同的技術，其只需要對數據庫進行兩次掃描，而Apriori算法對於每個潛在的頻繁項集都會掃描數據集判定給定

2020-02-21 14:23:52

preface:看極客學院關於xpath的視頻時，偶然看到可以用multiprocessing進行多線程爬取網頁，只有小段代碼，故先貼出來。mark下。新增xpath提取網頁內容，主要分析html文本，然後存爲字典寫到文件夾中。參考極客

2020-02-21 14:23:52

第十一章使用Apriori算法進行關聯分析 Apriori算法頻繁項集生成關聯規則生成從大規模數據集中尋找物品間的隱含關係被稱作爲關聯分析（association analysis）和關聯規則學習（association rule

2020-02-21 14:23:52

官方cross-validation 模型評估方式詳細說明模型評估（預測的質量）：存在三種方式來評估預測結果的質量 1、Estimator score method：每個估計模型都有自己的評價方式，可以直接使用 2、Scoring

2020-02-21 14:23:52