原创 算法編程——羅塞塔代碼RosettaCode-你的代碼烹飪書(code cookbook)

奧萊裏公司有一個很不錯的書籍系列,是以xxx cookbook爲名,比如Ruby cookbook、rails cookbook、python cookbook、c# cookbook等等。這些書當然不是讓你用Ruby或者Python煮

原创 《機器學習實戰》筆記之十——利用K均值聚類算法對未標註數據分組

第十章 利用K均值聚類算法對未標註數據分組 10.1 K-均值聚類算法 K-均值是發現給定數據集的k個簇的算法,每個簇通過其質心來描述。其優點爲容易實現,但可能收斂到局部最小值,在大規模數據集上收斂較慢。 隨機確定k個初始點爲質心,爲

原创 python 爬蟲——抓取去哪兒網站景點部分信息

preface: 最近一個同學需要收集去哪兒網的一些景點信息,爬蟲上場。像是這麼有規律的之間用urllib及BeautifulSoup這兩個包就可破。實際上是我想少了。 一、抓取分析 http://piao.qunar.com/tick

原创 python數據結構——排序算法——八大排序算法的Python實現

1、插入排序 描述 插入排序的基本操作就是將一個數據插入到已經排好序的有序數據中,從而得到一個新的、個數加一的有序數據,算法適用於少量數據的排序,時間複雜度爲O(n^2)。是穩定的排序方法。插入算法把要排序的數組分成兩部分:第一部分

原创 python lxml包——解析xml文件遇到的問題處理

preface: 最近的任務需要解析xml文件,毋庸置疑用lxml,普通的解析流程網上博客甚多w3cschool裏的就足夠了,不用再贅言。可是處理的文件裏面,明明有那個結點但xpath就是找不到,不知道爲何,查找資料用print大法找到

原创 python sklearn包——3.1cross validation筆記

preface:做實驗少不了交叉驗證,平時常用from sklearn.cross_validation import train_test_split,用train_test_split()函數將數據集分爲訓練集和測試集,但這樣還不夠。

原创 python工具——pdfToTxt

preface:最近小妹需要將pdf文件轉爲word/txt,將裏面的文字copy出來。一般可以複製的pdf可以使用adobe pdf之類的軟件直接轉,但是遇到不可複製的那種(比如截圖到word轉成的pdf),則沒法用普通的軟件轉爲wor

原创 JAVA FTPClient——遠程文件操作

Preface:最近忙的一個query理解服務的項目,關於分詞工具的問題,升級爲使用北京側的分詞工具,屬於工程性質的。其中,需要加載動態庫和model文件夾,而且,由於服務部署到多臺機器上,爲此,動態庫和model文件夾不能直接放到代碼上

原创 python加速

Preface:許久沒有更新博客了,把老夫以往整理的技術相關,再整理下。。。在遇到大規模數據處理時,計算資源受到制約,爲此需要進行各種加速方法。數值計算加速方法有cpython、numba等,但如大規模分詞,NLP相關的處理,對文本進行處

原创 Python Argparse包——命令行解析工具

最近在研究pathon的命令行解析工具,argparse,它是Python標準庫中推薦使用的編寫命令行程序的工具。 用python來實現命令行,核心計算模塊可以用c自己寫擴展庫,效果挺好。 學習了argparse,在官方文檔中找到一

原创 word2vec找文本相似詞小試牛刀

preface: 找出語料中跟某個詞類似的詞。 word2vec作爲google的一個開源工具,比較強大,效果也比較好,便試試。 一、工具 下載:http://word2vec.googlecode.com/svn/trunk/(翻牆

原创 《機器學習實戰》筆記之十二——使用FP-Growth算法來高效發現頻繁項集

第十二章 使用FP-Growth算法來高效發現頻繁項集 FP-growth算法,基於Apriori構建,但在完成相同任務時採用了不同的技術,其只需要對數據庫進行兩次掃描,而Apriori算法對於每個潛在的頻繁項集都會掃描數據集判定給定

原创 python 爬蟲及multiprocessing包——多線程爬取並解析百度貼吧某貼小trick

preface:看極客學院關於xpath的視頻時,偶然看到可以用multiprocessing進行多線程爬取網頁,只有小段代碼,故先貼出來。mark下。新增xpath提取網頁內容,主要分析html文本,然後存爲字典寫到文件夾中。 參考極客

原创 《機器學習實戰》筆記之十一——使用Apriori算法進行關聯分析

第十一章 使用Apriori算法進行關聯分析 Apriori算法頻繁項集生成關聯規則生成 從大規模數據集中尋找物品間的隱含關係被稱作爲關聯分析(association analysis)和關聯規則學習(association rule

原创 python sklearn包——cross-validation

官方cross-validation 模型評估方式詳細說明   模型評估(預測的質量):存在三種方式來評估預測結果的質量 1、Estimator score method:每個估計模型都有自己的評價方式,可以直接使用 2、Scoring