原创 正則表達式(一) -- 元字符

正則表達式括號的作用 1、限制多選項的範圍 (Fri|1)st 這樣寫會匹配Frist或1st 如果去掉,則 Fri|1st就是匹配 Fri或1st 2、將若干個字符進行組合,受量詞的同時作用。例如 th+ 表示匹配 th thh th

原创 rabbitMQ學習筆記(五) 消息路由

生產者會生產出很多消息 , 但是不同的消費者可能會有不同的需求,只需要接收指定的消息,其他的消息需要被過濾掉。 這時候就可以對消息進行過濾了。 在消費者端設置好需要接收的消息類型。 如果不使用默認的Exchange發送消息,而是使

原创 關於模擬登陸的源碼

http://www.oschina.net/code/piece_full?code=32537#46799

原创 新浪微博自動(模擬)登陸詳解及實現

最近需要爬取微博的數據進行分析,對於新浪微博,官方提供了API,但是有幾個比較致命的限制(調用次數限制和授權期限限制),所以我覺得有必要研究一下爬蟲

原创 rabbitMQ學習筆記(七) RPC 遠程過程調用

當客戶端想要調用服務器的某個方法來完成某項功能時,就可以使用rabbitMQ支持的PRC服務。 其實RPC服務與普通的收發消息的區別不大, RPC的過程其實就是    客戶端向服務端定義好的Queue發送消息,其中攜帶的消息就應該是

原创 使用lingpipe自然語言處理包進行文本分類

TrainTClassifier,基於TF/IDF算法的分類器,必須先把要語料庫放到各自所屬的分類文件夾中,比如:與金融相關的文章就放到金融這個文件夾中,我這的根目錄是f:/data/category,訓練完後會生成一個分類器模型tcla

原创 htmlparser使用指南

需要做一個垂直搜索引擎,比較了nekohtml和htmlparser 的功能,儘管nekohtml在容錯性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感覺 nekohtml的測試用例和

原创 rabbitMQ學習筆記(四) 發佈/訂閱消息

前面都是一條消息只會被一個消費者處理。  如果要每個消費者都處理同一個消息,rabbitMq也提供了相應的方法。 在以前的程序中,不管是生產者端還是消費者端都必須知道一個指定的QueueName才能發送、獲取消息。  而rabbit

原创 鴨子-策略模式(Strategy)

鴨子-策略模式(Strategy) 前言 萬事開頭難,最近對這句話體會深刻!這篇文章是這個系列正式開始介紹設計模式的第一篇,所以肩負着確定這個系列風格的歷史重任,它在我腦袋裏默默地醞釀了好多天,卻只搜刮出了一點兒不太清晰的輪廓,可是時間不

原创 rabbitMQ學習筆記(一) ubuntu12.4 與Windows 下rabbitMQ的安裝

一、Ubuntu12.4下安裝方式 安裝rabbitMQ之前需要先按抓功能ERLang 。 安裝ERLang之前需要安裝一下依賴項 sudo apt-get install build-essential    sudo apt

原创 像素是什麼意思,像素與分辨率的區別

像素是什麼意思?一個像素有多大? 告訴你像素和分辨率的關係!   圖片的像素和分辨率  對於像素和分辨率這兩個詞,主要見於圖片和顯示設備上。只要你用到手機裏的照相功能,你都要接觸到這兩個概念。只是大多數人都是一知半解,而更多的人卻根本就不

原创 rabbitMQ學習筆記(三) 消息確認與公平調度消費者

從本節開始稱Sender爲生產者 , Recv爲消費者 一、消息確認 爲了確保消息一定被消費者處理,rabbitMQ提供了消息確認功能,就是在消費者處理完任務之後,就給服務器一個回饋,服務器就會將該消息刪除,如果消費者超時不回饋

原创 使用httpclient、htmlcleaner 、xpath 採集新浪微博3G站點數據

轉載:http://blog.csdn.net/telnetor/article/details/8582045 0、背景 原來對新浪微博的採集主要靠對weibo.com這個入口進行,但是最近發現有人使用weibo.cn

原创 spider工具類

package com.util; import java.io.File; import java.io.FileOutputStream; im

原创 rabbitMQ學習筆記(六) topic類型消息。

上一節中使用了消息路由,消費者可以選擇性的接收消息。 但是這樣還是不夠靈活。  比如某個消費者要訂閱娛樂新聞消息 。 包括新浪、網易、騰訊的娛樂新聞。那麼消費者就需要綁定三次,分別綁定這三個網站的消息類型。 如果新聞門戶更多了,那麼消