原创 爬蟲相關(1)--- 如何使用java來獲取HTML源碼

不需要添加任何jar文件就可以通過網站連接來得到網站的html源代碼 URL url = new URL("http://www.baidu.com/"); HttpURLConnection conn = (HttpURLC

原创 Joy Catalog

2014-03-04: 學習了生產者-消費者模式。瞭解項目的現狀,初步學習了Solr + Mysql + Nutch 模式 待學習的任務: 回家繼續學習Solr,  http://my.oschina.net/zhanyu/blog/8

原创 爬蟲相關(3)----- 深度剖析Jsoup抓取數據

想要通過Jsoup來獲取信息可以通過document或者elements的getElementsBy****這類方法。也可以通過選擇器selector。 這兩種方法功能類似,但是selector由於功能強大,可以適應更加複雜的選擇條件。

原创 Rookie學習日記

最近一直在學爬蟲,作爲一個絕對的Rookie,也不知道怎樣的學習方法是最高效的。把這一段時間的體會總結一下。 1,學習的時候要目的性明確,就是要學哪

原创 爬蟲相關 ---- 正則表達式過濾掉html裏面的部分代碼(註釋)

在網上看到一個大神的代碼,得到html代碼以後如何過濾掉註釋代碼。網上有人推薦使用JSOUP的cleaner,有人推薦正則。 這個方法特別簡單易懂。保存下來方便學習參考。 Pattern p=Pattern.compile(

原创 爬蟲相關(2)---- 解析HTML源碼

參考連接:http://m.oschina.net/blog/126725 上一章介紹瞭如何使用java本地類庫獲取http資源。下一步就要考慮如何將源碼中的有效信息提取出來。有很多相關的類庫可以使用,htmlparser,jsoup,

原创 HtmlUnit 使用記錄 ---- 無順序記錄

最近需要解析javascript動態生成的內容,Jsoup不能夠完成這個功能,就使用HtmlUnit,可以說到目前爲止HtmlUnit很好的完成了任務。 但是有時候會出現莫名其妙的問題,現在將處理js請求內容中遇到的問題和解決方法列舉如

原创 JAVA去掉字符串裏的html標籤。

http://blog.163.com/anyaxiao100@126/blog/static/24086670200910243227833/ 大牛的文章,寫的很好。   好久以來的問題了, 經過編輯器處理的文字,需要截取顯示到

原创 Rookie 學習計劃

每週開始總會開始遇到一些老問題,雖然在網上找找代碼,試試都能解決,但是總覺得不能老是這麼應付。 所以提前列下一個計劃,每週一個,按照計劃學習新的知識,不斷地提高自己。 2014-04-14  --- 20 本週學習正則表達式

原创 jdbc 批處理

原文鏈接:http://mousepc.iteye.com/blog/1131462 •PreparedStatement.addBatch() conn = JdbcUtil.getConnection(); String

原创 java 獲取當前日期

http://www.cnblogs.com/lemonme/articles/1803218.html 文章寫的很好,其中最喜歡這個方法: public String GetNowDate(){       String temp_

原创 Solr 學習

參考鏈接:  1. Solr從零學習開始: 寫的非常詳細 http://blog.csdn.net/chenjia3615349/article/details/8112289 2. Solr官網的tutorial: https://

原创 Nutch2 插件機制(用於二次開發)

http://www.open-open.com/doc/view/ac5b72b3366f4586960edc9db49e31b9 http://www.ibm.com/developerworks/cn/java/j-lo-nutc

原创 Nutch

參考資料1. http://hi.baidu.com/shirdrn/item/5bc5cff7dd8d9615ce9f32ae 參考資料2. http://a280606790.iteye.com/blog/825045 第一步分析核

原创 ffmpeg linux 安裝和java調用

先從網上找來了安裝ffmpeg的方法,我是按照這個大神做的,完全一致沒有報錯。 (最主要的ffmpeg.tar.gz我是從這裏下載的:http://www.ffmpeg.org/download.html) http://www.2ct