原创 三大搜索引擎搜索代碼所有參數詳解

先說谷歌的, q--查詢的關鍵詞(Query),百度對應的參數爲wd hl--Google搜索的界面語言(Interface Language) hl=zh-CN簡體中文語言界面,我們用的Google中文就是這個參數。 hl=zh-

原创 HTMLParser抓取網頁

看到後很多人問,過濾網頁信息什麼的。其實用HTMLPARSER非常方便,現在沒事要做個用代理訪問網頁的軟件,首先是提取各個免費代理網站的代理:用到HTMLPARSER 1package com.pmjava.search; 2 3impor

原创 我的友情鏈接

51CTO博客開發Java究竟怎麼玩過程改進論壇My bloggracecode.blogMy Iciba我的夢想我去追瞬間移動博客cliff博客lenolong的專欄

原创 java 的visitor方式

http://blog.seforge.org/?uid-244-action-viewspace-itemid-93Visitor訪問者模式定義作用於某個對象羣中各個對象的操作. 它可以使你在不改變這些對象本身的情況下,定義作用於這些對象

原创 關於博文禁忌內容檢查

尊敬的管理員和其他博友:   感謝您的辛勤勞動,爲我們創造了這麼一個地地方,非常感謝!   我現在有個問題想向您反映一下,我在發文章時提示有禁忌內容,不讓我提交,最後發現有問題的一句是這個:(I  C  P  證  合  字  B  2 

原创 JAVA完全控制Oracle中BLOB、CLOB說明

//轉自:http://blog.csdn.net/wazj0517/archive/2006/10/19/1341074.aspx 網絡上很多關於JAVA對Oracle中BLOB、CLOB類型字段的操作說明,有的不夠全面,有的不夠準確,甚

原创 Eclipse快捷鍵大全

Shift+Tab 減少縮進(非常常用)Tab       (同上)Ctrl+1 快速修復(最經典的快捷鍵了)Ctrl+D: 刪除當前行 Ctrl+Alt+↓ 複製當前行到下一行(複製增加)Ctrl+Alt+↑ 複製當前行到上一行(複製

原创 Java正則表達式入門

衆所周知,在程序開發中,難免會遇到需要匹配、查找、替換、判斷字符串的情況發生,而這些情況有時又比較複雜,如果用純編碼方式解決,往往會浪費程序員的時間及精力。因此,學習及使用正則表達式,便成了解決這一矛盾的主要手段。 大 家都知道,正則表達

原创 JAVA線程池的簡單實現及優先級設置

我們大家都知道,在處理多線程服務併發時,由於創建線程需要佔用很多的系統資源,所以爲了避免這些不必要的損耗,通常我們採用線程池來解決這些問題。  線程池的基本原理是,首先創建並保持一定數量的線程,當需要使用線程時,我們從池中取得線程,再將需要

原创 利用Java生成靜態HMTL頁面的方法收集

利用Java生成靜態HMTL頁面的方法收集 生成靜態頁面技術解決方案之一 轉載者前言:這是一個全面的jsp動態頁面靜態化方案,本站的帖子靜態化方案將借鑑這篇帖子中方法。向[url]http://www.agilejava.o

原创 從HTML文件中抽取正文的簡單方案

譯者導讀:這篇文章主要介紹了從不同類型的HTML文件中抽取出真正有用的正文內容的一種有廣泛適應性的方法。其功能類似於CSDN近期推出的“剪 影”,能夠去除頁眉、頁腳和側邊欄的無關內容,非常實用。其方法簡單有效而又出乎意料,看完後難免大呼原

原创 定時抓取網頁連接,提取網頁內容,存入數據庫

  流程 提供要抓取的網頁地址(列表) 提取網頁列表中目標所有LINK 抓取LINK中的所有網頁(爬蟲) 解析正文內容 存入數據庫 一、抓取任務(主程序) package com.test; import java.text

原创 利用Java生成靜態HMTL頁面的方法收集

利用Java生成靜態HMTL頁面的方法收集 生成靜態頁面技術解決方案之一 轉載者前言:這是一個全面的jsp動態頁面靜態化方案,本站的帖子靜態化方案將借鑑這篇帖子中方法。向[url]http://www.agilejava.o

原创 深入學習Heritrix---解析Frontier(鏈接工廠)

關鍵字: heritrix frontier Frontier是Heritrix最核心的組成部分之一,也是最複雜的組成部分.它主要功能是爲處理鏈接的線程提供URL,並負責鏈接處理完成後的一些後續調度操作.並且爲了提高效率,它在內部使用了

原创 深入學習Heritrix---解析CrawlController

關鍵字: heritrix crawlcontroller 當我們以Web UI方式使用Heritrix時,點擊任務開始(start)按鈕時,Heritrix就開始了它的爬取工作.但它的內部 執行流程是怎樣的呢?別急,下面將慢慢道來.