通過jsoup工具實現java解析html

       最近閒來無事,寫了幾個網頁數據抓取的小程序。網頁抓取最頭疼的就是對html標籤的解析,解析過程中一般用到的方法就是正則表達式,無奈博主只是會一點正則表達式的皮毛,查文檔,找實例,搞了大半天也沒寫出幾個合適的正則表達式。正在博主束手無策的時候,突然發現了這個開源的小工具,用起來是相當的順手啊。一天的時間就寫好了對百度貼吧,貓撲和天涯相關圖片文章的抓取。jsoup真是宅男居家必備神奇啊!!!

soup的主要功能如下:

1. 從一個URL,文件或字符串中解析HTML;
2. 使用DOM或CSS選擇器來查找、取出數據;
3. 可操作HTML元素、屬性、文本;
jsoup是基於MIT協議發佈的,可放心使用於商業項目。

由於jsoup 良好的可擴展性API 設計,你可以通過選擇器的定義來開發出非常強大的HTML 解析功能。再加上jsoup 項目本身的開發也非常活躍,因此如果你正在使用Java ,需要對HTML 進行處理,不妨試試。

更詳細的jsoup使用方法都在我上傳的資源中有詳細介紹,有興趣的可以下載下來玩玩

相關資源下載地址:http://download.csdn.net/detail/u012756886/6521659

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章