最近閒來無事,寫了幾個網頁數據抓取的小程序。網頁抓取最頭疼的就是對html標籤的解析,解析過程中一般用到的方法就是正則表達式,無奈博主只是會一點正則表達式的皮毛,查文檔,找實例,搞了大半天也沒寫出幾個合適的正則表達式。正在博主束手無策的時候,突然發現了這個開源的小工具,用起來是相當的順手啊。一天的時間就寫好了對百度貼吧,貓撲和天涯相關圖片文章的抓取。jsoup真是宅男居家必備神奇啊!!!
soup的主要功能如下:
由於jsoup 良好的可擴展性API 設計,你可以通過選擇器的定義來開發出非常強大的HTML 解析功能。再加上jsoup 項目本身的開發也非常活躍,因此如果你正在使用Java ,需要對HTML 進行處理,不妨試試。
更詳細的jsoup使用方法都在我上傳的資源中有詳細介紹,有興趣的可以下載下來玩玩
相關資源下載地址:http://download.csdn.net/detail/u012756886/6521659