Java調用phantomjs採集ajax加載生成的網頁

原創

2018-09-04 04:20

日前有采集需求，當我把所有的對應頁面的鏈接都拿到手，準備開始根據鏈接去採集（寫爬蟲爬取）對應的終端頁的時候，發覺用程序獲取到的數據根本沒有對應的內容，可是我的瀏覽器看到的內容明明是有的，於是瀏覽器查看源代碼也發覺沒有，此時想起該網頁應該是ajax加載的。不知道ajax的小朋友可以去學下web開發啦。

#

採集ajax生成的內容手段不外乎兩種。一種是通過http觀察加載頁面時候的請求，然後我們模仿該請求去得到對應的內容，第二種則是模仿瀏覽器行爲去渲染這個頁面得到內容。我在這裏決定採用第二種方式，之前一直玩webkit，不過一直要加載頁面太浪費資源了，此時瞭解到有一個好玩的玩意phantomjs，這是個可以用命令行來操作webkit的玩意，然後也可以直接在裏面用js的api去操作頁面（當然，我這邊比較簡單就懶得用了）。

#

下載完phantomjs之後直接解壓就可以使用，然後在path目錄加入phantomjs的路徑（以便直接在命令行就可以執行phantomjs命令）。

#

接下來要完成個代碼，一個是用phantomjs去獲取頁面（採用js編寫行爲），一個是採用Java去調用phantomjs來達到獲取內容的作用，接下來直接貼代碼。

[javascript]

//codes.js  
system = require('system')  
address = system.args[1];//獲得命令行第二個參數 接下來會用到  
//console.log('Loading a web page');  
var page = require('webpage').create();  
var url = address;  
//console.log(url);  
page.open(url, function (status) {  
    //Page is loaded!  
    if (status !== 'success') {  
        console.log('Unable to post!');  
    } else {  
        //console.log(page.content);  
        //var title = page.evaluate(function() {  
        //  return document.title;//示範下如何使用頁面的jsapi去操作頁面的  
        //  });  
        //console.log(title);  

        console.log(page.content);  
    }     
    phantom.exit();  
});

上述的js代碼估計應該沒幾個看不懂的。。。

#

接下來貼java代碼！

[java]

import org.apache.commons.io.IOUtils;  

import java.io.*;  

/** 
 * Created with IntelliJ IDEA. 
 * User: lsz 
 * Date: 14-4-22 
 * Time: 下午1:17 
 * utils for http 
 */  
public class HttpUtils {  
    public static String getAjaxCotnent(String url) throws IOException {  
        Runtime rt = Runtime.getRuntime();  
        Process p = rt.exec("phantomjs.exe c:/phantomjs/codes.js "+url);//這裏我的codes.js是保存在c盤下面的phantomjs目錄  
        InputStream is = p.getInputStream();  
        BufferedReader br = new BufferedReader(new InputStreamReader(is));  
        StringBuffer sbf = new StringBuffer();  
        String tmp = "";  
        while((tmp = br.readLine())!=null){  
            sbf.append(tmp);  
        }  
        //System.out.println(sbf.toString());  
        return sbf.toString();  
    }  

    public static void main(String[] args) throws IOException {  
        getAjaxCotnent("http://www.baidu.com");  
    }  
}

其實原理很簡單，就是通過進程間通信用java調用phantomjs這個組件去請求渲染頁面，不過這種做法因爲每次都要重新啓動phantomjs進程，所以比較慢，還有另外一種直接用phantomjs加載頁面後，把內容post給我們自定義的一個http後端接收數據，會更快一點。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Java調用phantomjs採集ajax加載生成的網頁

#

#

#

[javascript]

#

[java]

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

MapReduce之Recordreader組件

MapReduce之join和sort

Python模塊之urllib和urllib2結合使用

Python正則及re模塊

linux用curl命令測試Post請求

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結