htmlunit教程 動態鏈接的獲取

<pre class="prettyprint cs" style="margin-top: 0px; margin-bottom: 1.5em; padding: 0.3em; font-family: Monaco, Menlo, Consolas, 'Courier New', monospace; color: rgb(51, 51, 51); border-radius: 4px; line-height: 1.5em; word-break: break-all; word-wrap: break-word; white-space: pre-wrap; border: 1px solid rgba(0, 0, 0, 0.14902); overflow-y: auto; background-color: rgb(246, 246, 246);"><pre name="code" class="java">String  url="http://news.cnblogs.com/";//想採集的網址
  String refer="http://www.cnblogs.com/";
  URL link=new URL(url); 
  WebClient wc=new WebClient();
  WebRequest request=new WebRequest(link); 
  request.setCharset("UTF-8");
  request.setProxyHost("120.120.120.x");
  request.setProxyPort(8080);
  request.setAdditionalHeader("Referer", refer);//設置請求報文頭裏的refer字段
  ////設置請求報文頭裏的User-Agent字段
  request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
  //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");
  //wc.addRequestHeader和request.setAdditionalHeader功能應該是一樣的。選擇一個即可。
  //其他報文頭字段可以根據需要添加
  wc.getCookieManager().setCookiesEnabled(true);//開啓cookie管理
  wc.getOptions().setJavaScriptEnabled(true);//開啓js解析。對於變態網頁,這個是必須的
  wc.getOptions().setCssEnabled(true);//開啓css解析。對於變態網頁,這個是必須的。
  wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
  wc.getOptions().setThrowExceptionOnScriptError(false);
  wc.getOptions().setTimeout(10000);
  //設置cookie。如果你有cookie,可以在這裏設置
  Set<Cookie> cookies=null;
  Iterator<Cookie> i = cookies.iterator();
  while (i.hasNext()) 
  {
      wc.getCookieManager().addCookie(i.next());
  }
  //準備工作已經做好了
  HtmlPage page=null;
  page = wc.getPage(request);
  if(page==null)
  {
      System.out.println("採集 "+url+" 失敗!!!");
      return ;
  }
  String content=page.asText();//網頁內容保存在content裏
  if(content==null)
  {
      System.out.println("採集 "+url+" 失敗!!!");
      return ;
  }
  //搞定了
  CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name
  Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在這裏,下次請求的時候可能可以用上啦。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章