Java爬蟲框架:Jsoup
獲取網頁中的超鏈接:
/**
* 獲取url對應的頁面中包含的鏈接
* @param url
* @return
* @throws Exception
*/
public List<String> getLinksFromUrl(String url) throws Exception{
//省略參數判斷
Document doc= Jsoup.connect(url).get();
//可以設置等待超時時間
//Document doc=Jsoup.connect(url).timeout(1000).get();
Elements eles=doc.select("a[href]");
List<String> linkList=new ArrayList<>();
for (Element ele: eles)
linkList.add(ele.attr("href"));
return linkList;
}