喲呵,Java爬蟲

Java爬蟲框架:Jsoup

獲取網頁中的超鏈接:

/**
     * 獲取url對應的頁面中包含的鏈接
     * @param url
     * @return
     * @throws Exception
     */
    public List<String> getLinksFromUrl(String url) throws Exception{
        //省略參數判斷
        Document doc= Jsoup.connect(url).get();
        //可以設置等待超時時間
        //Document doc=Jsoup.connect(url).timeout(1000).get();
        Elements eles=doc.select("a[href]");
        List<String> linkList=new ArrayList<>();
        for (Element ele: eles)
            linkList.add(ele.attr("href"));
        return linkList;
    }

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章