分享一下java解析html經驗:
目的:解析html中的超鏈接!
最開始用的github上的源碼:https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/ListLinks.java
後來經過學習,領悟了jsoup解析html基本機制。
Document doc = Jsoup.connect(url).get(); //通過url獲取html頁面
Elements links = doc.select("a[href]"); //帶有href屬性的a元素
List list = null;
for(Element link : links){
list.add(link.attr("abs:href")); //將所有a標籤中的href屬性添加到list集合中這樣就獲取到所有的超鏈接了
}
//getElementsByTag(String tag) 通過標籤名,獲取所有的子標籤,列如:doc.getElementsByTag("a");則會返回所有的a標籤