htmlparser獲取網頁上所有有用鏈接的方法

原創

2020-06-29 05:24


	public static void getAllLink(String html, String parentUrl) {
		Parser parser = new Parser();
		try {
			parser.setInputHTML(html);
			NodeFilter filter = new NodeClassFilter(LinkTag.class);
			NodeList nodes = parser.parse(filter);
			for (Node node : nodes.toNodeArray()) {
				LinkTag linkTag = (LinkTag) node;
				String link = linkTag.getLink().trim();
				// 過濾，過濾方法可以添加，比如在增加只爬去本域名或本主機名下的網站等等
				if (!"".equals(link)) {
					//處理一下那些不是以“http：//”開頭的url,比如以"/html/....或 html/...."開頭的
					URI uri = new URI(parentUrl);
					URI _uri = new URI(uri, link);
					String newUrl = _uri.toString();
					urls.add(link);
				}
			}

		} catch (ParserException e) {
			throw new RuntimeException("htmlparser解析html文件時異常" + e);
		} catch (URIException e) {
			e.printStackTrace();
		}
	}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

htmlparser獲取網頁上所有有用鏈接的方法

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

htmlparser獲取網頁上所有有用鏈接的方法

phpcms通過get方法調用discuz數據顯示

期貨日記

windows2003的一些小技巧

js dom 介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結