使用了兩種抽取文本的方法:
-
Document doc = Jsoup.parse(html);
-
String text = doc.text();
或者
String text = Jsoup.clean(html,Whitelist.none());
解決辦法:
使用jsoup.clean的另一種方法重載:
public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings)
bodyHtml
—不安全的html片段
baseUri
—將html中相對路徑轉換爲絕對路徑的URL
whitelist
—白名單允許的html標籤和屬性
outputsettings —文檔輸出設置,控制精細打印
具體使用時:
String text =Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));