Jsoup過濾html標籤並不刪除換行符

使用了兩種抽取文本的方法:


 
  1. Document doc = Jsoup.parse(html);

  2. String text = doc.text();

或者

String text = Jsoup.clean(html,Whitelist.none());

解決辦法:

使用jsoup.clean的另一種方法重載:

public static String clean(String bodyHtml, String baseUri, Whitelist whitelist, Document.OutputSettings outputSettings)

bodyHtml —不安全的html片段

baseUri —將html中相對路徑轉換爲絕對路徑的URL

whitelist —白名單允許的html標籤和屬性

outputsettings —文檔輸出設置,控制精細打印

具體使用時:

String text =Jsoup.clean(html, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章