如何在Jsoup解析中避免围绕html head标签

如何在Jsoup解析中避免围绕html head标签,第1张

如何在Jsoup解析中避免围绕html head标签 原因:

parseBodyFragment()
以及所有其他的
parse()
-方法使用 的HTML解析器默认 。而那些加
的HTML壳牌(
<html>…</html>
<head>…</head>
等等)。

解决方案:

只是不要使用HTML解析器,而应使用 XML解析器 ;-)

document doc = Jsoup.parse(html, "", Parser.xmlParser());

替换单行,您的问题就解决了。

例:
final String html = "<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>";document docHtml = Jsoup.parse(html);document docXml = Jsoup.parse(html, "", Parser.xmlParser());System.out.println("******* HTML *******n" + docHtml);System.out.println();System.out.println("*******  XML *******n" + docXml);

输出:

******* HTML *******<html> <head></head> <body>  <p><b>This <i>is</i></b> <i>my sentence</i> of text.</p> </body></html>*******  XML *******<p><b>This <i>is</i></b> <i>my sentence</i> of text.</p>


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5488542.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-12
下一篇 2022-12-12

发表评论

登录后才能评论

评论列表(0条)

保存