文本的HTML实体代码

光亮剂 • 2022-12-16 • 随笔 • 阅读 13

文本的HTML实体代码

HTMLParser具有标准库中的功能。不幸的是，它没有文件记录：

（Python2文件）

>>> import HTMLParser>>> h= HTMLParser.HTMLParser()>>> h.unescape('alpha &lt; &beta;')u'alpha < u03b2'

（Python 3文件）

>>> import html.parser>>> h = html.parser.HTMLParser()>>> h.unescape('alpha &lt; &beta;')'alpha < u03b2'

htmlentitydefs已记录在案，但需要您自己做很多工作。

如果只需要XML预定义的实体（lt，gt，amp，quot，quot），则可以使用minidom来解析它们。如果只需要预定义的实体，而无需数字字符引用，则甚至可以使用简单的旧字符串替换来提高速度。

欢迎分享，转载请注明来源：内存溢出

实体文件预定在案字符串

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论