文本的HTML实体代码

文本的HTML实体代码,第1张

文本的HTML实体代码

HTMLParser具有标准库中的功能。不幸的是,它没有文件记录:

(Python2文件)

>>> import HTMLParser>>> h= HTMLParser.HTMLParser()>>> h.unescape('alpha &lt; &beta;')u'alpha < u03b2'

(Python 3文件)

>>> import html.parser>>> h = html.parser.HTMLParser()>>> h.unescape('alpha &lt; &beta;')'alpha < u03b2'

htmlentitydefs已记录在案,但需要您自己做很多工作。

如果只需要XML预定义的实体(lt,gt,amp,quot,quot),则可以使用minidom来解析它们。如果只需要预定义的实体,而无需数字字符引用,则甚至可以使用简单的旧字符串替换来提高速度。



欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5644082.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存