HTMLParser具有标准库中的功能。不幸的是,它没有文件记录:
(Python2文件)
>>> import HTMLParser>>> h= HTMLParser.HTMLParser()>>> h.unescape('alpha < β')u'alpha < u03b2'
(Python 3文件)
>>> import html.parser>>> h = html.parser.HTMLParser()>>> h.unescape('alpha < β')'alpha < u03b2'
htmlentitydefs已记录在案,但需要您自己做很多工作。
如果只需要XML预定义的实体(lt,gt,amp,quot,quot),则可以使用minidom来解析它们。如果只需要预定义的实体,而无需数字字符引用,则甚至可以使用简单的旧字符串替换来提高速度。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)