您能否提供一些示例，说明为什么用正则表达式很难解析XML和HTML？

苏童作品 • 2022-12-16 • 随笔 • 阅读 20

您能否提供一些示例，说明为什么用正则表达式很难解析XML和HTML？

这是一些有趣的有效XML：

<!DOCTYPE x [ <!ENTITY y "a]>b"> ]><x>    <a b="&y;>" />    <![CDATA[[a>b <a>b <a]]>    <?x <a> <!-- <b> ?> c --> d</x>

这一点欢乐就是有效的HTML：

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" [    <!ENTITY % e "href='hello'">    <!ENTITY e "<a %e;>">]>    <title>x</TITLE></head>    <p id  =  a:b center>    <span / hello </span>    &amp<br left>    <!---- >t<!---> < -->    &e link </a></body>

更不用说针对无效构造的所有特定于浏览器的解析。

祝您好运，正则表达式！

编辑（JörgW Mittag）：这是格式良好，有效的HTML 4.01的另一个不错的片段：

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"  "http://www.w3.org/TR/html4/strict.dtd"> <HTML/  <HEAD/    <TITLE/>/    <P/>

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5643536.html

解析这一点定于示例构造

打赏

微信扫一扫

支付宝扫一扫

苏童作品一级用户组

计算字符串中每个字母的频率

上一篇 2022-12-16

父母去世时如何杀死用subprocess.check_output（）创建的python子进程？

下一篇 2022-12-16

发表评论

登录后才能评论

评论列表（0条）