您能否提供一些示例,说明为什么用正则表达式很难解析XML和HTML?

您能否提供一些示例,说明为什么用正则表达式很难解析XML和HTML?,第1张

您能否提供一些示例,说明为什么用正则表达式很难解析XML和HTML?

这是一些有趣的有效XML:

<!DOCTYPE x [ <!ENTITY y "a]>b"> ]><x>    <a b="&y;>" />    <![CDATA[[a>b <a>b <a]]>    <?x <a> <!-- <b> ?> c --> d</x>

这一点欢乐就是有效的HTML:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" [    <!ENTITY % e "href='hello'">    <!ENTITY e "<a %e;>">]>    <title>x</TITLE></head>    <p id  =  a:b center>    <span / hello </span>    &amp<br left>    <!---- >t<!---> < -->    &e link </a></body>

更不用说针对无效构造的所有特定于浏览器的解析。

祝您好运,正则表达式!

编辑(JörgW Mittag):这是格式良好,有效的HTML 4.01的另一个不错的片段:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"  "http://www.w3.org/TR/html4/strict.dtd"> <HTML/  <HEAD/    <TITLE/>/    <P/>


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5643536.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存