如果只是从字符串中剥离 所有 HTML标记,那么这也可以与regex一起 可靠地 工作。更换:
<[^>]*(>|$)
与空字符串,全局。不要忘了之后将字符串标准化,替换为:
[srn]+
与单个空格,并修剪结果。(可选)将所有HTML字符实体替换回实际字符。
注意事项 :
- 有一个限制:HTML和XML允许
>
使用属性值。当遇到这样的值时,此解决方案 将 返回损坏的标记。 - 该解决方案在技术上是安全的,如下所示:结果永远不会包含任何可用于跨站点脚本编写或破坏页面布局的内容。只是不是很干净。
- 与所有HTML和regex一样: 如果必须在所有情况下 正确
使用它,请使用 适当的解析器。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)