匹配所有html标记开始和结束的正则表达式_随笔

//用正则表达式过滤脚本

public string wipeScript(string html)

{

System.Text.RegularExpressions.Regex regex1 = new

System.Text.RegularExpressions.Regex(@"<script[\s\S]+</script

*>",System.Text.RegularExpressions.RegexOptions.IgnoreCase)

System.Text.RegularExpressions.Regex regex2 = new

System.Text.RegularExpressions.Regex(@" href *= *[\s\S]*script

*:",System.Text.RegularExpressions.RegexOptions.IgnoreCase)

System.Text.RegularExpressions.Regex regex3 = new

System.Text.RegularExpressions.Regex(@"

on[\s\S]*=",System.Text.RegularExpressions.RegexOptions.IgnoreCase)

System.Text.RegularExpressions.Regex regex4 = new

System.Text.RegularExpressions.Regex(@"<iframe[\s\S]+</iframe

*>",System.Text.RegularExpressions.RegexOptions.IgnoreCase)

System.Text.RegularExpressions.Regex regex5 = new

System.Text.RegularExpressions.Regex(@"<frameset[\s\S]+</frameset

*>",System.Text.RegularExpressions.RegexOptions.IgnoreCase)

html = regex1.Replace(html, "")//过滤<script></script>标记

html = regex2.Replace(html, "")//过滤href=javascript: (<A>) 属性

html = regex3.Replace(html, " _disibledevent=")//过滤其它控件的on...事件

html = regex4.Replace(html, "")//过滤iframe

html = regex5.Replace(html, "")//过滤frameset

return html

}

//对输入的字符串是否含有<script></script>判断

public bool IsValidScript(string html)

{

return Regex.IsMatch(html,@"<script[\s\S]+</script *>")

}

Html标签是支持嵌套的，怎么能够找到指定标签相对应的闭合标签是最重要的问题。

思路：先匹配最前面的起始标签，假设是div（<div），接着一旦遇到嵌套div，就“压入堆栈”，后面如果遇到div闭合标签了，就“d出堆栈”。如果遇到闭合标签的时候，堆栈里面已经没有东西了，那么匹配结束，此结束标签为正确的闭合标签。

1、匹配任意闭合HTML标签的正则表达式

<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

2、如果只想匹配div标签，可以使用下面的正则表达式：

<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

3、如果想同时匹配多个HTML标签，可以使用下面的正则表达式

<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>

4、如果想匹配包含ID的标签，可以使用下面的正则表达式：

<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)

<?php

$url = file_get_contents('http://www.theage.com.au/sport/basketball')

$host = 'www.theage.com.au'

$search = '/href="(http:\/\/'.$host.'\/[^\.>]+\.html)"/i'

preg_match_all($search,$url,$r)

echo '<pre>'

print_r($r[1])

echo '</pre>'

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/7057966.html

匹配所有html标记开始和结束的正则表达式

发表评论

评论列表（0条）