public string wipeScript(string html)
{
System.Text.RegularExpressions.Regex regex1 = new
System.Text.RegularExpressions.Regex(@"<script[\s\S]+</script
*>",System.Text.RegularExpressions.RegexOptions.IgnoreCase)
System.Text.RegularExpressions.Regex regex2 = new
System.Text.RegularExpressions.Regex(@" href *= *[\s\S]*script
*:",System.Text.RegularExpressions.RegexOptions.IgnoreCase)
System.Text.RegularExpressions.Regex regex3 = new
System.Text.RegularExpressions.Regex(@"
on[\s\S]*=",System.Text.RegularExpressions.RegexOptions.IgnoreCase)
System.Text.RegularExpressions.Regex regex4 = new
System.Text.RegularExpressions.Regex(@"<iframe[\s\S]+</iframe
*>",System.Text.RegularExpressions.RegexOptions.IgnoreCase)
System.Text.RegularExpressions.Regex regex5 = new
System.Text.RegularExpressions.Regex(@"<frameset[\s\S]+</frameset
*>",System.Text.RegularExpressions.RegexOptions.IgnoreCase)
html = regex1.Replace(html, "")//过滤<script></script>标记
html = regex2.Replace(html, "")//过滤href=javascript: (<A>) 属性
html = regex3.Replace(html, " _disibledevent=")//过滤其它控件的on...事件
html = regex4.Replace(html, "")//过滤iframe
html = regex5.Replace(html, "")//过滤frameset
return html
}
//对输入的字符串是否含有<script></script>判断
public bool IsValidScript(string html)
{
return Regex.IsMatch(html,@"<script[\s\S]+</script *>")
}
Html标签是支持嵌套的,怎么能够找到指定标签相对应的闭合标签是最重要的问题。
思路:先匹配最前面的起始标签,假设是div(<div),接着一旦遇到嵌套div,就“压入堆栈”,后面如果遇到div闭合标签了,就“d出堆栈”。如果遇到闭合标签的时候,堆栈里面已经没有东西了,那么匹配结束,此结束标签为正确的闭合标签。
1、匹配任意闭合HTML标签的正则表达式
<(?<HtmlTag>[\w]+)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>2、如果只想匹配div标签,可以使用下面的正则表达式:
<(?<HtmlTag>div)[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>3、如果想同时匹配多个HTML标签,可以使用下面的正则表达式
<(?<HtmlTag>(div|span|h1))[^>]*?>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>4、如果想匹配包含ID的标签,可以使用下面的正则表达式:
<(?<HtmlTag>[\w]+)[^>]*\s[iI][dD]=(?<Quote>["']?)footer(?(Quote)\k<Quote>)[^>]*?(/>|>((?<Nested><\k<HtmlTag>[^>]*>)|</\k<HtmlTag>>(?<-Nested>)|.*?)*</\k<HtmlTag>>)<?php$url = file_get_contents('http://www.theage.com.au/sport/basketball')
$host = 'www.theage.com.au'
$search = '/href="(http:\/\/'.$host.'\/[^\.>]+\.html)"/i'
preg_match_all($search,$url,$r)
echo '<pre>'
print_r($r[1])
echo '</pre>'
?>
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)