using SystemTextRegularExpressions;
using SystemCollectionsGeneric;
public static long GetHref(string html)
{
List<String> links = new List<String>();
MatchCollection matches = RegexMatches(html, @"(href|src)=""(<href>\S+(jpg|gif|exe))""", RegexOptionsIgnoreCase);
foreach(Match match in matches)
{
linksAdd(matchGroups["href"]Value);
}
return links;
}
再试试
用htmlparser吧!给你贴个用法,这个程序把content里带bgcolor属性的td标签中间的内容提取到result里,htmlparser具体用法可参照 <a href=">
可以分成两步
Step1
找出div中的所有标签
(s)<div[^>]+>(+)</div>(-s)
其中分组1为div标签中内容
step2
在Step1中找出的内容中,查找a标签
(s)<a[^>]+href="([^"]+)"[^>]>([^<]+)</a>(s)
其中分组1为超链接的地址,分组2为超链接显示的内容
正则表达式:<a href=['"]()['"]>()</a>
整个正则匹配的是一个a标签,第1组匹配的href的值,第2组匹配的你要的a标签的值
java示例:
import javautilregexMatcher;import javautilregexPattern;
public class Test {
public static void main(String[] args) {
Pattern pattern = Patterncompile("<a href=['\"]()['\"]>()</a>");
String html = "other html <a data-v-6b46a625=\"\" href=\"/user/5acb247951882555712ca8ee\" target=\"_blank\" rel=\"\" st:name=\"user\" st:state=\"5acb247951882555712ca8ee\" data-v-311d2efa=\"\">啦啦啦</a> other html";
Matcher matcher = patternmatcher(html);
if (matcherfind()) {
Systemoutprintln(matchergroup()); // 整个a标签:<a ……>到</a>的全部
Systemoutprintln(matchergroup(1)); // href的值:/user/5acb247951882555712ca8ee
Systemoutprintln(matchergroup(2)); // 你要的a标签的值:啦啦啦
}
}
}
<script language="Javascript">
var reg=/^+\(asp|aspx|html|php|jsp|shtml)(\+)$/;
alert(regtest("aspdfadfa=12"));
alert(regtest("123aspdfadfa=12"));
</script>
以上就是关于C# 正则表达式提取href里面的连接全部的内容,包括:C# 正则表达式提取href里面的连接、用正则表达式获取这一段内容要怎么做、在java中用正则表达式获取div标签中的a标签的值和href等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)