一般来说,你要提取的网站的布局通常不会做大的变动(越是大的网站越固定),仅仅是文字链接的变动,这种情况下可以先在网页源码中查找一些特定字符串(比如有div的id等等),来取出你需要的大概的内容,然后用正则表达式取得符合要求的详尽的标题和链接,有了这些后,显示出来就容易了。
Regex reg = new Regex(@"<a[^>]href="(<url>[^"])"[^>]>(<title>)</a>");
Match m = regMatch(目前字符串);
if(mSuccess)
{
mGroup["url"]Value //就是 获取的uRL
mGroup["title"]Value //就是 获取的标题
}
按照你的要求,比较好的做法就是先取得每一个<img>标记的字符串,组成一个img标记字符串的数组。
var reg_img = /<img[^>]+>/g;
var arr_img = smatch(reg_img);
取得<img>标记数组arr_img后在通过循环,取得每个img里的alt或title:
var l = arr_imglength;
var reg = /\salt="([^"]+)"/i;
var reg2 = /\stitle="([^"]+)"/i;
for(var i=0;i<l;i++)
{
var arr = null;
if(arr = arr_img[i]match(reg))
//这里arr[1]就是alt的值
if(arr = arr_img[i]match(reg2))
//这里arr[1]就是title的值
}
以上就是关于提取某个网站的新闻标题,列在自制软件里,点击就能链接过去全部的内容,包括:提取某个网站的新闻标题,列在自制软件里,点击就能链接过去、能否设计一个能在C#中使用的,提取出URL连接的正则表达式,需要url地址及这个网址的标题、正则表达式怎么获取图片的alt和title等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)