HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(TextBox1.Text)
HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse()
Stream stream = webResponse.GetResponseStream()
StreamReader reader = new StreamReader(stream, System.Text.Encoding.GetEncoding("utf-8"))
//整个页面内容
Label1.Text = reader.ReadToEnd()
给你个思路:HttpWebRequest request = (HttpWebRequest)WebRequest.Create("你想抓取内容的网络地址")
HttpWebResponse response = (HttpWebResponse)request.GetResponse()
Stream stream = response.GetResponseStream()
string html=new StreamReader(stream1, Encoding.GetEncoding("utf-8")).ReadToEnd()
这里的html就是你抓取回来的内容.然后写正则去过滤你想要的内容.
需要首先观察你所抓取的页面源码.比如你发现页面中的"作者"都是在<div id="author"></div>中.
比如你发现页面中的"标题"都是在<h1></h1>中.
根据不同的页面写不同的规则.
过滤出你想要的内容.插入自己的数据库中.
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)