请问各位大侠,我想在用c#在百度上搜索指定的搜索内容然后搜索,然后抓取搜索到的网页放到数据库中怎么弄

请问各位大侠,我想在用c#在百度上搜索指定的搜索内容然后搜索,然后抓取搜索到的网页放到数据库中怎么弄,第1张

1. 检查网络

2. 输入关键字,拼接地址字符串,发送请求

3. 分析获取的结果(对字符串的处理),插入到数据库。

第一步骤参考:http://blog.csdn.net/yoyoch1/archive/2009/08/02/4401960.aspx

第二步骤参考: MSDN :WebClient 这个类

第三步骤略

VBA网抓常用方法

1、xmlhttp/winhttp法:

用xmlhttp/winhttp模拟向服务器发送请求,接收服务器返回的数据。

优点:效率高,基本无兼容性问题。

缺点:需要借助如fiddler的工具来模拟http请求。

2、IE/webbrowser法:

创建IE控件或webbrowser控件,结合htmlfile对象的方法和属性,模拟浏览器 *** 作,获取浏览器页面的数据。

优点:这个方法可以模拟大部分的浏览器 *** 作。所见即所得,浏览器能看到的数据就能用代码获取。

缺点:各种d窗相当烦人,兼容性也确实是个很伤脑筋的问题。上传文件在IE里根本无法实现。

3、QueryTables法:

因为它是excel自带,所以勉强也算是一种方法。其实此法和xmlhttp类似,也是GET或POST方式发送请求,然后得到服务器的response返回到单元格内。

优点:excel自带,可以通过录制宏得到代码,处理table很方便

。代码简短,适合快速获取一些存在于源代码的table里的数据。

缺点:无法模拟referer等发包头

也可以利用采集工具进行采集网页端的数据,无需写代码。

最简单可以用urllib,python2.x和python3.x的用法不同,以python2.x为例:

import urllib

html = urllib.open(url)

text = html.read()

复杂些可以用requests库,支持各种请求类型,支持cookies,header等

再复杂些的可以用selenium,支持抓取javascript产生的文本


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10095099.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存