网络爬虫程序的爬虫的设计中应该注意的问题

网络爬虫程序的爬虫的设计中应该注意的问题,第1张

不要盗取别人网站中的信息.

注意别人的爬取规则.

不要重复爬取.

不要影响人家的服务器.

只要是机器,比人快,效能就是最好的原则.

注意爬取信息的对象与集磊分类,便可以更准确的获取有用的信息.

就目前而言,好似没有会遵守规则的爬取者.

一、URL 的管理和调度

当要访问的地址变得很多时,成立一个 URL 管理器,对所有需要处理的 URL 作标记。当逻辑不复杂的时候可以使用数组等数据结构,逻辑复杂的时候使用数据库进行存储。数据库记录有个好处是当程序意外挂掉以后,可以根据正在处理的 ID 号继续进行,而不需要重新开始,把之前已经处理过的 URL 再爬取一遍。

二、数据解析

解析数据是指提取服务器返回内容里所需要的数据。最原始的办法是使用「正则表达式」,这是门通用的技术,Python 中的 BeautifulSoup 和 Requests-HTML 非常适合通过标签进行内容提取。

三、应对反爬虫策略

服务器遏制爬虫的策略有很多,每次 HTTP 请求都会带很多参数,服务器可以根据参数来判断这次请求是不是恶意爬虫。比如说 Cookie 值不对,Referer 和 User-Agent 不是服务器想要的值。这时候我们可以通过浏览器来实验,看哪些值是服务器能够接受的,然后在代码里修改请求头的各项参数伪装成正常的访问。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12192959.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存