scrapy在采集网页时使用随机user-agent的方法

scrapy在采集网页时使用随机user-agent的方法,第1张

概述scrapy在采集网页时使用随机user-agent的方法

下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。

内存溢出小编现在分享给大家,也给大家做个参考。

DOWNLOADER_MIDDLEWARES = {        'scrapy.contrib.downloadermIDdleware.useragent.UserAgentMIDdleware' : None,'Crawler.comm.rotate_useragent.RotateUserAgentMIDdleware' :400    }

注意: Crawler 是你项目的名字 ,通过它是一个目录的名称 下面是蜘蛛的代码
#!/usr/bin/python#-*-Coding:utf-8-*- import randomfrom scrapy.contrib.downloadermIDdleware.useragent import UserAgentMIDdleware class RotateUserAgentMIDdleware(UserAgentMIDdleware):    def __init__(self,user_agent=''):        self.user_agent = user_agent     def process_request(self,request,spIDer):        #这句话用于随机选择user-agent        ua = random.choice(self.user_agent_List)        if ua:            request.headers.setdefault('User-Agent',ua)     #the default user_agent_List composes Chrome,I E,firefox,Mozilla,opera,netscape    #for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.PHP    user_agent_List = [\        "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML,like Gecko) Chrome/22.0.1207.1 Safari/537.1"\        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML,like Gecko) Chrome/20.0.1132.57 Safari/536.11",\        "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML,like Gecko) Chrome/20.0.1092.0 Safari/536.6",\        "Mozilla/5.0 (windows NT 6.2) AppleWebKit/536.6 (KHTML,like Gecko) Chrome/20.0.1090.0 Safari/536.6",\        "Mozilla/5.0 (windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML,like Gecko) Chrome/19.77.34.5 Safari/537.1",\        "Mozilla/5.0 (X11; linux x86_64) AppleWebKit/536.5 (KHTML,like Gecko) Chrome/19.0.1084.9 Safari/536.5",\        "Mozilla/5.0 (windows NT 6.0) AppleWebKit/536.5 (KHTML,like Gecko) Chrome/19.0.1084.36 Safari/536.5",\        "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1063.0 Safari/536.3",\        "Mozilla/5.0 (windows NT 5.1) AppleWebKit/536.3 (KHTML,\        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML,\        "Mozilla/5.0 (windows NT 6.2) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1062.0 Safari/536.3",like Gecko) Chrome/19.0.1061.1 Safari/536.3",\        "Mozilla/5.0 (windows NT 6.1) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1061.0 Safari/536.3",\        "Mozilla/5.0 (X11; linux x86_64) AppleWebKit/535.24 (KHTML,like Gecko) Chrome/19.0.1055.1 Safari/535.24",\        "Mozilla/5.0 (windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML,like Gecko) Chrome/19.0.1055.1 Safari/535.24"       ]

以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

总结

以上是内存溢出为你收集整理的scrapy在采集网页时使用随机user-agent的方法全部内容,希望文章能够帮你解决scrapy在采集网页时使用随机user-agent的方法所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1198997.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存