使用python爬虫时,遇到多页,需要翻页,下一页时怎么处理

使用python爬虫时,遇到多页,需要翻页,下一页时怎么处理,第1张

例子如下:

item1 = Item()

yield item1

item2 = Item()

yield item2

req = Request(url='下一页的链接', callback=self.parse)

yield req

注意:使用yield时不要用return语句。

动态加载的数据都是用户通过鼠标或键盘执行了一定的动作之后加载出来的。

所以我们通过selenium提供的webdriver工具调用本地的浏览器,让程序替代人的行为,滚动页面,点击按钮,提交表单等等。从而获取到想要的数据。所以我认为,使用selenium方法爬取动态页面的中心思想是模拟人的行为。

给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。

import beautifulsoup

import urllib2

def main():

userMainUrl = "你要抓取的地址"

req = urllib2.Request(userMainUrl)

resp = urllib2.urlopen(req)

respHtml = resp.read()

foundLabel = respHtml.findAll("label")

finalL =foundLabel.string

print "biaoti=",finalL

if __name__=="__main__":

main()

PS:如果不会改的话追问一下,回头我用电脑给你写一份


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8142978.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存