item1 = Item()
yield item1
item2 = Item()
yield item2
req = Request(url='下一页的链接', callback=self.parse)
yield req
注意:使用yield时不要用return语句。
动态加载的数据都是用户通过鼠标或键盘执行了一定的动作之后加载出来的。所以我们通过selenium提供的webdriver工具调用本地的浏览器,让程序替代人的行为,滚动页面,点击按钮,提交表单等等。从而获取到想要的数据。所以我认为,使用selenium方法爬取动态页面的中心思想是模拟人的行为。
给你贴一下我前一段时间回答的类似问题,用的soup,还有一个用的正则就不贴了,手机不太方便,如下。import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2.Request(userMainUrl)
resp = urllib2.urlopen(req)
respHtml = resp.read()
foundLabel = respHtml.findAll("label")
finalL =foundLabel.string
print "biaoti=",finalL
if __name__=="__main__":
main()
PS:如果不会改的话追问一下,回头我用电脑给你写一份
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)