(亲测有效)selenium+python爬虫实用技巧

(亲测有效)selenium+python爬虫实用技巧,第1张

(亲测有效)selenium+python爬虫实用技巧

初学爬虫,有一些总结,记录在这里。

1. 关于浏览器的选择:

经验证:Firefox和Chrome速度没有较大差异,爬虫速度主要和网络速度有关。且Firefox进入后,可以手动阻止d出式窗口,避免广告,而Chrome不行。

2. 关于无头模式和有头模式的速度差异:

经验证:两者速度没有特别大的差距,可能无头模式快一些,但不是很明显。

3. 爬虫用到的库:

4. 关于浏览器配置(全面)代码:

下载和自身浏览器版本对应的chromedriver.exe后,对于网络上配置环境变量的问题:

经验证,无需配置环境变量,只需要指定路径executable_path即可

其他配置如下:

 5.  对于页面动态加载(懒加载、js渲染)的问题:

我是初学爬虫,无法解决才使用的selenium这种较慢的方法,需要做的就是向下滑动网页:

经验证:不能只是滑动,因为网页 *** 作速度很快,不停留的话,图片还是加载不出来;注意0.1,0.2等是网页中的绝对位置,不是相对滑动距离

注:输入是浏览器browser,输出是res_add,即此页面我想要的结果

 注意:对于网页内的表格,或点击下一页url不变的

.click()不只是点击这一个 *** 作而已,而是下一页网页加载出来他才会认为是完成了,因此,如果之前设置了page_load_timeout(),那么这里需要添加try-except *** 作

6. 对于页面加载慢,爬虫速度很低的问题:

经验证:较实用的方法是设置page_load_timeout;

经验证:在浏览器之前设置pageloadStrategy,效果并不显著

7. 对于得到图像url链接后,如何快速下载:

 经验证:协程下载速度可得到数量级提升

注:输入res,即list格式的url链接

       关键函数:down_main

需要修改一个库函数:

 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5689231.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存