（亲测有效）selenium+python爬虫实用技巧_随笔

（亲测有效）selenium+python爬虫实用技巧

初学爬虫，有一些总结，记录在这里。

1. 关于浏览器的选择：

经验证：Firefox和Chrome速度没有较大差异，爬虫速度主要和网络速度有关。且Firefox进入后，可以手动阻止d出式窗口，避免广告，而Chrome不行。

2. 关于无头模式和有头模式的速度差异：

经验证：两者速度没有特别大的差距，可能无头模式快一些，但不是很明显。

3. 爬虫用到的库：

4. 关于浏览器配置（全面）代码：

下载和自身浏览器版本对应的chromedriver.exe后，对于网络上配置环境变量的问题：

经验证，无需配置环境变量，只需要指定路径executable_path即可

其他配置如下：

5. 对于页面动态加载（懒加载、js渲染）的问题：

我是初学爬虫，无法解决才使用的selenium这种较慢的方法，需要做的就是向下滑动网页：

经验证：不能只是滑动，因为网页 *** 作速度很快，不停留的话，图片还是加载不出来；注意0.1,0.2等是网页中的绝对位置，不是相对滑动距离

注：输入是浏览器browser，输出是res_add，即此页面我想要的结果

注意：对于网页内的表格，或点击下一页url不变的

.click()不只是点击这一个 *** 作而已，而是下一页网页加载出来他才会认为是完成了，因此，如果之前设置了page_load_timeout()，那么这里需要添加try-except *** 作

6. 对于页面加载慢，爬虫速度很低的问题：

经验证：较实用的方法是设置page_load_timeout；

经验证：在浏览器之前设置pageloadStrategy，效果并不显著

7. 对于得到图像url链接后，如何快速下载：

经验证：协程下载速度可得到数量级提升

注：输入res，即list格式的url链接

关键函数：down_main

需要修改一个库函数：

欢迎分享，转载请注明来源：内存溢出

（亲测有效）selenium+python爬虫实用技巧