初学爬虫,有一些总结,记录在这里。
1. 关于浏览器的选择:经验证:Firefox和Chrome速度没有较大差异,爬虫速度主要和网络速度有关。且Firefox进入后,可以手动阻止d出式窗口,避免广告,而Chrome不行。
2. 关于无头模式和有头模式的速度差异:经验证:两者速度没有特别大的差距,可能无头模式快一些,但不是很明显。
3. 爬虫用到的库: 4. 关于浏览器配置(全面)代码:下载和自身浏览器版本对应的chromedriver.exe后,对于网络上配置环境变量的问题:
经验证,无需配置环境变量,只需要指定路径executable_path即可
其他配置如下:
5. 对于页面动态加载(懒加载、js渲染)的问题:我是初学爬虫,无法解决才使用的selenium这种较慢的方法,需要做的就是向下滑动网页:
经验证:不能只是滑动,因为网页 *** 作速度很快,不停留的话,图片还是加载不出来;注意0.1,0.2等是网页中的绝对位置,不是相对滑动距离
注:输入是浏览器browser,输出是res_add,即此页面我想要的结果
注意:对于网页内的表格,或点击下一页url不变的
.click()不只是点击这一个 *** 作而已,而是下一页网页加载出来他才会认为是完成了,因此,如果之前设置了page_load_timeout(),那么这里需要添加try-except *** 作
6. 对于页面加载慢,爬虫速度很低的问题:经验证:较实用的方法是设置page_load_timeout;
经验证:在浏览器之前设置pageloadStrategy,效果并不显著
7. 对于得到图像url链接后,如何快速下载:经验证:协程下载速度可得到数量级提升
注:输入res,即list格式的url链接
关键函数:down_main
需要修改一个库函数:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)