资深程序员为大家带来30分钟Python 爬虫教程!能看懂就能学会！_python

概述<pstyle=\"margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,Arial,\'HiraginoSansGB\',\'MicrosoftYaHei\',simsun;vertical-align:baseline;color:

图片来源：Blake Connally 发布于Unsplash.com

简单图片爬虫的原料

简单图片爬虫的菜谱

以上的所有都安装好了？棒！在我们继续开始写代码前，我先来解释一下以上这些原料都是用来干什么的。

我们首先要做的是利用 Selenium webdriver 和 geckodriver 来为我们打开一个浏览器窗口。首先，在 Pycharm 中新建一个项目，根据你的 *** 作系统下载最新版的 geckodriver，将其解压并把 geckodriver 文件拖到项目文件夹中。Geckodriver 本质上就是一个能让 Selenium 控制 firefox 的工具，因此我们的项目需要它来让浏览器帮我们做一些事。

接下来我们要做的事就是从 Selenium 中导入 webdriver 到我们的代码中，然后连接到我们想爬取的 URL 地址。说做就做：

打开浏览器窗口到指定的 URL。

一个远程控制的 firefox 窗口。

相当容易对吧？如果以上所说你都正确完成了，你已经攻克了最难的那部分了，此时你应该看到一个类似于以上图片所示的浏览器窗口。

滚动页面并等待 5 秒钟。

下载图片。

这就是爬取一堆图片所需要做的所有了。很显然的是，除非你想随便找些图片素材来做个设计原型，否则这个小小的爬虫用处可能不是很大。所以我花了点时间来优化它，加了些功能：

<ul ><li >允许用户通过指定一个命令行参数来指定 搜索查询，还有一个数值参数指定向下滚动次数，这使得页面可以显示更多的图片可供我们下载。

<li >可以自定义的 CSS 选择器。

<li >基于搜索查询关键字的自定义 结果文件夹。

<li >通过截断图片的预览图链接来获得全 高清图片。

<li >基于图片的 URL 给图片文件命名。

<li >爬取最终结束后关闭浏览器。

你可以（你也应该）尝试自己实现这些功能。全功能版本的爬虫可以在这里下载。记得要先按照文章开头所说的，下载 geckodriver 然后连接到你的项目中。

欢迎大家加入万人交流群：125240963

总结

以上是内存溢出为你收集整理的资深程序员为大家带来30分钟Python 爬虫教程!能看懂就能学会！全部内容，希望文章能够帮你解决资深程序员为大家带来30分钟Python 爬虫教程!能看懂就能学会！所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1209074.html

资深程序员为大家带来30分钟Python 爬虫教程!能看懂就能学会！

发表评论

评论列表（0条）