IDLE+Shell+3.9.7怎样爬虫？_安全

这是一个适用于小白的Python爬虫免费教学分享，只有7节，让零基础的你初步了解爬虫，跟着课程内容能自己爬取资源。看着文章，打开电脑动手实践，平均45分钟就能学完一节，如果你愿意，今天内你就可以迈入爬虫的大门啦~

话不多说，正式开始我们的第一节课《Python环境的安装》吧~

啦啦啦开课啦，看黑板，都看黑板~

1 安装Anaconda

在我们的教学中，我们使用的版本是Python3，至于为什么要选Python3，哼哼！

工欲善其事，必先利其器，在学习爬虫之前，你得先搭建自己的编程环境。废话不多说，按照下面的方法搭建吧：

11 下载Anaconda

打开Anaconda网页后，看到这样的页面：

根据你的电脑系统，选择相应版本的 Anaconda（记住选择 Python 36 的版本），Mac OS 用户选择 Mac 版本即可，如果不想麻烦，请选择 Graphical Installer。

12 安装 Anaconda

选择默认位置安装即可：

两个选择框都勾上，安装：

13 在开始菜单中查看 Anaconda

Anaconda 装好之后，可以在开始菜单查看。可以看到包含了如下图所示的组件：

之后我们会用到的主要是：

Anaconda Prompt：Anaconda 自带的命令行

Jupyter Notebook：一个简单易用、适合入门的 IDE

2 安装常用包

21 安装 Python 包 requests

打开 cmd 终端，输入 pip install requests，若安装不成功，可以尝试：conda install requests

出现 Successfully installed，即表示成功安装。若需检测，先输入 Python，再输入 import requests，未出现报错，表示安装成功，可以正常使用。注： *** 作完记得退出：quit()。

如果安装时显示 conda 不是内部或外部命令，用下面的方式安装（如未报错则不必用下面的方法）

在开始菜单打开 Anaconda Prompt：

在 Anaconda Prompt 输入 conda install requests：

22 安装 Python 包 lxml

同样在终端输入： conda install lxml，出现 Successfully installed，即表示成功安装，若不能成功安装，请尝试如下方法。

前往 >

在下载下来的文件所在目录按住shift并点击鼠标右键，选择在此处打开Powershell窗口，在此命令行中使用 pip install + 下载下来文件全名，即可完成安装。

所以你该知道如何安装 Python 包了吧，通用方法是，在终端输入：conda install + 包名称或者 pip install + 包名称。出现特殊的不能安装的情况，可以去下载之后进行安装。

3 Jupyter Notebook

31 开启Jupyter Notebook

在开始菜单打开 Jupyter Notebook：

Jupyter 将会在网页中自动打开：

32 Jupyter Notebook 界面

Files：你当前工作环境下的所有项目（代码）、默认存储的文件都在这里：

Runing：你目前正在运行的项目都在这里：

33 新建一个文档，开始写代码

依次点击右上方：New > Python 3，即新建了一个 Ipython 文件，如图：

点击上方 Utitled 可以更改文档的名称，下面的空间就可以写代码啦：

34 Jupyter Notebook 功能简介

4 创建第一个实例：爬取百度首页

仅用四行代码，我们就可以把百度首页的内容下载下来：

1导入 requests 库；2下载百度首页内容；3更改编码；4打印内容

具体爬虫原理及代码的内涵，在下一节的案例中详细讲解~

好了，这节课就到这里

目前很多知名的网站都增加一些反爬虫手段，使得编写爬虫时并不那么理想，有些网站很难破解其反爬技术。如利用puppeteer技术 *** 作页面时，往往出现一些加载异常，容易被网站检测程序探测到而拒绝响应。

浏览器扩展程序油猴(tampermonkey)似乎可以做很多事件，对分析网页与事件处理有大的能力空间。由于油猴是在用户手动打开的浏览器下运行的，完全是与真人 *** 作类似，可能不那么容易被检测到。

思路是这样的：

第一步：人工启动浏览器，导航到要抓取数据的页面；（这一步是唯一人工干扰的）

第二步：油猴自动启动，分析页面，处理页面数据；

第三步：将获得的数据通过GM_xml>个人觉得：
新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）
1 打开网页，下载文件：urllib
2 解析网页：BeautifulSoup，熟悉JQuery的可以用Pyquery
3 使用Requests来提交各种类型的请求，支持重定向，cookies等。
4 使用Selenium，模拟浏览器提交类似用户的 *** 作，处理js动态产生的网页
这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。
做事情是要有驱动的，如果你没什么特别想抓取的，新手学习可以从这个闯关网站开始
，目前更新到第五关，闯过前四关，你应该就掌握了这些库的基本 *** 作。
实在闯不过去，再到这里看题解吧，第四关会用到并行编程。（串行编程完成第四关会很费时间哦），第四，五关只出了题，还没发布题解。。。
学完这些基础，再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。
这是我在知乎的回答，直接转过来有些链接没有生效，可以到这里看原版，>爬虫自己本地就可以啊，不一定要放到服务器上，弄个台式机，晚上关了显示器，让程序自己去运行呗。
当然你也可以试试阿里云，我在上面部署的scrapy跑的很不错。
如果解决了您的问题请采纳！
如果未解决请继续追问

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/yw/12635760.html

IDLE+Shell+3.9.7怎样爬虫？

发表评论

评论列表（0条）