IDLE+Shell+3.9.7怎样爬虫?

IDLE+Shell+3.9.7怎样爬虫?,第1张

这是一个适用于小白的Python爬虫免费教学分享,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源。看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬虫的大门啦~

话不多说,正式开始我们的第一节课《Python环境的安装》吧~

啦啦啦开课啦,看黑板,都看黑板~

1 安装Anaconda

在我们的教学中,我们使用的版本是Python3,至于为什么要选Python3,哼哼!

工欲善其事,必先利其器,在学习爬虫之前,你得先搭建自己的编程环境。废话不多说,按照下面的方法搭建吧:

11 下载Anaconda

打开Anaconda网页后,看到这样的页面:

根据你的电脑系统,选择相应版本的 Anaconda(记住选择 Python 36 的版本),Mac OS 用户选择 Mac 版本即可,如果不想麻烦,请选择 Graphical Installer。

12 安装 Anaconda

选择默认位置安装即可:

两个选择框都勾上,安装:

13 在开始菜单中查看 Anaconda

Anaconda 装好之后,可以在开始菜单查看。可以看到包含了如下图所示的组件:

之后我们会用到的主要是:

Anaconda Prompt:Anaconda 自带的命令行

Jupyter Notebook:一个简单易用、适合入门的 IDE

2 安装常用包

21 安装 Python 包 requests

打开 cmd 终端,输入 pip install requests,若安装不成功,可以尝试:conda install requests

出现 Successfully installed,即表示成功安装。若需检测,先输入 Python,再输入 import requests,未出现报错,表示安装成功,可以正常使用。注: *** 作完记得退出:quit()。

如果安装时显示 conda 不是内部或外部命令,用下面的方式安装(如未报错则不必用下面的方法)

在开始菜单打开 Anaconda Prompt:

在 Anaconda Prompt 输入 conda install requests:

22 安装 Python 包 lxml

同样在终端输入: conda install lxml,出现 Successfully installed,即表示成功安装,若不能成功安装,请尝试如下方法。

前往 >

在下载下来的文件所在目录按住shift并点击鼠标右键,选择在此处打开Powershell窗口,在此命令行中使用 pip install + 下载下来文件全名 ,即可完成安装。

所以你该知道如何安装 Python 包了吧,通用方法是,在终端输入:conda install + 包名称 或者 pip install + 包名称。出现特殊的不能安装的情况,可以去下载之后进行安装。

3 Jupyter Notebook

31 开启Jupyter Notebook

在开始菜单打开 Jupyter Notebook:

Jupyter 将会在网页中自动打开:

32 Jupyter Notebook 界面

Files:你当前工作环境下的所有项目(代码)、默认存储的文件都在这里:

Runing:你目前正在运行的项目都在这里:

33 新建一个文档,开始写代码

依次点击右上方 :New > Python 3,即新建了一个 Ipython 文件,如图:

点击上方 Utitled 可以更改文档的名称,下面的空间就可以写代码啦:

34 Jupyter Notebook 功能简介

4 创建第一个实例:爬取百度首页

仅用四行代码,我们就可以把百度首页的内容下载下来:

1导入 requests 库;2下载百度首页内容;3更改编码;4打印内容

具体爬虫原理及代码的内涵,在下一节的案例中详细讲解~

好了,这节课就到这里

目前很多知名的网站都增加一些反爬虫手段,使得编写爬虫时并不那么理想,有些网站很难破解其反爬技术。如利用puppeteer技术 *** 作页面时,往往出现一些加载异常,容易被网站检测程序探测到而拒绝响应。

浏览器扩展程序油猴(tampermonkey)似乎可以做很多事件,对分析网页与事件处理有大的能力空间。由于油猴是在用户手动打开的浏览器下运行的,完全是与真人 *** 作类似,可能不那么容易被检测到。

思路是这样的:

第一步:人工启动浏览器,导航到要抓取数据的页面;(这一步是唯一人工干扰的)

第二步:油猴自动启动,分析页面,处理页面数据;

第三步:将获得的数据通过GM_xml>个人觉得:
新手学习python爬取网页先用下面4个库就够了:(第4个是实在搞不定用的,当然某些特殊情况它也可能搞不定)
1 打开网页,下载文件:urllib
2 解析网页:BeautifulSoup,熟悉JQuery的可以用Pyquery
3 使用Requests来提交各种类型的请求,支持重定向,cookies等。
4 使用Selenium,模拟浏览器提交类似用户的 *** 作,处理js动态产生的网页
这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。
做事情是要有驱动的,如果你没什么特别想抓取的,新手学习可以从这个闯关网站开始
,目前更新到第五关,闯过前四关,你应该就掌握了这些库的基本 *** 作。
实在闯不过去,再到这里看题解吧,第四关会用到并行编程。(串行编程完成第四关会很费时间哦),第四,五关只出了题,还没发布题解。。。
学完这些基础,再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。
这是我在知乎的回答,直接转过来有些链接没有生效,可以到这里看原版,>爬虫自己本地就可以啊,不一定要放到服务器上,弄个台式机,晚上关了显示器,让程序自己去运行呗。
当然你也可以试试阿里云,我在上面部署的scrapy跑的很不错。
如果解决了您的问题请采纳!
如果未解决请继续追问


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/12635760.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-27
下一篇 2023-05-27

发表评论

登录后才能评论

评论列表(0条)

保存