Python漫画爬虫两d

Python漫画爬虫两d,第1张

其实从接触python到现在已经快大半年了,中间看过不少的视频,也跟着别人的教程写过不少东西,但是到现在还感觉没有入门。其实中间也明白是为什么,就好比小学生上课一样,上课认真听,认真做笔记,可是下了课之后就从来不看笔记,也从来不写作业。上课一听就懂,自己一写啥都不会,我相信很多人跟我现在是一样的感觉,所以现在创建这个作业集,一来是想鞭策自己真真正正的写点东西,二来也是希望广大的读者老师能够给我批改批改作业,大家相互学习共同进步。

好了,现在开始进入正题。

但是我在这里还是遇到了一个小问题。比如说

上一步呢我们获取了所有漫画的url保存在了一个list当中,现在我们挨个请求comic_list中的url。

通过观察网页我们发现我们可以从网页上直接看到漫画一共有多少页(page_num),也就是多少张图片。

(上一章下一章点开之后会发现跳到了另外一部漫画,所有我们不用在意,这里的一部漫画很短)

正则是用来提取数字。

然后我们一页一页的点击观察url的变化会发现除了第一页的url就是漫画的url外,其他从第二页一直到最后的url都是有规律的

找到规律这就简单了,跟先前构造漫画url差不多。我们构造构造除了第一页外的其他页数的url

保存漫画分两步,首先是创建文件夹,其次是保存。

打开风之动漫拉到最下面我们可以看到在网站的最下面有一个 网站地图

获取漫画每一话的标题和对应的url,保存到字典 comic_chapter_url_dict

最难的部分来了。

首先 通过F12 我们可以看到图片的链接在一个 id="mhpic" 的img标签中

最后希望能够帮助那些比我还小白的小白,也希望各位大神看过之后能够指点一二,不胜感激。

两个爬虫的 GitHub地址

漫画下载器的功能是自动帮你下载你想要的漫画,某一集、某几集、最新的一集或者全部。它的原理是网络爬虫,到漫画网站上,把漫画图片的地址爬下来,然后按照一定的顺序下载。

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

更多内容可以参考百科哦~漫画下载器:


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/8095524.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存