10分钟入门爬虫-小说网站爬取

10分钟入门爬虫-小说网站爬取,第1张

三月份到四月初花了很长的时间看了一本小说—《明朝那些事儿》,几乎一整个月的时间都在看,越看越入迷,这就是小说的魅力吧。

故事从朱元璋的乞讨要饭开始,经过不断地残酷战争,击败各种对手,建立了明朝;再到后来燕王朱棣起兵造反,接着戚继光抗击倭寇;后来又有明朝出现了最有名的内阁首辅大臣—张居正,大刀阔斧地进行改革,明朝进入鼎盛时期;最后清朝入关,明朝还是败在了崇祯的手上,准确的说是:注定会败在他的手上。正如文中写到的那样:

书讲述的不仅仅是历史, 权利、希望、痛苦、气节、孤独、残暴、邪恶、忍耐、坚持、真理、忠诚 ……在书中样样都有。在书的最后,作者写了一首诗,摘录在这里:

本文介绍的如何使用Python爬取一个网站上关于这本书的部分章节

网站首页: https://www.kanunu8.com/

爬取主链接: https://www.kanunu8.com/files/chinese/201102/1777.html

1、章节标题

2、章节正文内容

以第一章为例:我们点击“第一章 童年”可以进入第一章的正文部分。

看看最终爬取到的数据。在 本地目录 下生成的一个文件夹:《明朝那些事儿》下面就有我们爬取到的33个章节的内容,包含前言和引子部分。

在本次爬虫中使用到的相关库

分析一下网页的规律

发现了规律:每个章节的页面都有自己的URL后缀加以区分。看下网页源码找出URL地址:

上面已经发现了每个章节的URL地址的后缀

正则写的不太好,地址还需要切片一次

首页源码返回内容解析的结果:

切片之后的有效URL地址:

你下载也是一个死的网站..不是动态的..

FLASH我一般用迅雷下载..鼠标放在FLASH上面有个迅雷图表.点他就能下了.

还有..网站如果谁都可以下..那程序员得上道上当要饭的了.呵呵

c语言学会了能干的事情有:

1、做嵌入式开发;

2、写漂亮的界面;

3、做服务器开发;

4、可以写游戏;

5、可以写驱动程序;

6、可以写外挂;

7、可以做视频图片流媒体处理;

8、可做网页和爬虫相关的编程;

9、可以进行黑客编程等等。

C语言是一种计算机程序设计语言。它既具有高级语言的特点,又具有汇编语言的特点。它由美国贝尔研究所的D.M.Ritchie于1972年推出。1978后,C语言已先后被移植到大、中、小及微型机上。它可以作为工作系统设计语言,编写系统应用程序,也可以作为应用程序设计语言,编写不依赖计算机硬件的应用程序。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11558521.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-17
下一篇 2023-05-17

发表评论

登录后才能评论

评论列表(0条)

保存