- 前言
- 一、准备工作
- 1.观察榜单网页结构
- 2.观察电影网页
- 3.IP代理
- 二、开始爬取
- 1.引入库
- 2.获取榜单电影url
- 3.电影信息
- 三、可视化
- 1.热力图
- 2.柱状图
- 3.饼图
- 4.折线图
- 5.漏斗图
前言
python爬虫爬取豆瓣电影基本上是爬虫入门必做的一个爬虫了,网上也有很多很好的教程,这篇文章写的就很没有必要,那为什么我还是要写呢,有一个很朴实的原因————期末作业。
并且更重要的是…
作为只有两个组员的小组组长,我无法继续摸鱼了…
这不是最关键的,最关键的是 要 !答 !辩 !
我老社恐了,上去答辩就跟要了我的狗命一样,不做一点记录的话,上台答辩一句话都讲不出来,我作为学生的生涯恐怕就到此结束了…
倒了这么久黑泥在不进入正题真的好吗…
下面进入正题…
一、准备工作 1.观察榜单网页结构
豆瓣电影TOP250
这个榜单能看到电影信息太少,我们要更多的电影信息就需要进入电影详细页面去获取,所以这个榜单页面我们只需要获取到每个电影的网址就好了
查看过网页代码后,找到我们需要的部分的html结构:
...欢迎分享,转载请注明来源:内存溢出
评论列表(0条)