豆瓣TOP250数据爬取及可视化分析_随笔

豆瓣TOP250数据爬取及可视化分析

文章框架结构

一.前言简介

二.数据收集

三.数据处理

四.数据可视化

一.【前言简介】什么是八爪鱼数据采集器？

八爪鱼是一种适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业人员的信息数据采集工具，应用场景众多，简便快捷迅速，具有模板采集，智能采集，云采集，自定义采集等多种功能。

1.舆情监控，全方位监测公开信息，抢先获取舆论趋势

2.市场分析，获取用户真实行为数据，全面把握顾客真实需求

3.产品研发，强力支撑用户调研，准确获取用户反馈和偏好

4.风险预测，高效信息采集和数据清洗，及时应对系统风险

二.数据收集

常见的数据收集方式有：公司数据库，市场调查取得数据，第三方API接口数据，政府机构等官方数据，网络爬虫技术相关获取数据。常用的使用工具有Excel、SQL、Python、R语言等。

在八爪鱼软件主界面空白栏处复制粘贴我们即将要爬取的豆瓣TOP250网址，点击开始采集按钮。

在d出页面选择智能识别当前页面，包括采集器便自动帮我们识别出网页的字段信息，翻页/滑轮滚动/点击更多等内容，此时采集器已经识别出豆瓣的翻页采集，此时勾选上，然后点击生成采集设置即可进行下一项设置。

软件内有自动识别网页模式及手动采集模式，手动采集模式需要我们自定义绘制采集流程模板，我们利用自动采集模式即可，如果未来项目需要自定义采集，那么需要学习Xpath相关知识，后续跟着官网视频学习即可。

附上学习链接：XPATH学习

在下方的字段设置中，我们将多余的字段删除，剩下我们想要的数据即可，双击字段我们可以个别更改其字段名称，完成后点击右上角保存，采集本地即可，流程图及字段（截取一部分）如下图所示：

三.数据处理

常见的数据处理方式有数据清洗、数据分组、数据检索、数据抽取等.

在 *** 作导出后，我们会得到一份EXCEL表，打开表发现有些数据（bd列）并不是我们想要的数据形式，需要我们进一步进行处理，将bd中的内容进行二次处理，将其上映年份，电影类别，上映地区进行再次处理，完成后如下表(截取部分)：

四.数据可视化

数据可视化常用数据图表有饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图、矩阵图等图形。

欢迎分享，转载请注明来源：内存溢出

豆瓣TOP250数据爬取及可视化分析