豆瓣TOP250数据爬取及可视化分析

豆瓣TOP250数据爬取及可视化分析,第1张

豆瓣TOP250数据爬取及可视化分析

文章框架结构

一.前言简介

二.数据收集

三.数据处理

四.数据可视化

一.【前言简介】什么是八爪鱼数据采集器?

八爪鱼是一种适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业人员的信息数据采集工具,应用场景众多,简便快捷迅速,具有模板采集,智能采集,云采集,自定义采集等多种功能。

1.舆情监控,全方位监测公开信息,抢先获取舆论趋势

2.市场分析,获取用户真实行为数据,全面把握顾客真实需求

3.产品研发,强力支撑用户调研,准确获取用户反馈和偏好

4.风险预测,高效信息采集和数据清洗,及时应对系统风险

二.数据收集

常见的数据收集方式有:公司数据库,市场调查取得数据,第三方API接口数据,政府机构等官方数据,网络爬虫技术相关获取数据。常用的使用工具有Excel、SQL、Python、R语言等。

在八爪鱼软件主界面空白栏处复制粘贴我们即将要爬取的豆瓣TOP250网址,点击开始采集按钮。

在d出页面选择智能识别当前页面,包括采集器便自动帮我们识别出网页的字段信息,翻页/滑轮滚动/点击更多等内容,此时采集器已经识别出豆瓣的翻页采集,此时勾选上,然后点击生成采集设置即可进行下一项设置。

软件内有自动识别网页模式及手动采集模式,手动采集模式需要我们自定义绘制采集流程模板,我们利用自动采集模式即可,如果未来项目需要自定义采集,那么需要学习Xpath相关知识,后续跟着官网视频学习即可。

附上学习链接:XPATH学习

在下方的字段设置中,我们将多余的字段删除,剩下我们想要的数据即可,双击字段我们可以个别更改其字段名称,完成后点击右上角保存,采集本地即可,流程图及字段(截取一部分)如下图所示:

 

三.数据处理

常见的数据处理方式有数据清洗、数据分组、数据检索、数据抽取等.

在 *** 作导出后,我们会得到一份EXCEL表,打开表发现有些数据(bd列)并不是我们想要的数据形式,需要我们进一步进行处理,将bd中的内容进行二次处理,将其上映年份,电影类别,上映地区进行再次处理,完成后如下表(截取部分):

 四.数据可视化

数据可视化常用数据图表有饼图、柱形图、条形图、折线图、气泡图、散点图、雷达图、矩阵图等图形。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5709683.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存