视频:https://www.bilibili.com/video/BV11N411d7Zh?p=7&spm_id_from=pageDriver
一、大数据是什么大数据的核心就是海量数据存储、海量数据计算。
海量数据如何存储,存储介质的垂直扩展最终一定会演变成水平扩展。
海量数据如何高效计算,要高效计算,一定会演化为分布式计算。
-
数据
数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于标识客观事物的未经加工的素材 -
数据的产生
对客观事物的计量和记录产生的数据 -
数据存储单位
-
数据的分类
- 结构化数据(比如mysql的表,一个表肯定有哪些字段,是固定的)
- 半结构化数据:如json、xml(有一定的结构,但是并不固定)
- 非结构化数据:图片、视频、文档等
以终为始,这是很重要的。大数据分析一开始要明确分析目的,不然分析着分析着都不知道要分析啥。
一开始明确分析目的,然后收集数据,然后将数据清晰处理整理成结构化数据(因为计算机最喜欢处理结构化数据),然后分析整理后的数据,统计各种指标,上图,最重要的是根据这些指标撰写分析报告,得出结论,发现潜在的问题并给出建议和解决方案。
借助分析方法导论,可以让我们设计出更加全面,更加可信的,更加有逻辑的分析指标。
常见的分析方法导论有:用户行为理论、PEST分析法、5W2H分析法等
比如分析一个网站的用户,通过用户行为理论,已经有了一套成熟的网站用户分析指标
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)