作者 | gongyouliu
编辑 | auroral-L
全文共4350字,预计阅读时间35分钟。
大家好,我是强哥。一个热爱暴走、读书、写作的人!
本章目录
一、基础技能
1. 数据埋点与收集
2. 数据预处理
3. 数据存储
4. 数据指标体系
5. 数据分析工具
6. 数据可视化
二、业务分析方法
三、高阶技能
四、思维方法
五、软技能
总结
数据分析师作为一个与数据打交道的职业,工作的主要目的是从纷繁芜杂的(海量)数据中挖掘出有价值的见解,用于指导产品迭代、运营决策等。数据分析师需要的技能点跟其他工作存在比较大的差别,我们在本章中就来梳理一下作为一个优秀的数据分析师,需要具备哪些核心技能。
数据分析师的技能除了技术上的要求,方法、思维等方面也很重要,另外掌握一些软技能也是非常必要的。下面我们从基础技能、业务分析方法、高阶技能、思维方法、软技能等5个方面来展开讲解。这其中的每个维度我们在后续章节中都会详细讲解,本章只给出一个概要的说明,让读者有个全局观。
一、基础技能
基础技能就是数据分析师日常工作中必须要掌握的技能,只有这些技能能够熟练使用,才能更快、更好地完成数据分析的日常工作。本节我们从数据埋点与收集、数据预处理、数据存储、数据指标体系、数据分析工具、数据可视化等6个方面来简单介绍,细节的介绍我们会在本书的第二篇(第6到第11章)详细讲解。
1. 数据埋点与收集
数据分析师分析的数据很多都是用户的行为数据,这些数据是通过在前端(APP、小程序、网站等)将用户 *** 作行为记录下来,再上报给云端的。这些数据是需要经过复杂的网络传输才能存放到最终的目的地(中间可能还需要经常一系列处理,比如加密、压缩等)。数据收集的过程可能会比较复杂,这块数据分析师一般不需要了解细节,这是数据数据开发工程师的工作。不过如果了解整个过程,对数据分析师了解数据分析业务流程是非常有帮助的。
数据分析师需要知道的是我们要收集什么类型的数据,数据需要包含哪些后续进行业务数据分析必须的字段。因为只有核心的字段埋点了,后面我们才可以进行分析,否则数据分析是无源之水、无本之木。一般来说,埋点工作是业务方提数据需求,数据产品经理和数据分析师确定收集数据的时机(比如用户在进行什么 *** 作时收集数据)及收集哪些字段。
2. 数据预处理
所谓数据预处理,就是对存入数据仓库中的原始数据进行处理,方便后续进行数据分析。比如数据中的缺失值、异常值等都需要处理。如果数据有丢失或者数量对不上也需要查找具体原因,并尽可能补齐数据。数据预处理是保证后续数据分析正确性的前提条件,是非常重要的一环。
针对数据预处理这块,数据分析师需要知道常用的数据预处理方法和策略,针对数据分析中出现的问题(比如某一天某个统计指标突然下降很多),知道怎么去排查定位。
3. 数据存储
收集来的数据经过预处理后,就需要存放到最终的存储系统中方便进行业务数据分析。常用的存储系统有传统的数据库(如MySQL、Oracle、SQL Server等)以及现在的数据仓库(如Hive等)。数据分析师需要熟悉至少一种传统的数据库(如MySQL)的基本特性和原理,也要熟悉现在的数据仓库系统(至少需要熟悉Hive)。
数据分析师如果还有精力可以了解常用的(大)数据查询引擎,如Impala、Clickhouse、druid、Presto等,这些查询引擎可以进行更加快速的、近实时的大批量数据查询,可以让数据分析更快地产出结果。另外对当前的数据湖技术(如Hudi、Iceberg、Delta lake等)也需要有所了解,数据湖是新一代的数据存储系统,可以支撑结构化和非结构化数据的集中存储。
4. 数据指标体系
数据指标是指基于一定的业务需要而定义的某种数据统计程序,数据指标通过某个数据计算流程或者数据计算公式的计算结果来表达某个业务的状态,比如留存率、GMV、ARPU(每用户平均收入)等。数据分析师需要了解自己所在公司的业务场景及公司当前的核心目标,并基于此来计算各种业务指标(这些指标的定义可能是数据产品的工作,数据分析师必须了解每个指标代表的含义以及具体的计算方法)。
数据指标一般是用于指导业务决策的,是公司的产品、运营、管理者每天需要关注的数据。因此重要性、及时性、准确性不言而喻。数据分析师要维护好核心指标的计算程序,确保计算是正确及时的。
5. 数据分析工具
数据分析工具是数据分析师日常进行数据分析采用的方法和技术。我们这里主要介绍Excel、SQL、Python、R四种。这四种工具不要你每个都掌握,但是Excel和SQL是必须要非常熟悉的。
Excel是目前最流行的表格分析工具,使用简单、功能强大,简单数据分析、统计、作图都不在话下。平常很多数据分析展示的工作都可以用Excel来实现。作为数据分析师,Excel的常用功能及一些高阶技能是需要精通的。不熟悉的读者,可以购买相关的书籍或者课程进行有针对性的学习。
SQL是关系型数据库查询语言,语法简单、功能强大,也非常好学。即使没有任何计算机背景,也可以轻松学会。可以说,在一个成熟的数据团队,90%的数据分析工作都可以用SQL来解决,所以SQL的重要性是不言而喻的。像我们前面介绍的一些数据存储处理组件(如MySQL、Hive、Impala、Clickhouse等)都支持SQL语法。数据分析师必须精通SQL语言,特别是SQL的各种函数、子查询、join、集合 *** 作、窗口函数等,需要很精通。
有些复杂的数据分析可能用Excel和SQL比较难以解决,这时就需要借助功能更强大的Python和R了。这两个工具的能力都很强,Python本身是一门编程语言,包含常用的Numpy、Pandas、Matplotlib、Scripy等数据分析相关软件包,数据分析能力非常强大,基本所有数据分析都可以用Python搞定。R是一个开源的数据统计分析工具包,包含很多开源的插件,能力也非常强大。数据分析师如果有精力,这两个工具可以自行选择学习一两个。
6. 数据可视化
俗话说,一图胜千言。通过图形展示可以更好地将我们要表达的信息展示给数据分析结果的关注者,所以数据分析师掌握一定的数据分析工具是非常有必要的。前面提到的Excel和Python、R都支持进行数据可视化的能力。另外像Tableau、Power BI这种商业软件的数据可视化能力非常强大,可以通过拖拽式来作图,非常方便。目前云计算公司(如阿里云、百度云等)都提供类似的数据可视化工具。数据分析从业者需要掌握一些常用的数据可视化工具,这里建议大家掌握好Excel和Tableau的数据可视化就够了,即使以后学习别的可视化工具也可以很快上手。
二、业务分析方法
业务分析是指与业务价值相关的一些分析方法和技巧,通过这些分析可以更好地了解业务情况,指导业务人员进行决策。在本书后面会讲到的常用的业务分析方法有留存分析、漏斗分析、归因分析、路径分析、分布分析等,下面我们对这几个方法进行简单介绍,细节的介绍我们会在本书的第三篇(第12到第16章)详细讲解。
留存分析是分析用户在产品(APP等)上的留存情况,比如这周登录的用户有多少在下周登录了,有多少在下个月登录了,这类分析可以很好地了解用户的使用频次。漏斗分析是指在某个功能流程(比如购买流程一般分为点击、进入详情页、加购物车、进入付款页面、付款等一系列步骤)中有多少比例的用户从一个步骤进入了下一个步骤,这类分析可以很好地指导我们优化产品功能,提升用户(从上一个步骤到下一个步骤的)转化率。归因分析,顾名思义,是找出某个事件发生的原因,比如为什么这个月客单价大幅下降了,我们需要找出具体原因,当找到原因了,我们就可以很好地修复相关问题。路径分析是根据用户在APP上的访问行为,分析用户在各个模块中的跳转规律,挖掘用户群体行为特征,指导我们优化UI和交互逻辑,提升核心功能模块的触达率。分布分析是分析所有用户的某个行为(比如点击、购买等)产生的数据(点击率、购买金额等)的数值分布情况,有了分布情况就了解了用户的行为特性,可以更好地指导我们进行业务决策。
三、高阶技能
我们前面提到的不管是SQL分析还是业务分析其实更多的是基础统计分析,不涉及复杂的数学模型,我们这里讲解的高阶技能会涉及到复杂的数据挖掘方法、机器学习模型,这些方法和模型可以对数据进行更精细化的分析。下面我们对购物篮分析、聚类分析、回归分析、分类分析、时间序列分析等5类数据挖掘模型进行介绍,让读者理解他们的大致原理和作用,细节的介绍我们会在本书的第四篇(第17到第20章)详细讲解。
购物篮分析是分析电商网站上用户购物篮(用户一次下单的所有商品称为一个购物篮)的特性,比如哪些物品经常一起买,如果我们知道了经常一起买的商品,是可以进行关联促销的(比如将经常一起买的商品推荐给购买了这些商品中一个的用户),大家知道的“啤酒与尿布”的故事就是经典的购物篮分析得出的结果。聚类分析是通过算法将商品分为很多类,每一类的商品是具备相似性质的,知道了聚类也可以用于做商品推荐。回归分析是预测某个值,比如预测某个商品未来一段时间的销量,这个价值不言而喻。分类分析是基于某些可能情况(比如人可以分为青少年、中年人、老年人),针对某个人(这个人我们不知道他是青少年、中年人还是老年人)的购买行为,通过模型来预测他是什么类型的人。时间序列分析是基于某个变量在过去一段时间的值预测它在未来一段时间的值,比如预测未来几年网站的GMV等。
四、思维方法
数据分析师除了掌握一定技能外,还需要有比较好的思维方法。这里我觉得比较重要的思维方法有数据化思维、价值度量思维(即我们所有要做的事情是基于它的业务价值去做的)、闭环思维、漏斗思维、抓大放小思维(将核心精力放到最重要的事情上)等。另外我么还需要对数据分析的工作流程,数据分析师的目标和价值等有比较深刻的了解,才可以真正利用数据来驱动业务,让公司形成数据决策的氛围。这部分我们在本书的第五篇(第22章到第24章)会详细讲解,这里不再赘述。
五、软技能
数据分析师除了学习与数据分析工作直接相关的技术、方法和思维外,一些软技能的掌握也是非常必要的。比如PPT能力、汇报能力、业务理解能力等。数据分析师一般直接与数据打交道,经常会出数据报表,因此有机会去做各种汇报。那么怎么将获得的对数据的认知更加生动形象地展示出来,这就要求有一定的PPT能力,这块大家可以去专门学习一下。有了好的PPT就可以更好地去汇报工作了,汇报中需要注意重点,抓住核心,读者可以去购买与怎么汇报相关的书籍或者查询相关材料自行学习。
还有一个比较重要的能力是业务理解力,这块需要多学习多思考,我建议读者可以多学习产品、运营、销售、业务等方面的知识,多关注相关的公众号,平时跟产品、运营交流时也多从他们身上学习这方面的技能和思维。毫不夸张地说,作为数据分析师的你,对业务的理解能力直接决定了你能够达到的职场高度,所以大家一定要重视。
总结
本章我们整理了数据分析师需要的核心能力。我们从基础技能、业务分析方法、高阶技能、思维方法、软技能等5个方面进行了简单的介绍,这些能力点我们会在本书的后续章节深入讲解,这章大家先进行了解,方便后面深入学习。
我出版的畅销书《构建企业级推荐系统:算法、工程实现与案例分析》,可以跟这个系列文章一起阅读,大家有需要可以点击下面链接购买。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)