1、试述统计、统计资料、统计工作、统计学的概念及它们之间的关系。

1、试述统计、统计资料、统计工作、统计学的概念及它们之间的关系。,第1张

    首先统计是统计资料、统计工作统计学的泛指。

  (1)统计工作是对社会经济现象客观存在的现实数量方面进行搜集、整理、分析预测等活动的总称。

  (2)统计资料是统计工作过程中所获得的各项数字资料和与之相关的其他实际资料的总称。

  (3)统计学是收集数据、整理数据、分析数据、解释数据的科学。它是长期统计工作实践的经验总结和理论概括。

    三者之间的关系:统计学可以指导统计工作,统计工作的成果是统计资料,同时统计工作也是统计学的抽象概括。

统计学是一门独立的学科,它使用数学,但与其他数学分支(如组合数学或微分方程或群论)有本质的区别。

统计学是对不确定性的研究,而这种不确定性渗入到整个学科,以至于数学和统计学是根本不同的思维方式。

在统计学中,用直觉和例子来定义事物是很常见的,即是说“所见即所知”,很少像数学里那样黑白分明。这是出于一个必然的理由: 统计学家用真实的数据来工作,这些数据往往是混乱的,并不容易理清,也难以从严格的定义来研究。

非统计方法使用理论来证明其正确性。

例如,我们可以通过归纳法证明Dijkstra算法总是返回图中的最短路径,或者快速排序法总是按排序顺序排列数组。为了比较运行时间,我们使用大O符号,这是一个用于严格化程序运行时间的数学结构,它刻画的是当程序的输入趋于无穷大时运行时间的行为。

统计一词有三种含义:统计工作、统计资料、统计学。  

它们之间的关系:

(1)统计工作:即统计实践活动,是指从事统计业务的机关、单位利用科学的统计方法。

搜集、整理分析和提供有关客观现象的数据资料、研究数据的内在特征,并预测事物的发展方向等一系列工作过程的总称。

(2)统计资料:是统计实践过程的取得的各项数据资料以及与它相联系的其他资料的总称。

(3)统计学:统计工作与统计资料的关系是统计活动即过程与统计成果的关系,统计工作与统计学的关系是统计实践与统计理论的关系。

统计学的基本原理。

统计学原理包括:统计学的研究对象和方法、统计学的基本范畴、统计组织和管理、统计调查的意义和种类、统计调查方案、统计调查方法、统计整理的意义和内容。

统计分组、统计分布、统计表、总量指标、相对指标、平均指标、变异指标、综合指标的应用、抽样推断的意义和内容、抽样误差、抽样估计的方法、抽样组织的设计。

假设检验的意义与假设命题、假设检验方法、符合检验与秩和检验。

相关的意义和种类、相关图表和相关系数、回归分析、指数的意义和种类、综合指数和平均指数、因素分析、指数数列。

统计学自身的发展领域不仅更宽广,而且统计学在计算机科学、信息科学、经济学、管理学、金融工程等领域都有广泛的应用并与之有力结合,共同发展。1、计算机是统计学的基础工具对于统计学来说,我们应该看到,计算机与数学一样,是统计学的基础工具。计算机的发展使得比较复杂的数据计算变得简便快捷,成为统计计算的重要工具。当今,个人计算机的普及,英特网的使用,使社会产生了很大的变革,使信息传递的质和量都发生了飞跃的变化。统计学的发展不能离开计算机。毫无疑问,我们的学生应该学习相关的计算机科学知识。这将包括数据结构、算法设计、程序语言设计、程序设计方法、数据库系统的开发与管理、程序设计等等。我们也应该扩展我们的课程计划,它应该包括当前的计算机定向数据分析方法,它们大部分是在统计学科之外发展起来的。如此一来,无疑会大大丰富统计学专业的就业范围。2、数据挖掘(Data Mining)是统计学的一部分笔者认为,数据挖掘是与统计学息息相关的,应当是统计学的一部分。数据挖掘是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。数据挖掘既然也是数据处理,统计学也就应该积极借鉴。在统计学的发展历史上,许多数据处理相关领域发展的新方法被忽略了。比如,模式识别,神经网络,图形模型,数据可视化等等都是在统计科学中出现萌芽,但随后绝大部分又被统计学忽略的方法领域。而这些方法领域又是当今世界高尖端科技的领域,统计学对它们的忽略是痛心疾首的。因此,既然统计学可以在数据挖掘科学中发挥作用,统计学就应该和数据挖掘合作,而不是将它甩给计算机科学家,从而又失去一次自我增值的机会。21世纪是信息的世纪,统计学将与计算机紧密结合,将与数据挖掘紧密合作,以全新的形式得到更广泛的应用。据统计,计算机专业的就业率高达90%,随着统计学的发展,这个份额必将被统计学专业人才所瓜分。因为计算机专业人员大都缺少必要的数据统计分析理论与方法,而时代又对数据的精度与可信度提出了更高的要求,具有现代统计技术、计算机技术与数据挖掘技术的复合人才无疑是更加吃香的。3、统计学与经济学、管理学、金融工程等学科的结合由于数据处理及数据采集挖掘的方法呈现出多样化,统计分析方法也相对复杂化,专业化。统计学的应用不仅要不断提高理论统计学的基本素质,还要注重掌握经济学的理论,金融交易制度及金融理论,管理科学的理论与计算机的技术方法。统计理论与应用的紧密结合显得比以往任何一个时期都更为迫切,更加重要。就拿统计学与金融工程来说,金融工程属于交叉性学科,包括以下3个领域:(1)投资分析;(2)风险管理;(3)期货交易。其中投资分析与风险管理两个领域直接涉及到统计数据描述及推测统计学,期货交易部分主要是与数学有关的应用概率过程,应用概率微分方程式的研究领域,有时被称为数理金融。无论哪个领域,金融工程与统计学都是密切相关的,金融分析离不开统计。目前,注册金融分析师(CFA) 在中国需求量越来越大,但是只有传统的金融理论,金融制度的知识,是远远不够的。CFA对数量技术要求很高,其中尤为重要的就是统计的知识;固定收益证券分析,权益证券分析都要用到各种统计方法。据报道,中国本土金融分析师(CFA)几乎为零,但中国加入WTO后,金融市场对CFA的需求量又很大,这势必造成一个巨大的就业空间。因此,统计学与金融工程的结合,也是统计学发展的一个非常有潜力的空间。4、统计学自身的发展统计学不仅要注重与其它学科的结合,统计学自身在统计原理、统计技术、统计方法等领域也要谋求创新和突破。正如本文一开始就提到,我国过去乃至目前,都还是偏重在社会经济统计方面的研究。数理统计学、数据挖掘是统计学的一部分,这已经为很多统计学家、统计学者所认同。因而,统计学就得把它们纳入发展范围,而不是像过去那样,把原本属于自身的东西再次抛弃。数理统计学、数据挖掘给统计方法和统计技术带来更广阔的发展前景,这不仅有利于统计学研究范畴的扩大,也利于统计工作信息化的发展。5、再谈统计就业众所周知,政府统计、部门统计、民间统计是我国统计工作领域的三大巨头。一直以来,政府统计、部门统计在统计学生的就业中占有较高的比重。然而,随着社会主义市场的完善,随着中国全球化贸易的发展,民间统计越来越热。民间统计是政府统计之外的涉及市场调研、统计分析、预测和决策等内容的一系列统计活动,包括各类统计调查公司、统计信息咨询中心、统计师事务所、统计研究所,以及把统计方法运用于企业决策和管理的企业管理咨询公司等,是介于市场和企业、居民之间的一个桥梁,主要为企业和居民提供市场微观信息。民间统计机构,由于其服务的多样性、形式的灵活性,目前在我国获得大幅度的发展,已经逐渐为广大统计学生提供广阔的就业机会。随着民间统计机构的持续发展,笔者相信,民间统计机构必将成为统计学生就业的主要渠道之一。

除了熟悉业务、掌握业务分析思维和工具外,数据分析专家必备技能堆栈还有一个特别重要的知识点:统计学。 无论是简历的技能描述还是实际面试中,统计学都是必须的基础知识。

为什么统计学对数据分析师来说那么重要? 其实答案很明显。 数据分析的价值在于,通过数据洞察业务背后的信息,避免以往“决定拍脑袋,保证拍胸部,拍屁股就走人”的主观误判,一切用数据说话。 数据怎么能说话? 算出一个数据,怎么知道那个数据好不好? 有多好? 两组数据出现在你面前,如何判断这两组数据是否有明显的差异? 要回答这些问题,你需要运用统计学知识,而不是相信自己的眼睛。 因为眼睛有时会说谎,所以你看到的“好”不一定都是好的。 你看到的“没有区别”并不意味着没有区别。

但是,许多刚入门的数据分析师在学习统计学知识时都很头疼。 统计学的书籍里写了很难理解的公式,不是一般人能理解的。

其实,对大多数数据分析师来说,我们不需要掌握得那么全面和深入。 我们只能掌握一部分知识,理解不了理论。 但是,你只要知道在什么场合使用就可以了。 用了之后,慢慢就能理解了。

因此,为了便于学习统计学的基础知识,这里整理一下数据分析工作中最常见的统计学基础知识,并尽量以简单的白字形式进行讲解,以便在面试和以后的工作中都能运用统计学知识。

数据分析中的统计学

问题1、辛普森悖论是什么? 细分后的结果与整体结果相矛盾,人们常说这就是辛普森的悖论。

辛普森悖论主要是因为两组样本不平衡,采样不合理。

在正确的实验实施方案中,除被测试变量外,可能影响结果的变量比例必须一致,流量必须均匀合理划分。

例如:

如果原来的男性是20人,点击1人; 点击女性100人、99人,总点击率为100/120。

现在男性100人,点击6人; 女性20人,点击量20人,总点击率26/120。

男女点击率都有所提高,但点击率更高的女性所占比例太小,无法提高整体点击率。

Q2、协方差与相关系数的差异和联系协方差:

协方差表示两个变量的整体误差,这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致,即一个大于自己的期望值,另一个也大于自己的期望值,则两个变量之间的协方差为正值。

如果两个变量的变化趋势相反,一个大于自己的期望值,另一个小于自己的期望值,则两个变量之间的协方差为负值。

相关系数:

研究变量之间的线性相关程度的量,取值的范围为[-1,1 ]。

相关系数也可以认为是协方差。 消除了两个变量维数的影响的标准化特殊协方差。

Q3、AB测试的统计很显眼,实际上不显眼是什么原因? 这可能是因为我们在AB测试中选择的样本量太大,与总体数据量的差距很小。 这样的话,即使我们发现了微小的差异,这在统计上也是明显的,在实际案例中可能会变得不明显。

举个例子,为了应对我们互联网产品的实践,我们做了改变。 APP启动时间优化为0001秒。 这个数字在统计学上对应的p值可能很小。 也就是说,虽然在统计学上很显著,但实际上无法感知用户001秒的差异。

这样显著的统计差异,其实对我们来说没有什么实际意义。

因此,统计学显著性并不意味着实际效果的显著性。

Q4、如何理解中心极限定理? 中心定理的定义:

(1)任一样本的平均值与其所在整体的平均值大致相等。

)无论总体是什么样的分布,任一总体的样本平均值都围绕在总体平均值的周围,呈正态分布。

中心定理的作用:

)1)在无法获得总体数据的情况下,可以用样本来估计总体。

)根据总体均值和标准差,判断某个样本是否属于总体。

Q5、如何向孩子解释正态分布? 拿出孩子班级的成绩单,按每2分统计人数,画出钟的形状。

然后说这是正态分布,很多人都集中在中间。 只有少数非常好的人和坏的人。 拿出隔壁班的成绩单,让孩子们自己画画,发现是这样的现象,拿出班级的身高表一看,是这样的。

大多数人之间差别不大,但只有少数人有特别好的人和特别坏的人。 这是生活中普遍出现的现象,这就是正态分布。

Q6、什么是聚类? 聚类算法有几种? 选择一个详细介绍(1)聚类分析是一种无监督学习方法,在一定条件下将比较同质的样品归为一类(俗称人在班里聚会,物在班里分组)。

正式地说,集群就是对点集合进行考察,根据一定的距离测度将他们归纳成多个“集群”的过程。

聚类的目标是缩短同一个集群中点之间的距离并增加不同集群中点之间的距离。

)2)聚类方法主要有:

a 分层聚类

分层法( hierarchical methods )是在满足某些条件之前对给定数据集进行分层分解的方法。

具体分为“自下而上”和“自上而下”两个方案。

b 聚类划分:(经典算法为k均值) ) )。

分区给出具有n个组或记录的数据集。 分裂法构建k个组,每个组表示一个集群。

c 密度聚类

基于密度的方法( density-based methods ) (基于密度的方法与其他方法的一个根本区别在于基于密度,而不是基于各种距离。

这样,可以克服基于距离的算法只能发现“类圆形”聚类的缺点。

经典算法: DBSCAN:DBSCAN算法是典型的基于密度的聚类算法。 该算法利用空间索引技术搜索对象邻域,引入“核心对象”和“密度可达”等概念,从核心对象中将所有密度可达对象聚集成一个簇。

d 网格聚类

基于网格的方法( grid-based methods )首先将数据空间分割为有限个单元( cell )的网格结构,所有处理都以单个单元为对象。

此类处理的一大优点是处理速度快。 通常,这与将数据空间划分为多少个单元无关,与目标数据库中记录的数量无关。

经典算法: STING :利用网格单元存储数据统计信息,实现多分辨率聚类。

)3) k-means容易介绍,开始选取k个点作为聚类中心,剩下的点根据距离分类为类,找到新的类中心,重新分配点; 重复直到达到收敛条件或重复次数。

优点是快; 缺点是先指定k,同时对异常值敏感。

Q7、线性回归和逻辑回归的区别是什么? 以线性回归为对象的目标变量为区间型,逻辑回归为对象的目标变量为类别型,

假定线性回归模型的目标变量和自变量之间的关系是线性相关的,逻辑回归模型的目标变量和自变量是非线性的。

线性回归中通常使用假设,对应自变量x的某个值,目标变量y的观测值服从正太分布。

逻辑回归中的目标变量y服从二项分布的0和1或多项分布

逻辑回归中不存在线性回归中常见的残差。

参数评估采用线性回归最小二乘法,逻辑回归采用最大似然法。

Q8、为什么朴素的贝叶斯是“朴素”的? 朴素贝叶斯是一种简单但非常强大的预测建模算法。

之所以称为朴素贝叶斯是因为它假定每个输入变量都是独立的。

这是一个强硬的假设,实际上并不一定,但这项技术对大多数复杂问题仍然非常有效。

Q9、k均值和KNN的区别是什么? 首先,这两种算法解决了数据挖掘中的两类问题。

k均值是聚类算法,KNN是分类算法。

其次,这两种算法分别是两种不同的学习方式。

k均值是非监督学习,即不需要提前进行分类标记,而KNN有监督学习,需要对训练数据进行分类标记。

最后,k值的含义不同。

K-Means的k值表示k类。

KNN的k值表示最近的k个邻居。

Q10、逻辑回归和线性回归的区别? 线性回归要求因变量必须是连续性数据变量; 逻辑回归需求因变量必须为分类变量、二分类或多分类; 例如,要分析性别、年龄、身高和饮食习惯对体重的影响,请通过线性回归来分析体重是实际重量,还是连续性数据变量。 对体重进行分类,作为因变量分为高、中、低3种体重类型时,采用logistic回归。

两者的不同还体现在以下几点。

一、性质不同

1、逻辑回归:是一个广义线性回归分析模型。

2、线性回归:一种利用数理统计中的回归分析,确定两个或多个变量之间相互依存的定量关系的统计分析方法。

二、应用不同

1、逻辑回归:常用于数据挖掘、疾病自动诊断、经济预测等领域。

2、线性回归:常用于数学、金融、趋势线、经济学等领域。

以上是几分面试宝典系列——统计学基础知识第一篇文章的内容。 历史文章的一部分请恢复为公众号。 更多数据分析面试笔试文章持续更新,敬请期待。 觉得好的话,就分享,点赞,也欢迎收藏~

自考/成考有疑问、不知道自考/成考考点内容、不清楚当地自考/成考政策,点击底部咨询官网老师,免费领取复习资料:>

以上就是关于1、试述统计、统计资料、统计工作、统计学的概念及它们之间的关系。全部的内容,包括:1、试述统计、统计资料、统计工作、统计学的概念及它们之间的关系。、统计学与数学的关系是什么、统计学原理中 统计包括哪三个方面的内容,它们之间的关系等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9506246.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存