1、试述统计、统计资料、统计工作、统计学的概念及它们之间的关系。_工具

首先统计是统计资料、统计工作和统计学的泛指。

（1）统计工作是对社会经济现象客观存在的现实数量方面进行搜集、整理、分析预测等活动的总称。

（2）统计资料是统计工作过程中所获得的各项数字资料和与之相关的其他实际资料的总称。

（3）统计学是收集数据、整理数据、分析数据、解释数据的科学。它是长期统计工作实践的经验总结和理论概括。

三者之间的关系：统计学可以指导统计工作，统计工作的成果是统计资料，同时统计工作也是统计学的抽象概括。

统计学是一门独立的学科，它使用数学，但与其他数学分支（如组合数学或微分方程或群论）有本质的区别。

统计学是对不确定性的研究，而这种不确定性渗入到整个学科，以至于数学和统计学是根本不同的思维方式。

在统计学中，用直觉和例子来定义事物是很常见的，即是说“所见即所知”，很少像数学里那样黑白分明。这是出于一个必然的理由：统计学家用真实的数据来工作，这些数据往往是混乱的，并不容易理清，也难以从严格的定义来研究。

非统计方法使用理论来证明其正确性。

例如，我们可以通过归纳法证明Dijkstra算法总是返回图中的最短路径，或者快速排序法总是按排序顺序排列数组。为了比较运行时间，我们使用大O符号，这是一个用于严格化程序运行时间的数学结构，它刻画的是当程序的输入趋于无穷大时运行时间的行为。

统计一词有三种含义：统计工作、统计资料、统计学。

它们之间的关系：

（1）统计工作：即统计实践活动，是指从事统计业务的机关、单位利用科学的统计方法。

搜集、整理分析和提供有关客观现象的数据资料、研究数据的内在特征，并预测事物的发展方向等一系列工作过程的总称。

（2）统计资料：是统计实践过程的取得的各项数据资料以及与它相联系的其他资料的总称。

（3）统计学：统计工作与统计资料的关系是统计活动即过程与统计成果的关系，统计工作与统计学的关系是统计实践与统计理论的关系。

统计学的基本原理。

统计学原理包括:统计学的研究对象和方法、统计学的基本范畴、统计组织和管理、统计调查的意义和种类、统计调查方案、统计调查方法、统计整理的意义和内容。

统计分组、统计分布、统计表、总量指标、相对指标、平均指标、变异指标、综合指标的应用、抽样推断的意义和内容、抽样误差、抽样估计的方法、抽样组织的设计。

假设检验的意义与假设命题、假设检验方法、符合检验与秩和检验。

相关的意义和种类、相关图表和相关系数、回归分析、指数的意义和种类、综合指数和平均指数、因素分析、指数数列。

统计学自身的发展领域不仅更宽广，而且统计学在计算机科学、信息科学、经济学、管理学、金融工程等领域都有广泛的应用并与之有力结合，共同发展。1、计算机是统计学的基础工具对于统计学来说，我们应该看到，计算机与数学一样，是统计学的基础工具。计算机的发展使得比较复杂的数据计算变得简便快捷，成为统计计算的重要工具。当今，个人计算机的普及，英特网的使用，使社会产生了很大的变革，使信息传递的质和量都发生了飞跃的变化。统计学的发展不能离开计算机。毫无疑问，我们的学生应该学习相关的计算机科学知识。这将包括数据结构、算法设计、程序语言设计、程序设计方法、数据库系统的开发与管理、程序设计等等。我们也应该扩展我们的课程计划，它应该包括当前的计算机定向数据分析方法，它们大部分是在统计学科之外发展起来的。如此一来，无疑会大大丰富统计学专业的就业范围。2、数据挖掘(Data Mining)是统计学的一部分笔者认为，数据挖掘是与统计学息息相关的，应当是统计学的一部分。数据挖掘是揭示存在于数据里的模式及数据间的关系的学科，它强调对大量观测到的数据库的处理。它是涉及数据库管理，人工智能，机器学习，模式识别，及数据可视化等学科的边缘学科。用统计的观点看，它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。数据挖掘既然也是数据处理，统计学也就应该积极借鉴。在统计学的发展历史上，许多数据处理相关领域发展的新方法被忽略了。比如，模式识别，神经网络，图形模型，数据可视化等等都是在统计科学中出现萌芽，但随后绝大部分又被统计学忽略的方法领域。而这些方法领域又是当今世界高尖端科技的领域，统计学对它们的忽略是痛心疾首的。因此，既然统计学可以在数据挖掘科学中发挥作用，统计学就应该和数据挖掘合作，而不是将它甩给计算机科学家，从而又失去一次自我增值的机会。21世纪是信息的世纪，统计学将与计算机紧密结合，将与数据挖掘紧密合作，以全新的形式得到更广泛的应用。据统计，计算机专业的就业率高达90%，随着统计学的发展，这个份额必将被统计学专业人才所瓜分。因为计算机专业人员大都缺少必要的数据统计分析理论与方法，而时代又对数据的精度与可信度提出了更高的要求，具有现代统计技术、计算机技术与数据挖掘技术的复合人才无疑是更加吃香的。3、统计学与经济学、管理学、金融工程等学科的结合由于数据处理及数据采集挖掘的方法呈现出多样化，统计分析方法也相对复杂化，专业化。统计学的应用不仅要不断提高理论统计学的基本素质，还要注重掌握经济学的理论，金融交易制度及金融理论，管理科学的理论与计算机的技术方法。统计理论与应用的紧密结合显得比以往任何一个时期都更为迫切，更加重要。就拿统计学与金融工程来说，金融工程属于交叉性学科，包括以下3个领域:(1)投资分析;(2)风险管理;(3)期货交易。其中投资分析与风险管理两个领域直接涉及到统计数据描述及推测统计学，期货交易部分主要是与数学有关的应用概率过程，应用概率微分方程式的研究领域，有时被称为数理金融。无论哪个领域，金融工程与统计学都是密切相关的，金融分析离不开统计。目前，注册金融分析师(CFA) 在中国需求量越来越大，但是只有传统的金融理论，金融制度的知识，是远远不够的。CFA对数量技术要求很高，其中尤为重要的就是统计的知识;固定收益证券分析，权益证券分析都要用到各种统计方法。据报道，中国本土金融分析师(CFA)几乎为零，但中国加入WTO后，金融市场对CFA的需求量又很大，这势必造成一个巨大的就业空间。因此，统计学与金融工程的结合，也是统计学发展的一个非常有潜力的空间。4、统计学自身的发展统计学不仅要注重与其它学科的结合，统计学自身在统计原理、统计技术、统计方法等领域也要谋求创新和突破。正如本文一开始就提到，我国过去乃至目前，都还是偏重在社会经济统计方面的研究。数理统计学、数据挖掘是统计学的一部分，这已经为很多统计学家、统计学者所认同。因而，统计学就得把它们纳入发展范围，而不是像过去那样，把原本属于自身的东西再次抛弃。数理统计学、数据挖掘给统计方法和统计技术带来更广阔的发展前景，这不仅有利于统计学研究范畴的扩大，也利于统计工作信息化的发展。5、再谈统计就业众所周知，政府统计、部门统计、民间统计是我国统计工作领域的三大巨头。一直以来，政府统计、部门统计在统计学生的就业中占有较高的比重。然而，随着社会主义市场的完善，随着中国全球化贸易的发展，民间统计越来越热。民间统计是政府统计之外的涉及市场调研、统计分析、预测和决策等内容的一系列统计活动，包括各类统计调查公司、统计信息咨询中心、统计师事务所、统计研究所，以及把统计方法运用于企业决策和管理的企业管理咨询公司等，是介于市场和企业、居民之间的一个桥梁，主要为企业和居民提供市场微观信息。民间统计机构，由于其服务的多样性、形式的灵活性，目前在我国获得大幅度的发展，已经逐渐为广大统计学生提供广阔的就业机会。随着民间统计机构的持续发展，笔者相信，民间统计机构必将成为统计学生就业的主要渠道之一。

除了熟悉业务、掌握业务分析思维和工具外，数据分析专家必备技能堆栈还有一个特别重要的知识点：统计学。无论是简历的技能描述还是实际面试中，统计学都是必须的基础知识。

为什么统计学对数据分析师来说那么重要？其实答案很明显。数据分析的价值在于，通过数据洞察业务背后的信息，避免以往“决定拍脑袋，保证拍胸部，拍屁股就走人”的主观误判，一切用数据说话。数据怎么能说话？算出一个数据，怎么知道那个数据好不好？有多好？两组数据出现在你面前，如何判断这两组数据是否有明显的差异？要回答这些问题，你需要运用统计学知识，而不是相信自己的眼睛。因为眼睛有时会说谎，所以你看到的“好”不一定都是好的。你看到的“没有区别”并不意味着没有区别。

但是，许多刚入门的数据分析师在学习统计学知识时都很头疼。统计学的书籍里写了很难理解的公式，不是一般人能理解的。

其实，对大多数数据分析师来说，我们不需要掌握得那么全面和深入。我们只能掌握一部分知识，理解不了理论。但是，你只要知道在什么场合使用就可以了。用了之后，慢慢就能理解了。

因此，为了便于学习统计学的基础知识，这里整理一下数据分析工作中最常见的统计学基础知识，并尽量以简单的白字形式进行讲解，以便在面试和以后的工作中都能运用统计学知识。

数据分析中的统计学

问题1、辛普森悖论是什么？细分后的结果与整体结果相矛盾，人们常说这就是辛普森的悖论。

辛普森悖论主要是因为两组样本不平衡，采样不合理。

在正确的实验实施方案中，除被测试变量外，可能影响结果的变量比例必须一致，流量必须均匀合理划分。

例如：

如果原来的男性是20人，点击1人；点击女性100人、99人，总点击率为100/120。

现在男性100人，点击6人；女性20人，点击量20人，总点击率26/120。

男女点击率都有所提高，但点击率更高的女性所占比例太小，无法提高整体点击率。

Q2、协方差与相关系数的差异和联系协方差：

协方差表示两个变量的整体误差，这与只表示一个变量误差的方差不同。

如果两个变量的变化趋势一致，即一个大于自己的期望值，另一个也大于自己的期望值，则两个变量之间的协方差为正值。

如果两个变量的变化趋势相反，一个大于自己的期望值，另一个小于自己的期望值，则两个变量之间的协方差为负值。

1、试述统计、统计资料、统计工作、统计学的概念及它们之间的关系。

发表评论

评论列表（0条）