数据科学理论基础知识汇总---《数据科学理论与实践_java

目录

前言

一、数据科学的学科地位

二、统计学

2.1 统计学与数据科学

2.2 数据科学中常用的统计学知识

2.3 数据科学视角下的统计学

三、机器学习

3.1 机器学习与数据科学

3.2 数据科学中常用的机器学习知识

3.3 数据科学视角下的机器学习

四、数据可视化

五、总结

前言

数据科学不是以一个特定理论（如统计学、机器学习和数据可视化）为基础发展起来的，而是包括数学与统计学、特定学科领域理论在内相互融合后形成的新兴学科。本文将对数据科学的理论基础（统计学、机器学习、数据可视化、某一领域实务知识与经验）作一个简要介绍。

一、数据科学的学科地位

从学科定位看，数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大区域的重叠之处，如图2所示。图2是Drew Conway首次提出数据科学韦恩图。图3是后来Jerry Overton提出的另一个版本。

        "数据与统计知识"是数据科学的主要理论基础之一，但数据科学与（传统）数学和统计学是有区别的。其主要区别如下：

数据学科中的“数据” != “数值” and “数据” != “数值”
数据科学中的“计算” != “加、减、乘、除等数学运算”，还包括数据的查询、挖掘、洞见、分析、可视化等更多类型
数据科学的问题 != “单一学科”的问题，还涉及到多个学科的研究范畴，它强调的是跨学科视角
数据学科 != 纯理论研究 and 数据学科 != 领域实务知识，它关注和强调的是二者的结合。

        “黑客精神与技能”是数据科学家的主要精神追求和技能要求 --- 大胆创新、喜欢挑战、追求完美和不断改进。

Tips : 此处涉及到黑客道德准则，感兴趣的朋友可以查阅史蒂夫 · 利维的代表作《黑客---计算机革命的英雄》。

        “领域实务知识”是对数据科学家的特殊要求 --- 不仅需要掌握数学与统计知识以及具备黑客精神与技能，而且还需要精通某一个特定领域的实务知识与经验。

二、统计学 2.1 统计学与数据科学

数据科学的理论、方法、技术和工具往往来源于统计学。统计学是数据科学的主要理论基础之一。

2.2 数据科学中常用的统计学知识

从行为目的与思维方式看，数据统计方法可以分为两大类---描述统计和推断统计。

其中参数估计与假设检验的主要区别如下：

从方法论角度看，基于统计的数据分析方法又可分为两个不同层次---基本分析法和元分析方法，如下图所示：

2.3 数据科学视角下的统计学

1.不是随机样本，而是全体数据

2.不是精确性，而是混杂性

3.不是因果关系，而是相关关系

三、机器学习 3.1 机器学习与数据科学

机器学习为数据科学中充分发挥计算机的自动数据处理能力，拓展人的数据处理能力以及实现人机协同数据处理提供了重要手段。

基本思路：以现有的部分数据（称为训练集）为学习素材（输入），通过特定的学习方法（机器学习算法），让机器学习到（输出）能够处理更多或未来数据的新能力（称为目标函数）。

3.2 数据科学中常用的机器学习知识

1）基于实例学习

基本思路：事先将训练样本存储下来，然后每当遇到一个新增查询实例时，学习系统分析此新增实例与以前存储的实例之间的关系，并据此把一个目标函数赋给一个新增实例。

常用方法：K近邻方法、局部加权回归法、基于案例的推理。

2）概念学习

本质：从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。

具体方法：Find-S算法、候选消除算法等。

3）决策树学习

        本质：一种逼近离散值目标函数的过程。它代表的是一种分类过程。

        其中：

                根节点：代表分类的开始

                叶节点：代表一个实例的结束

                中间节点：代表相应实例的某一属性

                节点之间的边：代表某一个属性的属性值

                从根节点到叶节点的每条路径：代表一个具体的实例，同一个路径上的所有所有属性之间是“逻辑与”关系。

        核心算法：ID3算法

（4）人工神经网络学习
        人工神经元是人工神经网络的最基本的组成部分。

        根据连接方式的不同，通常把人工神经网络分为无反馈的向前神经网络和相互连接型网络（反馈网络）。在人工神经网络中，实现人工神经元的方法有很多种，如感知器、线性单元和Sigmoid单元等。

        特征学习方法：深度学习

（5）贝叶斯学习
定义：它是一种以贝叶斯法则为基础的，并通过概率手段进行学习的方法。

常用方法：朴素贝叶斯分类器

（6）遗传算法
        本质：主要研究“从候选假设空间中搜索出最佳假设”。此处，“最佳假设”指“适应度”指标为最优的假设。

        遗传算法借鉴的生物进化的三个基本原则：适者生存、两性繁衍及突变，分别对应遗传算法的三个基本算子：选择、交叉和突变。

        遗传算法：GA算法

（7）分析学习
特点：使用先验知识来分析或解释每个训练样本，以推理出样本的哪些特征与目标函数相关或不相关。因此，这些假设能使机器学习系统比单独依靠数据进行泛化有更高的精度。

（8）增强学习
本质：主要研究的是如何协助自治Agent（机器人）的学习活动，进而达到选择最优动作的目的。

基本思路：当Agent在其环境中做出某个动作时，施教者会提供奖赏或惩罚信息，以表示结果状态的正确与否。

根据学习任务的不同，机器学习算法分为：有监督学习、无监督学习和半监督学习。

3.3 数据科学视角下的机器学习

机器学习领域所面临的主要挑战有：

过拟合
维度灾难
特征工程
算法的可扩展性
模型集成

四、数据可视化

数据可视化在数据科学中的地位：

（1）视觉是人类获得信息的最主要的途径。

视觉感知是人类大脑的最主要的功能之一。
眼睛是感知信息能力最强的人体器官之一。

（2）相对于统计分析，数据可视化的主要优势为：

数据可视化处理可以洞察统计分析无法发现的结构和细节。
数据可视化处理结果的解读对用户知识水平的要求较低。

（3）可视化能够帮助人们提高理解与处理数据的效率。

五、总结

通过完成本章的学习，我对数据科学有了一定的了解，对统计学、机器学习、数据可视化有了一定的认识，后面还将花时间进行更加深入的学习。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/878186.html

数据科学理论基础知识汇总---《数据科学理论与实践

发表评论

评论列表（0条）