大数据分析与计算 汤羽 第一章习题答案

大数据分析与计算 汤羽 第一章习题答案,第1张

数据分析与计算 汤羽 第一章习题答案

1. 数据(data)、信息(information)、知识(knowledge)与价值(value)这四个词在信息科学中既相关联、又具有不同的含义。请举例说明四个概念的关联与区别。

参考答案:数据体现的是一种过程、状态或结果的记录,这类记录数字化(digitalized)后可以被计算机存储和处理。信息则是包含在数据之中的能够为人脑理解和思维推理和结论,比如," 01001000 01100101 01101100 01101100 01101111 00100000 01110111 01101111 01110010 01101100 01100100 00100001"是一串二进制数值,是一组能被计算机识别、存储和处理的数据。经计算机程序识别转换(ASCII码值字符转换),我们知道它代表“Hello world!”这样一个字符串,包含了向世界问好的特殊信息。更进一步,在计算机编程语言世界,Hello world!实际上是一个约定俗成的机器或程序语言启动显示语句,这就上升为了知识。最终,如果有人把这一固有的显示方法拿去注册了专利并因此获利,于是就产生了价值。

2. 数据科学家的主要知识技能包括哪几方面?

参考答案:数据科学家的主要知识技能包括如下学科领域(按重要性依次排列):

    统计学

    数学

    计算机科学

    机器学习

    数据可视化

    沟通能力

    行业知识

3. 阐述大数据的四大基本特征?

参考答案:4V (Volume, Velocity, Variety and Value)特性

1)大数据的超大规模 (Volume)特点使得它处理的数据量级超过了传统的GB规模,达到了PB甚至更高量级。超大规模的数据量对数据存储架构、计算模型和应用软件系统都提出了全新的挑战。在后面可以看到,传统的基于行键(row key)表格存储格式的关系型数据库(RDBS)已很难适应大数据海量存储和快速检索查询的需要,基于分布式文件系统的分布式数据库设计越来越多地用于大数据存储与管理系统。

2)Velocity特征意指大数据的计算处理速度是其可用性、效益性的一个重要衡量指标。

3)Variety特征指大数据来源、种类的多样性、异构性。大数据的类型按照其结构特征可以分为结构化/半结构化/非结构化数据;按时效性又可分为离线非实时数据/在线实时数据。

4)大数据的Value特点是指它的价值低密度、或者说碎片数据毫无价值但大规模整体数据就体现价值的特性。

4. 大数据计算与传统统计学方法的差别?

参考答案:传统统计学是对样本空间基于独立同分布(independent and identically distributed)原理随机抽取一个样本集进行统计分析,而大数据计算是以样本空间整体或完整数据集(也可能不是完整数据集,而只是研究者手中现在掌握的全部数据)作为计算对象。

       统计研究者记录下样本的观察数据,根据样本特征推断总体的情况。采样的方法多种多样,有些采样方法会存在偏差,使得样本失真,而不能被视为一个缩小版的总体,去推断总体的特征。当这种情况发生时,基于样本分析所推断出来的结论常常是失真或完全错误的。”这表明传统统计分析方法的正确性和可信性很大程度上依赖于所选取样本集对整个样本空间的代表性,而这不是一个容易的任务。

    大数据计算可以处理整个数据集(或研究者手中现在掌握的全部数据),这就避免了只计算一个数据子集(样本集)带来的难题,而可以专注于改进计算模型和算法来提高计算结果的可靠性。

    传统统计分析所采用的计算公式或方法是固定的,即统计学家首先建立一个确定的数学模型,再通过选定的样本集测算模型的参数,然后用这个模型去预测总体空间的结果。在这一过程中,所采用的数学模型是确定的、不变的。

       大数据计算则主要采用机器学习方法(machine learning),其特点是预测结果的精度改进是一个动态过程,需要一定规模的数据计算来训练和改进预测算法(prediction algorithm),这与统计学一开始就确定数学模型不同。具体而言,机器学习是从输入数据中学习(learning)或训练(training)预测算法,通过训练数据集(training set)的大量计算来改进预测算法的性能,使其逐步逼近正确的结果。这一过程中另有一个学习算法(learning algorithm)来控制对预测模型的改进和测试。显然,大数据计算更看重预测算法的输出结果,并通过训练数据集的反复迭代计算来提高预测输出结果的精度。

5. 大数据计算系统与传统数据库系统的区别?

参考答案:传统的关系型数据库系统(RDBS)主要围绕关系型模型构建,数据存储采用基于主键(primary key)的行存储格式(row-based structure),一个SQL查询会涉及到多个(在大型数据库中会达到数百个)表单,这就限制了关系型数据库处理超大规模数据的能力,因为几十到数百个表单的连接(join)是一个非常耗时的 *** 作。关系型数据库遇到的另一个挑战是处理大量的非结构性数据或异构数据,关系型模型(RDBS schema)在构建这些没有统一数据格式的表格时会遇到很大困难。另外,尽管现代关系型数据库产品也支持分布式部署和计算,但关系型关联模型的特点决定了多数情况下仍然是集中部署,在支持分布式计算时数据集的划分和数据同步都是高成本的开销。

       大数据计算采用的是分布式文件系统(distributed file system)及在此基础上构建的NoSQL (Not only SQL) 非关系型数据库,通常会在原始数据文件之上建立相关的索引表(index table), 采用哈希表(Hash table) 映射方法来支持快速查询。分布式数据库的特点也能够很好地支持分布式系统部署、对超大规模数据集完成快速查询 *** 作。

       而NoSQL数据库采用的是基于键值对(key pair) 的列存储格式(columnar storage structure)。针对学生记录属性查询的问题,NoSQL数据库是把学生记录的属性归类进行存储。比如,所有学生的成绩都存入树状结构的某一分枝(不同课程的成绩进入更低层的分枝)。假设该校共开出2000门课,全校共有100个专业,每个专业学生人数最多为1000。NoSQL数据库首先会搜索进入该门课的分枝(最坏情况下查询次数2000),然后在该分枝内搜索该专业(最多查询次数100),然后完成符合条件的学生成绩的读取(最多读取1000次),这样,总的 *** 作次数为 2000 + 100 + 1000 = 3100次。与关系型数据库比较,同样的计算任务,NoSQL数据库的总查询次数仅为前者的1/484,这充分体现了基于列存储的非关系型数据库在处理大规模数据上的优势。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5574244.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-14
下一篇 2022-12-14

发表评论

登录后才能评论

评论列表(0条)

保存