《大数据》读书笔记

《大数据》读书笔记,第1张

《大数据》(徐子沛)

核心观点: 一个真正的信息社会,首先是一个公民社会。

徐子沛和吴军是国内科技界文笔最好的两位大拿,能把复杂的技术发展讲得像故事一样引人入胜。书中讲述了美国信息开放、数据技术创新、数据逐步开放的历史,例举了美国政府如何通过大数据来治国:降低犯罪率、纠正福利滥用、增加财务透明度,并展望了大数据发展的未来,他觉得中国和美国最大的区别就在中国习惯于说“差不多”,不善于用数字管理国家。书中也介绍了大数据中数据仓库、数据挖掘、数据分析、数据可视化等技术的发展,他认为: 数据就是企业的财富和金矿,数据分析和挖掘的能力就是企业的核心竞争力。 阿里网罗了徐子沛和王坚两个大数据和云计算专家,估计在大数据和云计算领域鲜有敌手了。

核心观点: 推崇知识和理性,用数据创新

本书讲述互联网对传统工业 生活的推进,大量数据没有数字化,数据基本都困在一家医院内,电子病历推进也很缓慢,通过数据的流通让患者享受更便捷、更安全的服务基本只限制在思考层,这里面有方方面面的各种利益、法规的原因,这就像书中说的“也许是由于其本身的根深蒂固。作者认为 iPhone、云计算、3D打印、基因测序、无线传感器、超级计算机,这些改变了我们生活的事物,将再一次地融合在一起,对医学进行一次“创造性破坏” ,我觉得新技术的应用比新规则的创立在国内还是相对简单,而也能解决医疗资源不足的痛点,把像IBM沃森这样的智能作为医疗的辅助判断,提升医疗的效率和准确率还是前景明朗的。但要说像书中说的“旧的体系完全不复存在,新的体系随之取代...在这超级融合之下,权力再次交回到我们自己手中,而只有我们自己,。我想这还有很远的路要走,与生命有关的事物,一定是慎之又慎的;与体系有关的事情,改变一定是难上加难的。

所以 崇正说他们阿里都是看数据做事情,不是臆想做事情。因为在这个高速发展的时代,数据都是流动。他们都是落实到行动,分析数据,应用数据,依靠数据。

数据 是一种表示方法,它代表的是除自身以外的事物(Chisholm,2010)。数据既是对其所代表对象的解释,也是必须解释的对象(Sebastian Coleman, 2013)。

数据: 信息的原材料。

信息: 在上下文语境中的数据。

举例:“这是上季度的销售报告”(信息)。它基于数据仓库中的数据(数据)。下一季度,这些结果(数据)将用于生成季度绩效指标(信息)。

组织内部在数据和信息之间画一条线,可能有助于清晰地沟通不同利益相关方对不同用途的需求和期望。认识到要为不同的目的准备数据和信息,将使数据管理形成一个核心原则:数据和信息都需要被管理如果再将两者的使用和客户的需求结合在一起进行管理,则两者应具有更高的质量。

数据驱动是指使用事件触发和应用分析来获得可 *** 作的洞察力;同时要认识到必须通过业务领导和技术专业知识的合作关系,以专业的规则高效地管理数据。 *

数据管理也必须平衡战略和运营需求。这种平衡最好是遵循一套原则,根据数据管理的特征来指导数据管理实践。

数据价值: 是上下文相关的(对一个组织有价值的东西可能对另一个组织没有价值),而且往往是暂时的(昨天有价值的东西今天可能没有价值)。

在数据管理方面, ,因为组织需要从财务角度了解资产,以便做出一致的决策。

数据质量:

低质量数据的成本主要来源于: 1)报废和返工。2)解决方法和隐藏的纠正过程。3)组织效率低下或生产力低下。4)组织冲突。5)工作满意度低。6)客户不满意。7)机会成本,包括无法创新。8)合规成本或罚款。9)声誉成本。

高质量数据的作用包括: 1)改善客户体验。2)提高生产力。3)降低风险。4)快速响应商机。5)增加收入。6)洞察客户、产品、流程和商机,获得竞争优势。

元数据 描述了一个组织拥有什么数据,它代表什么、如何被分类、它来自哪里、在组织之内如何移动、如何在使用中演进、谁可以使用它以及是否为高质量数据。

在数据生命周期中,不同阶段由不同团队进行不同的管理。数据管理需要系统规划的设计技能、管理硬件和构建软件的高技术技能、利用数据分析理解问题和解释数据的技能、通过定义和模型达成共识的语言技能以及发现客户服务商机和实现目标的战略思维。

数据生命周期: 包括创建或获取、移动、转换和存储数据并使其得以维护和共享的过程,使用数据的过程,以及处理数据的过程。 见下图1-2。

数据管理对数据生命周期的关注有几个重要影响: 1 是数据生命周期中的 2 必须贯穿整个数据生命周期3 必须贯穿整个数据生命周期4 数据管理还包括 ,并 。5 数据管理工作应聚集于 ,将数据ROT(冗余的Redundant、过时的Obsolete、碎片化的Trivial)降至最低。

数据分类: 按数据类型分类(例如划分为交易数据、参考数据、主数据、元数据,)或者类别数据、源头数据、事件数据、详细交易数据;也可以按数据内容(如数据域、主题区域)、数据所需的格式或保护级别、存储或访问的方式和位置进行分类。

** 数据管理需要:** 设计技能、高技术技能、理解问题和解释数据的技能、语言技能、战略思维。

数据战略: 应该包括使用信息以获得竞争优势和支持企业目标的业务计划。数据战略必须来自对业务战略固有数据需求的理解:

数据管理战略的组成应包括: 1)令人信服的数据管理愿景。2)数据管理的商业案例总结。3)指导原则、价值观和管理观点。4)数据管理的使命和长期目标。5)数据管理成功的建议措施。6)符合 SMART 原则(具体、可衡量、可 *** 作、现实、有时间限制)的短期(12~24 个月)数据管理计划目标。7)对数据管理角色和组织的描述,以及对其职责和决策权的总结。8)数据管理程序组件和初始化任务。9)具体明确范围的优先工作计划。10)一份包含项目和行动任务的实施路线图草案。

数据管理战略规划的可交付成果包括: 1) ==数据管理章程==:总体愿景、业务案例、目标、指导原则、成功衡量标准、关键成功因素、可识别的风险、运营模式等。2)==数据管理范围声明==。 规划目的和目标(通常为 3 年),以及负责实现这些目标的角色、组织和领导。 3)==数据管理实施路线图==。确定特定计划、项目、任务分配和交付里程碑。

战略一致性模型(SAM): 它抽象了各种数据管理方式的基本驱动因素,模型的中心是数

据和信息之间的关系。 见下图1-3

阿姆斯特丹信息模型(AIM): 与战略一致性模型一样,它抽象出一个关注结构(包括规划和

架构)和策略的中间层。见下图1-4

DAMA车轮图: 定义了数据管理知识领域。它将数据治理放在数据管理活动的中心,因为治理是实现功能内部一致性和功能之间平衡所必需的。其他知识领域(数据体系结构、数据建模等)围绕车轮平衡。见下图1-5

环境因素六边形图: 显示了人、过程和技术之间的关系,是理解 DMBOK 语境关系图的关键。见下图1-6

知识领域语境关系图: 描述了知识领域的细节,包括与人员、流程和技术相关的细节。数据治理 活动通过战略、原则、制度和管理提供监督和遏制。通过数据分类和数据估值实现一致性。图1-17

生命周期管理活动源于 主数据使用、文件和内容管理、商务智能、数据科学、预测分析、数据可视化。许多情况下都会基于现有数据进行增强性的开发,获取更多洞察,产生更多的数据和信息。数据货币化的机会可以确定源于数据的使用。

数据治理项目 通过制定战略和支持原则、制度和管理实践,使组织能够以数据为驱动力,确保组织认识到并利用从其数据 中获得价值的机会。

图1-1 数据管理原则

图1-2 数据生命周期关键活动

图1-3 战略一致模型

图1-4 阿姆斯特丹信息模型

图1-5 DAMA车轮图

图1-6 环境因素六边形图

图1-17 知识领域语境关系图

图1-8 DMBOK金字塔

图1-9 DAMA功能领域依赖关系图

图1-10 DAMA数据管理功能框架

主要目的是记录ETL流水线过程中所有质量单元出现的错误时间。也可用于其他应用之间传输数据的集成应用中。

如图:

错误事件事实表:

    主表。包含错误日历日期,错误产生的批处理作业以及产生错误的单元模块。

    每个错误在表中用一行表示。

    包含一个单列的主键,作为错误时间的键。

批处理维度:

    可以泛华为针对数据流的处理步骤,而不仅仅是针对批处理。

错误事件细节事实表:

    每行确定与错误有关的某个特定记录的个体字段。因此某个高级别的错误事件事实表中的一行激活的复杂结构或业务规则对应错误细节事实表中的多行。

审计维度用于后端装配ETL系统的每个事实表。

在货运事实表将按照批处理文件每天更新一次,假设一天的工作顺利进行没有产生错误标记,此时将建立唯一的一行审计维度,将被附加到今天所加载的所有事实行。所有的分类,分数,版本号都将相同

假设出现异常情况,则需要不止一个审计维度行用于标记这一情况。

重复数据删除:需要考虑保留那些数据

匹配和数据保留:按照来自所有可能源系统的列值并且清楚的定义了优先顺序的业务规则,用于确保每个存在的行具有最佳的保留属性。

一致性处理包含所有需要调整维度中的一些或者所有列的内容以与数据仓库中其他相同或者类似的维度保持一致的步骤。

建立一致性维度的过程需要采用敏捷方法,对两个需要一致性处理的维度,他们必须至少有一个具有相同名称和内容的公共属性。

数据仓库-概述-读书笔记一

数据仓库-DW/BI架构对比-读书笔记二

数据仓库-事实表/维度表技术-读书笔记三

维度处理-数据仓库-读书笔记(四)

数据仓库-高级事实表技术-读书笔记五

数据仓库-高级维度表技术-读书笔记六

数据仓库,零售业务举例,维度模型设计4步骤,读书笔记(七)

数据仓库-零售业务举例维度表设计细节-读书笔记(八)

数据仓库-零售业务举例如何提高仓库扩展能力-读书笔记(九)

数据仓库-零售业务中库存如何设计-读书笔记(十)

如何使用缓慢变化维技术

数据仓库-订单管理应该注意那些

ETL中前期数据分析、变化数据探测,数据获取 注意事项

数据仓库基础概念分享

数据仓库工具箱

如果您觉得我用心了,觉得您有所收获,麻烦关注下我吧,您的关注就是我的动力,因为有你,我就不是一个人在前行。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9506091.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存