属于web和社交媒体的数据

属于web和社交媒体的数据,第1张

(狭义)大数据是指无法使用传统流程或工具在合理的时间和成本内处理或分析的信息,这些信息将用来帮助企业更智慧地经营和决策。而广义的大数据更是指企业需要处理的海量数据,包括传统数据以及狭义的大数据。(广义)大数据可以分为五个类型:Web 和社交媒体数据、机器对机器(M2M)数据、海量交易数据、生物计量学数据和人工生成的数据。

Web 和社交媒体数据:比如各种微博、博客、社交网站、购物网站中的数据和内容。

M2M 数据:也就是机器对机器的数据,比如 RFID 数据、GPS 数据、智能仪表、监控记录数据以及其他各种传感器、监控器的数据。

海量交易数据:是各种海量的交易记录以及交易相关的半结构化和非结构化数据,比如电信行业的 CDR、3G 上网记录等,金融行业的网上交易记录、core banking 记录、理财记录等,保险行业的各种理赔等。

生物计量学数据:是指和人体识别相关的生物识别信息,如指纹、DNA、虹膜、视网膜、人脸、声音模式、笔迹等。

人工生成的数据:比如各种调查问卷、电子邮件、纸质文件、扫描件、录音和电子病历等。

在各行各业中,随处可见因数量、速度、种类和准确性结合带来的大数据问题,为了更好地利用大数据,大数据治理逐渐提上日程。在传统系统中,数据需要先存储到关系数据库/数据仓库后再进行各种查询和分析,这些数据我们称之为静态数据。而在大数据时代,除了静态数据以外,还有很多数据对实时性要求非常高,需要在采集数据时就进行相应的处理,处理结果存入到关系型数据库/数据仓库、MPP 数据库、Hadoop 平台、各种 NoSQL 数据库等,这些数据我们称之为动态数据。比如高铁机车的关键零部件上装有成百上千的传感器,每时每刻都在生成设备状态信息,企业需要实时收集这些数据并进行分析,当发现设备可能出现问题时及时告警。再比如在电信行业,基于用户通信行为的精准营销、位置营销等,都会实时的采集用户数据并根据业务模型进行相应的营销活动。

大数据治理的核心是为业务提供持续的、可度量的价值。大数据治理人员需要定期与企业高层管理人员进行沟通,保证大数据治理计划可以持续获得支持和帮助。相信随着时间的推移,大数据将成为主流,企业可以从海量的数据中获得更多的价值,而大数据治理的范围和严格程度也将逐步上升。

数据库是一组信息的集合,以便可以方便地访问、管理和更新,常用数据库有:1、关系型数据库;2、分布式数据库;3、云数据库;4、NoSQL数据库;5、面向对象的数据库;6、图形数据库。

计算机数据库通常包含数据记录或文件的聚合,例如销售事务、产品目录和库存以及客户配置文件。

通常,数据库管理器为用户提供了控制读写访问、指定报表生成和分析使用情况的能力。有些数据库提供ACID(原子性、一致性、隔离性和持久性)遵从性,以确保数据的一致性和事务的完整性。

数据库普遍存在于大型主机系统中,但也存在于较小的分布式工作站和中端系统中,如IBM的as /400和个人计算机。

数据库的演变

数据库从1960年代开始发展,从层次数据库和网络数据库开始,到1980年代的面向对象数据库,再到今天的SQL和NoSQL数据库和云数据库。

一种观点认为,数据库可以按照内容类型分类:书目、全文、数字和图像。在计算中,数据库有时根据其组织方法进行分类。有许多不同类型的数据库,从最流行的方法关系数据库到分布式数据库、云数据库或NoSQL数据库。

常用数据库:

1、关系型数据库

关系型数据库是由IBM的E.F. Codd于1970年发明的,它是一个表格数据库,其中定义了数据,因此可以以多种不同的方式对其进行重组和访问。

关系数据库由一组表组成,其中的数据属于预定义的类别。每个表在一个列中至少有一个数据类别,并且每一行对于列中定义的类别都有一个特定的数据实例。

结构化查询语言(SQL)是关系数据库的标准用户和应用程序接口。关系数据库易于扩展,并且可以在原始数据库创建之后添加新的数据类别,而不需要修改所有现有应用程序。

2、分布式数据库

分布式数据库是一种数据库,其中部分数据库存储在多个物理位置,处理在网络中的不同点之间分散或复制。

分布式数据库可以是同构的,也可以是异构的。同构分布式数据库系统中的所有物理位置都具有相同的底层硬件,并运行相同的 *** 作系统和数据库应用程序。异构分布式数据库中的硬件、 *** 作系统或数据库应用程序在每个位置上可能是不同的。

3、云数据库

云数据库是针对虚拟化环境(混合云、公共云或私有云)优化或构建的数据库。云数据库提供了一些好处,比如可以按每次使用支付存储容量和带宽的费用,还可以根据需要提供可伸缩性和高可用性。

云数据库还为企业提供了在软件即服务部署中支持业务应用程序的机会。

4、NoSQL数据库

NoSQL数据库对于大型分布式数据集非常有用。

NoSQL数据库对于关系数据库无法解决的大数据性能问题非常有效。当组织必须分析大量非结构化数据或存储在云中多个虚拟服务器上的数据时,它们是最有效的。

5、面向对象的数据库

使用面向对象编程语言创建的项通常存储在关系数据库中,但是面向对象数据库非常适合于这些项。

面向对象的数据库是围绕对象(而不是 *** 作)和数据(而不是逻辑)组织的。例如,关系数据库中的多媒体记录可以是可定义的数据对象,而不是字母数字值。

6、图形数据库

面向图形的数据库是一种NoSQL数据库,它使用图形理论存储、映射和查询关系。图数据库基本上是节点和边的集合,其中每个节点表示一个实体,每个边表示节点之间的连接。

图形数据库在分析互连方面越来越受欢迎。例如,公司可以使用图形数据库从社交媒体中挖掘关于客户的数据。

访问数据库:DBMS和RDBMS

数据库管理系统(DBMS)是一种允许您定义、 *** 作、检索和管理存储在数据库中的数据的软件。

关系数据库管理系统(RDBMS)是上世纪70年代开发的一种基于关系模型的数据库管理软件,目前仍然是最流行的数据库管理方法。

Microsoft SQL Server、Oracle数据库、IBM DB2和MySQL是企业用户最常用的RDBMS产品。DBMS技术始于20世纪60年代,支持分层数据库,包括IBM的信息管理系统和CA的集成数据库管理系统。一个关系数据库管理系统(RDBMS)是一种数据库管理软件是在20世纪70年代开发的,基于关系模式,仍然是管理数据库的最普遍的方式。

希望能帮助你还请及时采纳谢谢


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9897163.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存