星环大数据平台支持时序数据库吗

星环大数据平台支持时序数据库吗,第1张

是的,星环大数据平台支持时序数据库。星环大数据平台支持多种时序数据库,包括InfluxDB、OpenTSDB、Prometheus等。它们都支持高性能的时序数据存储和查询,可以满足企业对时序数据的需求。

阿里云数据库 InfluxDB® 版已于近日正式启动商业化 。 云数据库 InfluxDB® 是基于当前最流行的开源数据库 InfluxDB 提供的在线数据库服务,相比较开源具有免运维,稳定可靠,可d性伸缩的优势,广泛应用于互联网基础资源监控,容器监控,业务运营监控分析,物联网设备远程实时监控,工业安全生产监控,生产质量评估和故障回溯。提供时序数据自动化采集,压缩存储,类SQL查询,多维聚合计算和数据可视化分析能力。点击关注,InfluxDB 商业化活动

时序数据和企业业务密切相关,不可或缺。任何一家企业都需要一套高效的运维系统保证实时发现应用和业务问题,通过监控,故障告警的手段,进行故障定位,保证在线业务的稳定,减少不可用时常。业务运营人员依赖运营系统,保证有充足的数据进行业务分析判断,便于更准确的做出业务决策。物联网企业和工业企业都需要能够实时掌握设备的运行状态,对生产过程进行监控,实时判故障预警,故障定位,故障回溯以及业务。以上业务场景都需要时序数据作为“数据证据”来表示指标“变化”过程,进而达到告警,诊断,修复和预测的业务目的。

时序数据很简单,构成具有三个要素,主体,时间戳,和指标数据。比如: xxx公司(主体)2019年8月26日上午10时,11时, 12时(时间戳)的股价分别是:160 USD,165 USD,180 USD(指标值)。概括来说,区别于关系数据库关心的是“最终结果”。时序数据表示的是资产或者过程是如何随着时间变化的,体现的是“变化”的过程价值。

时序数据主要应用在:运维监控,运营分析,设备监控,BI分析,工业安全生产监控场景。这些场景上,产生的核心数据是时序数据,业务特征表现在 写多读少 ,无事务性要求,数据分析强关联时间维度,且实时性要求高。

时序数据库针对时序数据业务特征进行针对性的数据存储结构设计,以及存储方式的优化,在监控等时序业务场景下数据的写入,读取,分析能力相比较传统的关系型数据库如 MySQL ,具有百倍的性能提升。

从数据存储架构上看,关系数据库通常按照行来记录一条时间记录数据,且顺序记录之间无主体关联性,单个主体的记录数据随机分散在多行,如果是分布式数据库甚至分布在多个分分库上,记录之间也没有时间顺序组织数据,连续时间戳的数据,分散在不连续的存储上,这样就造成按照主体和时间维度的数据写入和存储的效率大大降低。

而时序数据库按照主体为维度进行数据存储和索引,完全按照业务使用场景组织数据,相同主体指标数据组织在一起,并且按照时间为度进行分片存储,只需要获取主体信息和时间分片信息就可以顺序进行写入和读取 *** 作。单次IO请求磁盘寻道的时间和获取数据量比关系数据库寻道的效率和获取数据量都要高,查询的时间区间越大,查询主体越多,数据越多,效率差异越大,整体性能比关系数据库要高出十倍甚至百倍。

云InfluxDB® 相比较开源InfluxDB 优势明显。 云InfluxDB 提供云服务的方式,有行业顶级的专家支持服务,具有 免安装,免运维,稳定性高,数据高可靠的优势。使用云存储的方案,数据多副本存储,数据可靠性达到999999% 。

自建快速迁移上云

云 InfluxDB 提供了快速迁云的工具,只需动动鼠标就可以完成自建InfluxDB 到 云 InfluxDB 的迁移。

类SQL 开发友好,快速上手

阿里云 InfluxDB 完全兼容开源 InfluxDB ,面向开发友好, 为了方便传统关系数据库开发者能够快速适应Influx DB开发, 提供给了类 SQL的查询语言 InfluxQL,在提供强大的时序分析能力的基础上,最大程度的沿用了SQL的开发模式,使得学习成本大大降低。

集成数据采集,搭建监控更简单

阿里云数据库 InfluxDB 继承了 Influx DB 良好的开源生态,具有完整的数据采集,存储和数据可视化监控告警体系 TICK Stack 支撑。 同时相比较开源产品,提供了产品化的数据采集服务,只需在控制台进行几步简单 *** 作,“0” 代码完成各类监控源的监控数据自动采集。

云InfluxDB® 金融高可用版即将推出

服务的高可靠和数据一致性对金融类企业至关重要,开源的InfluxDB 没有提供高可靠的HA 版本,阿里云InfluxDB 针对金融,保险,银行,涉及数据和服务高可靠的研发了 HA高可用版本, 目前正在商业化上线的过程中,不久就可上线提供服务。

云InfluxDB® 商业化限时优惠

ETLETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程

它是构建数据仓库的重要环节

数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程

数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等

即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(garbagein,garbageout),系统根本就不可能为决策分析系统提供任何支持

为了清除噪声数据,必须在数据库系统中进行数据清洗

目前有不少数据清洗研究和ETL研究,但是如何在ETL过程中进行有效的数据清洗并使这个过程可视化,此方面研究不多

联机事务处理OLTP联机分析处理(OLAP)的概念最早是由关系数据库之父E

F

Codd于1993年提出的,他同时提出了关于OLAP的12条准则

OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理(OLTP)明显区分开来

当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-linetransactionprocessing)、联机分析处理OLAP(On-LineAnalyticalProcessing)

OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易

OLAP是数据仓库系统的主要应用,支持复杂的分析 *** 作,侧重决策支持,并且提供直观易懂的查询结果

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术

数据仓库的特点:

数据仓库是面向主题的; *** 作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个 *** 作型信息系统相关。

数据仓库是集成的,数据仓库的数据有来自于分散的 *** 作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库; 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 数据仓库的数据主要供企业决策分析之用,所涉及的数据 *** 作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询 *** 作,但修改和删除 *** 作很少,通常只需要定期的加载、刷新。 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的 *** 作主要是数据的查询;

数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。

汇总的。 *** 作性数据映射成决策可用的格式。

大容量。时间序列数据集合通常都非常大。

非规范化的。Dw数据可以是而且经常是冗余的。

元数据。将描述数据的数据保存起来。

数据源。数据来自内部的和外部的非集成 *** 作系统。

可以参考这篇文章:数据仓库(1)什么是数据仓库 - 知乎 (zhihucom)

了解了数据整合,那么你们应该更加想知道如何进行数据整合,进而推动信息化建设。

数据在整合的过程中,需要经过多个步骤的处理,才能符合数据规范和公司的需求,达到数据整合的目标,各数据处理的步骤如下:

步骤一数据抽取:数据抽取是数据整合的第一步,即选择并提取数据源集中的一个特定子集的处理过程。依靠数据抽取,可以准确地从大批量数据中仅复制相关的数据。

步骤二数据传送:数据传送是紧接数据抽取的第二步,即将抽取到的特定数据子集发送到目的位置的处理过程。依靠数据传送,可自动保持数据的流通和共享。

步骤三数据清洗:对直接传送来的数据,在数据格式、数据编码、数据一致性等方面按照清洗规则进行处理。依靠数据清洗,可以保障中心数据库中数据的规范性。

步骤四数据重组:将清洗后的数据,按照新的数据组织逻辑进行关联处理,加强数据的内在联系。

步骤五数据发布:按照主题数据库层需要,将中心数据库中部分数据子集定期发布到主题数据库层。依靠数据发布,可以保障主题数据库层数据的及时更新。

步骤六服务重组:根据主题数据库中的数据,通过开放各类数据服务,提供面向各类应用的主题数据服务,以此加强数据的重利用。

步骤七数据展示:数据展示通常用报表或图形的表达方式来表示数据之间的关系,使使用者能快速直接的了解到数据变动情况。

经过以上的数据整合,那么你就可以获得以下数据整合优势。

数据整合优势一:

底层数据结构的透明 ,为数据访问(消费应用)提供了统一的接口,消费应用无需知道:数据在哪里保存;源数据库支持那种方式的访问;数据的物理结构;网络协议等。

数据整合优势二:

提供真正的单一数据视图 ,数据视图data view这个概念大家很容易理解,数据整合(Data Consolidation)的优势是经过了数据校验和数据清理,你看到的数据更加真实,准确,可靠。

数据整合优势三:

数据管控能力加强

管控是SOA里面重要的概念。数据整合(Data Consolidation)的优势是数据规则可以在数据加载,转换中实施,保证了数据管控。

数据整合优势四:

可重用性好 ,由于有了实际的物理存储,数据可以为各种应用提供可重用的数据视图,而不用担心底层实际的数据源的可用性。

方法:复制,   =你要的数据位置     ,   筛选, 透视表格。  VBA,   查找。

公式,函数,以上方法,足够你玩了。

关系数据库

编辑

实际应用中,数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式。

全量抽取

全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。

增量抽取

增量抽取指抽取自上次抽取以来数据库中要抽取的表中新增、修改、删除的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据准确地捕获到;性能,尽量减少对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有:

a触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据。触发器方式的优点是数据抽取的性能较高,缺点是要求在业务数据库中建立触发器,对业务系统有一定的性能影响。

b时间戳:它是一种基于递增数据比较的增量数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳 *** 作。另外,无法捕获对时间戳以前数据的delete和update *** 作,在数据准确性上受到了一定的限制。

c全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源系统的倾入性较小(仅需要建立一个MD5临时表),但缺点也是显而易见的,与触发器和时间戳方式中的主动通知不同,MD5方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,MD5方式的准确性较差。

d日志对比:通过分析数据库自身的日志来判断变化的数据。Oracle的改变数据捕获(CDC,Changed Data Capture)技术是这方面的代表。CDC 特性是在Oracle9i数据库中引入的。CDC能够帮助你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进行insert、update或 delete等 *** 作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,CDC系统拥有一个发布者和多个订阅者。发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。订阅者需要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。CDC分为同步模式和异步模式,同步模式实时的捕获变化数据并存储到变化表中,发布者与订阅都位于同一数据库中。异步模式则是基于Oracle的流复制技术。

非关系数据库

编辑

ETL处理的数据源除了关系数据库外,还可能是文件,例如txt文件、excel文件、xml文件等。对文件数据的抽取一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的MD5校验码,下次抽取时进行比对,如果相同则可忽略本次抽取。

通用程序库

编辑

DMCTextFilter 是HYFsoft开发的纯文本抽出通用程序库,本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。

DMCTextFilter采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种 *** 作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。

1 文件格式自动识别功能

本产品通过解析文件内部的信息,自动识别生成文件的应用程序名和其版本号,不依赖于文件的扩展名,能够正确识别文件格式和相应的版本信息。可以识别的文件格式如下: 支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式

2 文本抽出功能

即使系统中没有安装作成文件的应用程序,可以从指定的文件或插入到文件中的OLE中抽出文本数据。

3 文件属性抽出功能

从指定的文件中,抽出文件属性信息。

4 页抽出功能

从文件中,抽出指定页中文本数据。

5 对加密的PDF文件文本抽出功能

从设有打开文档口令密码的PDF文件中抽出文本数据。

6 流(Stream)抽出功能

从指定的文件、或是嵌入到文件中的OLE对象中向流里抽取文本数据。

7 支持的语言种类

本产品支持以下语言:英语,中文简体,中文繁体,日本语,韩国语

8 支持的字符集合的种类

抽出文本时,可以指定以下的字符集合作为文本文件的字符集(也可指定任意特殊字符集,但需要另行定制开发):GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。 [1]

参考资料

数据可以说是每个行业发展和变革的必要元素,它渗透在各个领域中,而我们一直使用传统数据库来协助存储和组织这些数据。随着云时代的发展,催生了各种对云数据库的新需求,越来越多人意识到采用传统数据库已经无法满足原有的使用场景,需要选择适合使用的新型数据库。今天小编来给大家科普一下,数据库有哪几种类型。

一般来说,数据库分为两大类:关系型数据库和非关系型数据库。

关系型数据库(SQL)

对数据的 *** 作几乎建立在一个或多个关系表格上,通过关联的表格进行分类、合并、连接或选取等运算来实现数据的管理,目前主流的关系型数据库有:MySQL、OracleL、SQL Server等…

关系型数据库是目前使用最广泛的类型,以行和列的形式存储数据,方便用户理解和 *** 作。同一系列的行和列被称为表,一组表便能组成数据库。

非关系型数据库(NoSQL)

数据的类型多种多样,由于关系型数据库并不适用于所有数据,因此在不同类型的数据处理上,出现了其他更符合使用需求的非关系型数据库。常见的非关系数据库有键值数据库、列存储数据库、文档数据库、图数据库等…

1、键值型数据库

键值数据库就是一个很大的哈希表,存储的值可以通过键或者部分键高效地检索到,常应用在内容缓存、购物订单的场景中。例如:客户张某的订单存储在键值数据库中,可以使用客户的ID作为前缀,结合订单编号组成键来存储订单;也可以通过检索客户ID来查找张某的所有订单。

2、文档型数据库

文档型数据库可以看做是键值数据库的升级版,以文档形式存储数据,相互之间不存在关联关系,多应用于日志系统、网站/博客平台。

3、图数据库

图数据库就是一种存储图形关系的数据库,其中图模型由两个要素组成:节点和边,每个节点代表一个实体,每条边代表两个节点之间的连接,常应用于社交网络和搜索引擎。

4、时序数据库

时序数据库就是存放时序数据的数据库。先介绍一下时序数据,即按照时间顺序记录系统、设备状态变化的数据,一般存在于IT设施、运维监控系统之中。相比传统数据库只能记录数据的当前值,时序数据库可以记录所有的历史数据。

以上就是不同类型的数据库介绍和所提供的服务,希望能帮助大家更好的理解数据库,选择一款适合需求场景的数据库产品。

以上就是关于星环大数据平台支持时序数据库吗全部的内容,包括:星环大数据平台支持时序数据库吗、再不懂时序就OUT啦!阿里云数据库InfluxDB正式商业化、数据库:什么是BI,ETL和OLAP(数据仓库和etl的区别)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9718750.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存