详细数据分析步骤（一）-数据获取_工具

数据分析师如今风靡全网，那么什么是数据分析呢？此合集将会对数据分析的框架做一个细致解析并推荐相关文章以便入门学习。

一、数据获取

现如今大数据时代已经到来，企业需要数据来分析用户行为、自己产品的不足之处以及竞争对手的信息等，而这一切的首要条件就是数据的采集。常用的数据获取手段有数据仓库和 *** 作日志，监测与爬取（即爬虫），填写、埋点和计算

1、数据仓库和 *** 作日志

数据仓库（Data Warehouse，DW）长期储存在计算机内，有组织、可共享的数据集合，是为决策支持系统提供基础数据的分析型数据库。

数据仓库有几个定义特征，即：

推荐阅读：一、数据仓库 - 架构艺术 - 博客园

日志和数据仓库具有相同的作用，但相比之下日志的记录比数据仓库精简，且在出现故障时更容易定位问题。

2监测与爬取

爬虫是指：通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种。

通用爬虫是捜索引擎抓取系统（Baidu、Google等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，再对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。

聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

推荐阅读：爬虫（爬虫原理与数据抓取） - lclc - 博客园

爬虫 - Z-J-H - 博客园

3填写、埋点

这两个都是对用户行为进行记录。

填写是指用户在注册时填写信息或者对相关问卷进行填写。通过问卷调查、抽样调查获取的数据是有限的，并且有时也不能够保证真实性。

埋点主要指 APP或网页埋点，跟踪app或网页被使用情况，以便优化。通常记录访客、页面查看、跳出率等等页面统计和 *** 作行为）。直接记录用户与网络产品的交互过程，几乎可以复现，从而获得用户的行为模式，购买记录、搜索习惯等。这些数据都是用户自己产生的，可以保证数据的真实性。

推荐阅读：6大步骤：快速学会如何进行数据埋点

4计算

很多数据无法直接获取，需要通过已有数据计算得到。例如企业的投入产出比。

最后，需要强调的是进行数据分析的数据必须真实、准确且具有时效性。数据获取后使用个人信息要遵守以下5大原则：

（1）合法、公开原则。

（2）目的限制原则。

（3）最小数据原则。

（4）数据安全原则。

（5）限期存储原则。

下一篇文章将会对数据分析中的数据预处理做一个简单梳理

在过去的几年ClickHouse一直在快速的增长，也受到大量开发者的认可，但长久以来，并没有特别趁手的工具产品来访问和管理，所以，在完成MySQL支持之后，NineData选择优先支持ClickHouse。本文将介绍，如何使用NineData帮助开发者，通过GUI的方式访问和管理ClickHouse数据库。

ClickHouse简介

ClickHouse凭借着其出色的分析查询性能，尤其是在日志处理上的优势，非常有效的解决了关系型数据库在海量数据场景下的分析查询短板问题。其语法与使用习惯也与当下最流行的数据库MySQL类似，迭代速度和对社区的响应也非常快，在过去的几年，ClickHouse收到大量开发者的认可。经过几年社区快速增长之后，在2021年ClickHouse Inc的成立也让该分析型数据库进入了开源与商业化一起发展的阶段。从目前的数据来看，未来ClickHouse还将是快速增长的分析型数据库之一。

使用NineData访问ClickHouse

整个使用过程也较为简单。首先，需要在NineData数据源页面创建ClickHouse数据源。需要注意的是：

NineData使用>

如果使用了SSL加密（ClickHouse Cloud的强制要求），则需要打开下面SSL加密选项（如果没有开启SSL加密，则无需打开该选项）

"接入地域"可以选择一个尽可能离服务器近一些的地域，可以适当增加访问速度

使用NineData访问ClickHouse

在填好连接信息之后，可以点击“连接测试”按钮，验证是否可以正常访问ClickHouse，如果信息都正确的话，则会提示上图右上角的“连接成功”信息。在完成数据源配置之后，就可以通过SQL窗口功能访问该数据源了。

NIneData正常访问ClickHouse

使用导航树查看数据库内部的对象

下图即为NineData所提供的ClickHouse导航对象树。较详细的展示了ClickHouse数据库内部的对象，除了常见的表对象外，NineData还提供了视图、字典、ROW POLICY等数据库对象，在服务器层面，则支持了用户、角色、QUOTA、自定义函数等对象的展示。相比于同类的产品，例如，Arctype、DBeaver、DataGrip、阿里云DMS、ClickHouse自己提供的local play等（注：目前最新的Navicat Premium 16版本还不支持ClickHouse），NineData支持是最完整，最细致的。另外，NineData导航树还支持表对象的搜索功能，可以帮助开发者方便的搜索到关注的数据表。

NineData所提供的ClickHouse导航对象树

导航树功能对比：NineData VS 其他

NineData的导航树提供了丰富而完整的数据库对象，对比常用的数据库GUI工具，NineData支持更加完整，体验更加友好。具体的对比如下：

NineData的导航树提供了丰富而完整的数

导航树功能对比：NineData VS 其他

说明：

Arctype是一个小型的数据库管理工具，前一段时间刚刚加入了ClickHouse Inc并不再更新原来的产品

local play是指ClickHouse自带的数据管理工具

DataGrid则是有JetBrains提供的数据库管理工具

DBeaver是一个第三方的开源数据库访问工具

DMS是阿里云数据库的一站式数据管理平台

智能的SQL补全提升效率

NineData提供了强大的SQL提示、补全功能，可以最大程度的帮助开发者更叫高效的完成SQL编写。例如，在如下的截图案例中，左图中，NineData会根据光标的位置和语法结构识别出，这里需要填写数据表名/视图名，则优先推荐该类对象。在右图中，NineData则通过语法结构，对象别名等信息，准确的推荐最可能匹配的列信息。

NineData提供了强大的SQL提示、补全

使用NineData保存常用的SQL

通常，对于运营人员来说，需要经常关注线上的业务数据；对于开发人员也需要经常关注线上系统的运行数据情况。NineData则可以通过“保存 SQL”功能，在线保存这些经常需要使用的SQL，用以完成一些常用数据库数据查询。

另外，NineData还支持全量的SQL运行历史保存，一方面用户可以使用该功能追溯实际行了哪些功能；也可以使用该功能，在历史SQL中找出常用的SQL。

小结

通过这篇介绍，可以看到如何使用NineData快速简单的访问与管理ClickHouse实例。

另外，NineData除了可以支持以GUI的方式访问和管理ClickHouse之外，NineData还支持MySQL到ClickHouse的数据迁移/同步/复制功能，相比ClickHouse内置的集成引擎，NineData很好的解决了上游MySQL DDL变更时的链路稳定性以及复制时对象映射等问题，可以帮助用户高性能、高效率、高稳定性的完成从MySQL到ClickHouse的数据复制。

ggbase用法如下，可以通过其数据系统进行数据分析，并且GgBase非常强大，8a是国内首个基于列存的新型分析型数据库，8a Cluster是国内首个分布式并行数据库集群，8t是国内首个与世界先进技术接轨的国产事务型通用数据库系统，可以进行强大的计算力。GBase 是南大通用数据技术有限公司推出的自主品牌的数据库产品，在国内数据库市场具有较高的品牌知名度。

使用ggbase的首先需要打开ROUTINES表因为该表提供了关于存储子程序(存储程序和函数)的信息，所以需要与之相对于，启动电脑ggbase的运行。

此时ROUTINES表不包含自定义函数UDF名为mysqlproc name的列指明了对应INFORMATION_SCHEMAROUTINES表的mysqlproc表列，然后便能开始运行ggbase。

然后打开TABLES表提供了关于数据库中的表的信息包括视图详细表述了某个表属于哪个schema，表类型，表引擎，创建时间等信息，这是数据统计的关键软件，同时也是数据分析的关键，同时是show tables from schemaname的结果取之此表。

本月，阿里云在北京举办了 “2022 年阿里云数据存储生态发布会”，偶数科技作为目前国内云原生数据仓库技术领域的开拓者受邀参加了本次大会。

偶数科技首席架构师陶征霖作为演讲嘉宾，在会上与行技术仁共同回顾了分析型数据库的演进历程，以及目前偶数科技在 湖仓一体 方面的前沿理念和实践。

对此，陶征霖在会上重点介绍了湖仓一体 ANCHOR 六大特性： 实时 T+0、一份数据、超高并发、数据一致性、云原生、多类型数据支持 。通过 OushuDB 最新版本和架构的加持，偶数湖仓一体方案将在云设施上帮助客户发挥数据价值。

为什么“湖”+“仓”的分体模式不是最佳选择

随着近年来Hadoop 大数据平台建设逐步推广，企业开始尝试将 Hadoop 用于一些非核心场景，但 Hadoop 性能和并发支持有限，而且事务支持弱，交付、运维成本高，无法替代核心数仓，基本只能作为“数据湖”。为了满足用户在性能、事务等方面的要求，很多企业开始考虑数据湖和数据仓库互补的方式。在构建数据湖的同时，也使用MPP，湖仓各自独立部署，数据通过ETL的方式打通。

这就是业内常说的 Hadoop+MPP 的"湖仓分体"模式。

尽管这种模式能够让湖和仓有很好的技术特性互补，但同时它也会产生经常让企业感到困惑的严重问题，包括：

这些常见的状况更让从业者头疼不已。要解决这些问题，必须实现数据和查询层面形成一体化架构，彻底摆脱大数据平台遇到的这些瓶颈，这样可以大大降低 IT 运维成本和数据管理的技术门槛。

OushuDB存算分离的湖仓一体模式有何不同

那么，基于OushuDB存算分离的湖仓一体模式与Hadoop+MPP 的"湖仓分体"模式有何不同呢？

偶数科技研发的全球最快的新一代分析型数据库引擎OushuDB创新性的采用了存算分离的云原生架构。作为一个崭新的数据平台架构，存算分离架构可以保证存储和计算可以独立的d性扩展和伸缩。

而传统 MPP 和 Hadoop 都不适应这样的要求：

另外，为了同时满足实时流处理、实时按需分析和离线分析需求，偶数科技独创性的探索出了Omega全实时数据处理架构，相比于传统的Kappa架构、Lambda架构优势明显。

可以说，OushuDB基本解决了"湖仓分体"的技术瓶颈，技术优势相当显眼：

湖仓选型，ANCHOR先行

偶数科技认为，要真正的解决业务的痛点，选择企业适合的湖仓产品，我们可以按照前面提到的ANCHOR 标准来选型。ANCHOR 的6个首字母分别代表六大特性：

行业的认可与偶数的持续突破创新

自偶数科技诞生以来，偶数科技的产品和解决方案也已在非银金融、电信、政府、能源、制造和互联网等行业中被广泛的部署和应用，帮助多个行业中的企业小步快跑，进行数智化转型。同时，作为在数据库领域的领先创业，其商业模式的可行性与成长性也得到了资本的认可，连续获得了国内顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资。

在大数据的常见客户行业中，银行业是对应用的自主可控、高可用、高可靠性的要求最高的领域之一，偶数科技解决方案在银行业的落地正是其技术实力和对用户痛点理解力的明证。早在2020年，偶数科技就与建设银行成立了高性能大数据联合实验室，共同探索湖仓一体化的实施路径。经过持续的技术探讨与应用验证，二者合作开发的基于云原生数据库技术的全实时湖仓一体方案，采用了一套技术栈、统一存储进行湖仓双重能力建设，已具备极速性能、d性伸缩、计算资源按需分配、全量数据单一存储、无须频繁导数、混合负载等相关能力，能够充分建设银行及其客户的实时应用场景，帮助建行提升了实时需求响应性能、增强了系统d性，同时节约运维成本。

近期，偶数科技正式入选国家级专精特新（专业化、精细化、特色化、新颖化）“小巨人”企业名单。作为助力国家突破关键技术领域“卡脖子”难题的初创企业，偶数科技在数据库国产化、技术自主安全上的努力正在被逐步验证、得到国家层面的肯定。

随着未来物联网、工业互联网的逐步建立，大数据领域将面临越来越广的数据来源、越来越大的数据量、越来越多的非结构化数据、越来越丰富的应用场景和越来越复杂的技术栈，大数据处理和分析的难度将进一步提升。从上世纪60年代的数据库，到数据仓库、数据湖，到现在的湖仓一体，新产品总是在性能、功能上去解决以前从业者在业务上的痛点，我们可以说湖仓一体是数据库发展到云原生时代的必然产物。

通过虚拟计算集群技术在数十万节点的超大规模集群上实现高并发，保障事务支持，提供实时能力，一份数据再无数据孤岛，新一代湖仓一体架构将是未来的发展趋势。偶数科技作为湖仓一体化领域的领导者，也将持续优化技术，为用户带来更高性能、更稳健的解决方案，支撑更多行业用户将数据转化为生产力。

Doris 最早是解决百度凤巢统计报表的专用系统，随着百度业务的飞速发展对系统进行了多次迭代，逐渐承担起百度内部业务的统计报表和多维分析需求。2013 年，百度把 Doris 进行了 MPP 框架的升级，并将新系统命名为 Palo。2017 年以百度 Palo 的名字在 GitHub 上进行了开源。2018 年贡献给 Apache 基金会时，由于与国外数据库厂商重名，因此选择用回最初的名字，这就是 Apache Doris 的由来。

Apache Doris是一个现代化的MPP分析型数据库产品，仅需亚秒级响应时间即可获得查询结果，有效地支持实时数据分析 。Apache Doris的分布式架构非常简洁，易于运维，并且可以支持10PB以上的超大数据集。

Apache Doris可以满足多种数据分析需求，例如固定历史报表，实时数据分析，交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效！

Doris 的定位是面向在线报表和分析的数据仓库系统，可以对标于商业的MPP 数据仓库系统，比如Greenplum、Vertica、Teradata 等。

Apache Doris可以满足企业级用户的多种分析需求，包括OLAP多维分析，定制报表，实时数据分析，Ad-hoc数据分析等。

具体的业务场景包括：

《Apache Doris 轻松入门和快速实践》技术专栏包括Apache Doris架构介绍、环境搭建、入门 *** 作实例和演示项目源代码。技术专栏从实战出发，通过基础介绍入门-环境搭建-项目实践，让初学者快速掌握Apache Doris分析型OLAP数据库开源产品。其中示例项目KFD演示通过Flink处理Kafka中的消息记录，处理之后的数据再写入到Kafka和Elasticsearch中，最后以Routine Load方式再将处理好的数据导入到Doris中。

技术专栏主要包含如下内容：

上期分享中，我们介绍优炫数据库支持的数据存储方式。

戳： 干货分享优炫数据库支持多业务场景

本期，我们来讲讲优炫数据库支持的多种数据类型。

基本数据类型存储与管理

优炫数据库拥有完备的数据类型，内置数据类型包括 数字类型、货币类型、字符类型、日期/时间类型、布尔类型、枚举类型、网络地址类型、位串类型、文本搜索类型等, 支持使用 serial 类型创建表自增列。

通常为了加快指定过滤条件下从表中查询数据的速度，可以为表的某个字段或某几个字段建立索引。数据库对基本数据提供多种索引类型：B-tree、Hash、GIN（倒排序索引）和 BRIN（数据库块范围索引）。每一种索引类型使用了一种不同的算法来适应不同类型的查询。 默认情况下， CREATE INDEX命令创建适合于大部分情况的B-tree索引。

XML/JSON数据类型存储与管理

优炫数据库内置半结构化XML、JSON、JSONB数据类型。

xml数据类型可以被用来存储XML数据，它比直接在一个text域中存储XML数据的优势在于，它会检查输入值的结构是不是良好，并且有支持函数用于在其上执行类型安全的 *** 作。xml类型可以存储结构良好（如XML标准所定义）的“文档”，以及“内容”片段，它们由XML标准所定义，这意味着内容片段中可以有多于一个的顶层元素或字符节点。通过表达式来评估一个特定的xml值是一个完整文档或者仅仅是一个文档片段。

JSON类型强制检查数据有效性，使用专门的 *** 作符和内置函数 *** 作数据，保留空格，重复键和顺序等。JSONB是解析输入后保存的二进制数据，删除了数据中的空格、调整了顺序、优化了存储、保留最后一个重复键值，可被索引。和 JSON 一样，JSONB支持嵌入式的文档和数组。JSONB 由若干个键值对存储为单个实体，这种实体称为文档。 JSONB具有以下几个特性：轻量级（Lightweight），可遍历性（Traversable），高效性（Efficient）。 由于所需存储更小，JSONB通常是首选格式。两者区别在于：JSON类型写快读慢，JSONB类型写慢读快，支持SQL/JSON路径语言。此外，数据库支持对这两类数据的全文检索。

GIS空间类型存储与管理

优炫数据库支持GIS的地理信息应用，支持PostGIS、ArcGIS、超图，支持OpenGIS联盟（开放地理信息系统，OGC）抽象数据类型的SQL3规范，提供对地理矢量数据、3D模型、线性参考数据的组织、存储、空间索引和管理。

Geometry（几何对象类型）是优炫数据库的一个基本存储类型， 空间数据都会以Geometry的形式存储在数据库里，本质是个二进制对象。使用OGC推荐的WKT（Well-Known Text）和WKB（Well-Known Binary）格式进行描述，大幅增加了易用性，WKT与WKB基本数据类型(矢量数据)包括：

l 点（POINT）：例如POINT(0 0)；

l 线（LINESTRING）：例如LINESTRING(0 0,1 1,1 2)

l 面 (POLYGON多边形)：例如POLYGON((0 0,4 0,4 4,0 4,0 0)) 简单多边形，例如POLYGON((0 0,4 0,4 4,0 4,0 0),(1 1, 2 1, 2 2, 1 2,1 1)) 多边形有一个内部的"孔洞（hole）"；

l 多点（MULTIPOINT）：例如MULTIPOINT((0 0),(1 2))；

l 多线（MULTILINESTRING）：例如MULTILINESTRING((0 0,1 1,1 2),(2 3,3 2,5 4))；

l 多面（MULTIPOLYGON）：例如MULTIPOLYGON(((0 0,4 0,4 4,0 4,0 0),(1 1,2 1,2 2,1 2,1 1)), ((-1 -1,-1 -2,-2 -2,-2 -1,-1 -1)))；

l 几何集合 （GEOMETRYCOLLECTION）：例如GEOMETRYCOLLECTION(POINT(2 3),LINESTRING(2 3,3 4))。

栅格空间数据类型raster用于表示jpeg,tiff,png,DEM模型这样文件格式的数据。每一个栅格至少有1个波段，每个波段又有一系列像素值，栅格数据是转换成地理坐标的。可以从数据库外部导入已有栅格数据，也可在数据库内创建栅格数据。下面是一个在数据库内部创建栅格数据的示例：

拓扑类型和函数用于管理拓扑结构，比如面、边界和点。

创建一个带有栅格记录的栅格列的表可以用下面的SQL完成：

如果创建的栅格不依赖于其他栅格，那么可以使用函数：

ST_MakeEmptyRaster，接着使用ST_AddBand添加栅格数据。也可以使用geometry对象来创建栅格你需要使用函数ST_AsRaster。可能还需要和其他函数比如函数ST_Union 或函数 ST_MapAlgebraFct 或者其他地图代数系列函数联合使用。甚至还有一些根据一些已经存在的栅格表创建新的栅格表的可选函数。例如可以使用函数ST_Transform 根据一个已有的栅格表在其他投影系中创建一个新的栅格表。然后通过下SQL命令创建一个空间索引：

通过空间索引R-Tree实现空间数据查询和 *** 作，R-Tree将数据分解为矩形（rectangle）、子矩形（sub-rectangle）和子-子矩形（sub-sub rectangle）等。它是一种可自动处理可变数据的密度和对象大小的自调优（self-tuning）索引结构。

图数据存储与管理

图数据以图关系这种数据结构存储，把图数据的顶点和边信息存储到关系型数据类型中，这些信息包括：

l 顶点（Vertices）：一个实体一个顶点，一个实体可以有多个属性。

l 边（Edges）：两个实体之间的连接线。

l 属性：实体和边都可以有多个属性。形象举个例子，一个实体对应关系表中一行记录，一个实体的属性代表关系表中这行记录的所有字段和值构成的键值对。

在优炫数据库中图数据通过关系型数据进行存储，这些数据与图模型中的数据相对应。例如通过下SQL语句建立存储图数据的表：

然后新增加数据，后续就可以根据这些数据进行图相关的计算和分析了。

时序数据存储与管理

时序数据存储和管理，通过把时序数据存储到关系型数据类型中。时序数据是指时间序列数据。时间序列数据是同一统一指标按时间顺序记录的数据列。在同一数据列中的各个数据必须是同口径的，要求具有可比性。时序数据可以是时期数，也可以时点数。时间序列分析的目的是通过找出样本内时间序列的统计特性和发展规律性，构建时间序列模型，进行样本外预测。

文档//视频类型存储与管理

优炫数据库可存储任意未知具体内容的、声音、视频等非结构化数据，支持 GB 级大对象数据类型与流式数据访问。可借助于数据库图形化管理工具、应用程序、第三方工具等查看这些非结构化数据。根据业务需要也可借助数据库插件读取或识别这些非结构化数据的内容用于数据分析。

优炫数据库支持多种二进制数据类型，包括：Bytea、OID、Blob、raw、Varbinary、Longvarbinary。

自定义数据类型存储与管理

优炫数据库可自定义数据类型、索引、函数等数据库对象。 新增加的数据类型可以是新数据类型，也可以是已知几个数据类型的复合数据类型。

模分析型数据库用户可在数据库中使用CREATE TYPE或CREATE DOMAIN命令增加新的数据类型；可通过自定义函数或存储过程对数据进行各种处理。

CREATE TYPE在当前数据库中注册一种新的数据类型,定义数据类型的用户将成为它的拥有者。五种形式的CREATE TYPE，它们分别创建组合类型、枚举类型、范围类型、基础类型或者 shell 类型。shell 类型仅仅是一种用于后面要定义的类型的占位符，通过发出一个不带除类型名之外其他参数的CREATE TYPE命令可以创建这种类型。在创建范围类型和基础类型时，需要 shell 类型作为一种向前引用。

CREATE DOMAIN创建一个新的域。 域本质上是一种带有可选约束（在允许的值集合上的限制）的数据类型。域主要被用于把字段上的常用约束抽象到一个单一的位置以便维护。例如，几个表可能都包含电子邮件地址列，而且都要求相同的 CHECK 约束来验证地址的语法。可以为此定义一个域，而不是在每个表上都单独设置一个约束。

以上就是关于详细数据分析步骤（一）-数据获取全部的内容，包括:详细数据分析步骤（一）-数据获取、如何使用NineData访问ClickHouse数据库、ggbase怎么用等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9291547.html

详细数据分析步骤（一）-数据获取

发表评论

评论列表（0条）