mysql 源数据怎么做数据仓库_工具

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案，引入了列存储方案，高强度的数据压缩，优化的统计计算(类似sum/avg/group by之类)，infobright 是基于mysql的，但不装mysql亦可，因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎，infobright主要实现的就是一个存储引擎，但因为它自身存储逻辑跟关系型数据库根本不同，所以，它不能像InnoDB那样直接作为插件挂接到mysql，它的逻辑层是mysql的逻辑层加上它自身的优化器。

Infobright特征

优点：

大数据量查询性能强劲、稳定：百万、千万、亿级记录数条件下，同等的SELECT查询语句，速度比MyISAM、InnoDB等普通的MySQL存储引擎快5～60倍。高效查询主要依赖特殊设计的存储结构对查询的优化，但这里优化的效果还取决于数据库结构和查询语句的设计。

存储数据量大：TB级数据大小，几十亿条记录。数据量存储主要依赖自己提供的高速数据加载工具（百G/小时）和高数据压缩比（>10:1）

高数据压缩比：号称平均能够达到 10:1 以上的数据压缩率。甚至可以达到40:1，极大地节省了数据存储空间。高数据压缩比主要依赖列式存储和 patent-pending 的灵活压缩算法

基于列存储：无需建索引，无需分区。即使数据量十分巨大，查询速度也很快。用于数据仓库，处理海量数据没一套可不行。不需要建索引，就避免了维护索引及索引随着数据膨胀的问题。把每列数据分块压缩存放，每块有知识网格节点记录块内的统计信息，代替索引，加速搜索。

快速响应复杂的聚合类查询：适合复杂的分析性SQL查询，如SUM, COUNT, AVG, GROUP BY

你这要求可真不少！既要功能强大，又要数据能共享，还要具备极强的易用性和集成能力，随便扒拉扒拉就能开发出自主可控的管理软件。不过，这种无代码开发平台，确实有！

不仅有，还能免费使用（全文共700-1000字，文末有软件免费获取方式）

云表，是属于国产云计算PaaS领域的，无代码开发平台领军者。

先来说说大家最关心的，它不仅提供了永久免费版本，还具备完善的服务体系。

恒逸石化

像华为、中国电信、北京航天、中铁、汾西矿业、浙江恒逸、燕山大学等各行业机构，都在使用它。

在它这里，所有的代码和IT数据，开发人员早已提前为你写好，免去你在使用过程中的编程之痛。

就像题主说的，配置配置就能完成开发。

中科恒健智慧医疗养老系统

你只要有自己的业务逻辑，懂中文，即使你是初中文化水平，也照样能够开发像OA、WMS、MES、BI、ERP等业务应用。

0基础，画表格开发管理软件

使用者只需要在，和excel长得很像的设计UI界面，沿用excel拖拉拽的 *** 作习惯，再配以业务流程、权限控制、工作流、流程审批、多人协同等纯中文的 *** 作，即可搭建出功能随需而改的业务应用。

恒逸石化业务应用界面

在它这里，开发出来的系统，数据互通，主流信息无缝集成，比如说OA与ERP两个系统，你只需要云表一个平台，就可以完成对所有业务应用的管理。

旧系统、旧功能过时了，直接推到重建就好，因为它具备系统快速迭代、增删改查的功能，等你玩熟了，平均1－2周可以上线一套系统。

内嵌了MySQL数据库，持续升级和优化

云表不仅内嵌了MySQL数据库，还对其进行了持续的升级和优化。亿级数据，也能做到秒级响应。

此外，它的数据存储方式，分为云端部署、本地部署、混合部署等多种部署方式。

恒逸石化移动端数据分析展示

也就是说，在云表这里，数据是安全不丢失的。

局域网可用，没有网络的情况下也可用。

强大的集成引擎功能

你也可以用它来做大大小小的业务。

中山诚威数字化生产车间

比如说，像数据透视等复杂的数据运算，设置闹钟提醒，群发信息，生成条形码，扫码出入库，一物一码，小程序，H5，外接数据源，报表自定义模板打印，API，网站，生成移动端app；与用友、金蝶、企业微信、钉钉等组织原有资产系统进行对接，与PDA、地磅、电子秤等进行集成封装

只要你能想到的业务，基本上都可以通过它来完成。

您好，很高兴为您解答。

看看这个：>

1数据量太大，比如上亿，就用oracle，优点上亿数据对Oracle来说轻飘飘的，也不用太多优化配置，缺点安装比较麻烦，上手比较慢。

2数据量较大，比如千万级，用postgresql，它号称对标Oracle，处理千万级数据还是可以的，也是易学易用。

3数据量一般，比如百万级，用mysql，这个级别的数据量mysql处理还是比较快的。

4数据量较小，比如十万以下，sqlite、access都可以。

上面是基于单表 *** 作的数据量，你看着选。

简单易用的数据库哪个比较好？这个要具体看你的用途，如果数据量比较少（10万左右），追求简约简单，免费开源的sqlite就行，如果数据量比较多，考虑到高并发、分布式，可以使用专业的mysql、postgresql，下面我分别简单介绍一下，感兴趣的朋友可以尝试一下：

小巧灵活sqlite

这是基于c语言开发的一个轻量级关系型数据库，短小精悍、免费开源，个人使用无需繁琐的配置，只需一个简单的运行库便可直接使用，针对各种编程语言都提供了丰富的API接口， java、 python、c#等都可轻松 *** 作，如果你存储数据量不多，只是本地简单的 *** 作（读多写少），可以使用一下这个数据库，占用内存非常少，轻便灵活，当然，在高并发、数据量大的情况下就不合适了：

专业强大mysql

这是目前应该广泛使用的一个关系型数据库，免费开源跨平台，在信息系统开发方面一直占据着主力位置，如果你从事于web开发或者网站后台建设，那么这个数据库一定非常熟悉，支持高并发、分布式，存储数据量相对于sqlite来说，更多也更安全，索引、触发器、存储过程等功能非常不错，支持数据导入导出、恢复备份，只要你熟悉一下基本使用过程，很快就能掌握和运用：

免费开源postgresql

这是加州大学计算机系开发的一个对象-关系型数据库（自由软件），免费、开源、跨平台，支持流计算、全文检索、图式搜索、并行计算、存储过程、空间数据、K-V类型，相比较mysql来说，在复杂查询、高并发下更稳定、性能更优越，可扩展性、可维护性非常不错，但也有劣势，例如新旧版本不分离存储，没有Coverage index scan等，总体使用效果来说还不错：

当然，除了以上3个数据库，还有许多其他数据库，像mssql、oracle等也都非常不错，对于存储和处理数据来说绰绰有余，只要你熟悉一下基本使用过程，很快就能入门的，网上也有相关教程和资料，介绍的非常详细，感兴趣的话，可以搜一下，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言进行补充。

最符合初学者理解和入门的是Access，因为它和Excel本来就是一个套件，相互转化容易，复制粘贴即可，非常好理解库、表、字段、键的概念。

如果数据量不大，强烈推荐试试Filemaker，脚本化编程，自由定制输入界面、工作流程，非常便捷高效。

最近杀出来的airtable，更是简单高效，界面美观， *** 作与电子表格相当，发展势头也非常迅猛。

二者侧重点有所不同，用户可根据需要选择

作为一个软件开发人员，长期需要和数据库打交道，个人更加青睐于MySQL。虽然可能基于你的Excel原因，有些人会建议你使用Access数据库，但是基于我个人的意见，我并不建议你那样做。采用MySql的具体理由如下：

1MySQL具有普遍性，在国内的环境中，绝大多数的互联网企业采用的是MySQL。有了广大的用户基础后，针对于各种问题网上也能更好地找到解决方案。

2MySQL相对于Oracle而言，更加轻量化，针对于从Excel量级的数据，没必要使用Oracle。同时MySQL是完全免费的，不用担心版权及费用问题，无论对个人还是对预算有限的企业而言都是很好的选择。

3MySQL高度兼容标准SQL，这对于以后迁移到其他数据库而言，也能很大程度地降低学习成本。

希望我的回答能够对你有所帮助！！！[耶][耶][耶]

Excel办公确实便利，可以做一些简单的数据分析，但涉及大量复杂的数据运算，就会遇到和题主一样的问题，运算速度慢，如果主机性能不是很好，还有可能面临电脑死机，数据丢失等问题。

遇到这种情况，我们该如何解决呢？数据库的重要性显而易见！

现在， 我将用3分钟的时间，与您探讨该选择何种数据库，以及选择它的理由，是否有更优的解决方案呢？

MySQL数据库，90%的企业都会选择它

数据库选得好，企业的数据安全，资产安全，也就得到了保障。那么该如何选择数据库呢？这个跟你的业务量和业务服务行业，密不可分。

如果你只是上班打卡，用SQL server就可以了；

如果你要储存会话信息，用户配置信息，购物车数据，建议使用NoSQL数据库；

不过90%的企业或个人，首选数据库都是MySQL数据库。

为什么这么说？

因为，它集 低成本、高可用、可靠性强、易用性强、体积小、速度快开放源码 等特性于一身，所以在金融、财务、网站、 数据处理 等应用领域，它占据着独一无二的优势。

这也是几乎所有企业都选择它，来存储数据的原因。

加之MySQL数据库，支持多种存储引擎，支持大型数据库，可以处理成千上万条记录，还提供用于管理、检查、优化数据库 *** 作的工具。

因而，MySQL尤其受个人，以及中小企业的推崇。

虽然MySQL数据库简单易用，但我还是不会部署该怎么办？

别担心，现在市面上已经出现了，一种自带数据库的新型办公软件。

比如说，云表企业应用平台，一款兼容excel功能，但功能更为强大的办公软件，它就内嵌了MySQL数据库。 （文末有免费获取方式）

云表内嵌的MySQL数据库，有何优点？

1 性能更加优化，更加兼容系统。因为云表的研发人员，时刻更新维护MySQL数据库。

2 省去自己手动部署的麻烦。但如果你熟悉部署数据库，想把数据库改成Oracle或SQL server等数据库，也可以设置。（不过，我建议IT小白还是 “拿来即用” 就好）

3 快速实时计算。数据分析实时交互，完全满足管理决策中的临时性分析，多变的业务需求，以及频繁的结果刷新。

4 通过自带的内存计算引擎，无需事先建立CUBE，IT部门将告别报表延时报表分析，亿级数据秒级响应。

内嵌的MySQL数据库是否可靠

云表不仅是一款办公软件，同时还是一款开发工具。

通过它，你将解决以下问题：

复杂的数据运算，精确到行列的权限管控，以及工作流，海量用户同时在线办公，数据透视，制作像销售单，洽谈合同等表单报表，一份制作，即可重复录用

你还可以通过它，与电子称、地磅等进行对接，与用友金蝶等三方系统集成，生成条形码，扫码出入库，生成移动端APP 基本上业务所需的功能，你都可以放心交给它做。

它最大的亮点就是，你可以 用使用excel的手法，用它来开发业务应用。

而且，可视化的 拖拉拽 之后，开发出来的ERP、WMS、OA、进销存等业务应用，还秉承了MySQL数据库增删改查的功能特性。

没错，用云表开发出来的业务应用，是允许二次开发的，而且功能可以随时增删改查，轻松满足大集团精细化的数据控制需求。

不过，大家最关心的应该是数据安全问题吧。

数据存放在云表内嵌的MySQL数据库，是安全不丢失的，它提供了多种数据存储的方式，本地部署，云端部署，混合部署，任君挑选！

正因如此，像 恒逸石化、许继电气、航天科工委、中铁、中冶、云南小松 等大型集团，才鼓励内部员工去学习云表。

篇幅所限，只说到这里，说太多你也不会看。

免费的软获取方式在下方：

数据库的用处可大着呢，不仅可以实现数据共享，减少数据冗余度，还能实现对数据的集中控制，保持数据的一致性和可维护性。选取简单易用的数据库，你有什么好的建议呢，留言让我们看到噢！

题主强调了简单易用。所以推荐最简单三个。

1Access。

2Excel。

3飞书文档、腾讯文档、石墨文档等的表格。

如果要做分析，数据量才比较大，建议Access，还是专业的更好一些。网上教程也很多，比较容易学。而且建议用早一点的版本，比如2003或者2007，Access这些年微软一直想从office里去掉，奈何用的人还是很多，所以不敢去掉，但是采取了一种比较恶心的方法让用户放弃，就是每发布一个新版本，就去掉一些好用的功能，所以说Access是越早的功能越强。

还一个推荐就是Sql Server Express版本，是SQL Server的免费版本，不要钱，基本功能都有，要比sqllite等强大的多

这要结合你个人实际情况来定，有计算机基础，懂一点数据库的话那么市场上的那些软件都可以用，常用有oracle，sqlserver，mysql等，要上手快还是sqlserver比较快，界面 *** 作也比较直观；如果一点基础都没有，但是又要分析数据的话可以用微软自带的一个access，这个上手比较快。决定用哪一种之后还是要买点教材看，简单的sql查询要会，熟练之后也能提高工作效率。

个人使用数据库的话，只存数据不做分析，SQLite就足够了。

看你的是什么数据：

关系型数据：可以参考ali和京东用mysql集群来解决

非关系型数据：使用nosql集群来解决，MongoDB，Redis等

当然数据量特别大，查询很频繁的要利用好缓存

首先要确定你的目标，所谓千万级是每秒千万次查询还是千万条记录的数据库，前者是一个极其复杂的，这个不是光告mysql能解决的，我想不是前者，而后者却是很简单的一件事，前提是定义高效，定义两个指标：

1，每秒查询的次数是多少

2，每次查询时长

确定好以后再考虑以下几个因素的优化

1，存储的类型，SSD比普通磁盘的随机读写能力可以提高不少，一般2到3个数量级，还要看索引和数据块的大小，比较复杂

2，先择RAID类型，如果选raid0和raid10可以提升近似1倍的速度

3，使用高带宽的网速，可以减少网络传输延迟，用10g的光纤比1g的电缆理论上可以提升1个数量级的吞吐量，尤其对大数据据量的结果集特别有效

4，合理的索引，带条件的检索字段加上索引

5，用大宽表，尽可能减少多表关联查询，用空间换时间吧

6，_用主从的集群，基本上查询的并发量和服务器的数量成正比的

7，使用缓存，如memcached，尤其对静态数据提升尤其明显

8，合理选择数据库字段的类型，用定长字字，不要用变长的，如定长的int,char,decimal类型，别用varchar,text等

9，给数据库配置更大的内存

10，检查下瓶颈在不在CPU，如果查询复杂，换个更高配置的服务器

总的原刚就是，尽可能用内存替代碰盘提升IO速度，提高网络和CPU的配置以减少查询时间；尽可能提升网络速度，内存和主机的数量以提高并发

我们先探讨非高并发量的实现。

对于查询频次较高的字段，加上索引。

加索引注意事项：

1对那些字符内容较长的最好不要加索引

2按照官方文档，单表加的索引不要超过16个，索引的长度不要超过256个字节。

随意加索引，会给数据维护增加负担

其实，可以引入分区。

分区注意事项：

1常见的分区类型有range，list，hash，key等。用的比较多的就是range分区。

2对于初始建立索引的时候，我们往往会忽视一个前提条件，导致添加失败报错。

这里的前提是，如果表是有主键的，分区的键和主键不是同一个，那么分区的键也必须是主键。

引入分区后，数据写入时，数据库会自动判断写入哪个分区

对于并发量较高的，我们除了做上面的 *** 作外，就要考虑分库分表或者采用一主多从的方式。

未来我相信这类问题需要采用NewSQl这类数据库来解决，如TiDb等，此时，我们将不必考虑数据分区的问题，而且可以做到数据水平无限扩展，和热点数据的动态分布。

分表是分散数据库压力的好方法。

分表，最直白的意思，就是将一个表结构分为多个表，然后，可以再同一个库里，也可以放到不同的库。

当然，首先要知道什么情况下，才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。

分表的分类

1、纵向分表

将本来可以在同一个表的内容，人为划分为多个表。（所谓的本来，是指按照关系型数据库的第三范式要求，是应该在同一个表的。）

分表理由：根据数据的活跃度进行分离，（因为不同活跃的数据，处理方式是不同的）

案例：

对于一个博客系统，文章标题，作者，分类，创建时间等，是变化频率慢，查询次数多，而且最好有很好的实时性的数据，我们把它叫做冷数据。而博客的浏览量，回复数等，类似的统计信息，或者别的变化频率比较高的数据，我们把它叫做活跃数据。所以，在进行数据库结构设计的时候，就应该考虑分表，首先是纵向分表的处理。

这样纵向分表后：

首先存储引擎的使用不同，冷数据使用MyIsam 可以有更好的查询数据。活跃数据，可以使用Innodb ,可以有更好的更新速度。

其次，对冷数据进行更多的从库配置，因为更多的 *** 作时查询，这样来加快查询速度。对热数据，可以相对有更多的主库的横向分表处理。

其实，对于一些特殊的活跃数据，也可以考虑使用memcache ,redis之类的缓存，等累计到一定量再去更新数据库。或者mongodb 一类的nosql 数据库，这里只是举例，就先不说这个。

2、横向分表

字面意思，就可以看出来，是把大的表结构，横向切割为同样结构的不同表，如，用户信息表，user_1,user_2等。表结构是完全一样，但是，根据某些特定的规则来划分的表，如根据用户ID来取模划分。

分表理由：根据数据量的规模来划分，保证单表的容量不会太大，从而来保证单表的查询等处理能力。

案例：同上面的例子，博客系统。当博客的量达到很大时候，就应该采取横向分割来降低每个单表的压力，来提升性能。例如博客的冷数据表，假如分为100个表，当同时有100万个用户在浏览时，如果是单表的话，会进行100万次请求，而现在分表后，就可能是每个表进行1万个数据的请求（因为，不可能绝对的平均，只是假设），这样压力就降低了很多很多。

延伸：为什么要分表和分区？

日常开发中我们经常会遇到大表的情况，所谓的大表是指存储了百万级乃至千万级条记录的表。这样的表过于庞大，导致数据库在查询和插入的时候耗时太长，性能低下，如果涉及联合查询的情况，性能会更加糟糕。分表和表分区的目的就是减少数据库的负担，提高数据库的效率，通常点来讲就是提高表的增删改查效率。

什么是分表？

分表是将一个大表按照一定的规则分解成多张具有独立存储空间的实体表，我们可以称为子表，每个表都对应三个文件，MYD数据文件，MYI索引文件，frm表结构文件。这些子表可以分布在同一块磁盘上，也可以在不同的机器上。app读写的时候根据事先定义好的规则得到对应的子表名，然后去 *** 作它。

什么是分区？

分区和分表相似，都是按照规则分解表。不同在于分表将大表分解为若干个独立的实体表，而分区是将数据分段划分在多个位置存放，可以是同一块磁盘也可以在不同的机器。分区后，表面上还是一张表，但数据散列到多个位置了。app读写的时候 *** 作的还是大表名字，db自动去组织分区的数据。

MySQL分表和分区有什么联系呢？

1、都能提高mysql的性高，在高并发状态下都有一个良好的表现。

2、分表和分区不矛盾，可以相互配合的，对于那些大访问量，并且表数据比较多的表，我们可以采取分表和分区结合的方式（如果merge这种分表方式，不能和分区配合的话，可以用其他的分表试），访问量不大，但是表数据很多的表，我们可以采取分区的方式等。

3、分表技术是比较麻烦的，需要手动去创建子表，app服务端读写时候需要计算子表名。采用merge好一些，但也要创建子表和配置子表间的union关系。

4、表分区相对于分表， *** 作方便，不需要创建子表。

我们知道对于大型的互联网应用，数据库单表的数据量可能达到千万甚至上亿级别，同时面临这高并发的压力。Master-Slave结构只能对数据库的读能力进行扩展，写 *** 作还是集中在Master中，Master并不能无限制的挂接Slave库，如果需要对数据库的吞吐能力进行进一步的扩展，可以考虑采用分库分表的策略。

1、分表

在分表之前，首先要选中合适的分表策略（以哪个字典为分表字段，需要将数据分为多少张表），使数据能够均衡的分布在多张表中，并且不影响正常的查询。在企业级应用中，往往使用org_id(组织主键)做为分表字段，在互联网应用中往往是userid。在确定分表策略后，当数据进行存储及查询时，需要确定到哪张表里去查找数据，

数据存放的数据表 = 分表字段的内容 % 分表数量

2、分库

分表能够解决单表数据量过大带来的查询效率下降的问题，但是不能给数据库的并发访问带来质的提升，面对高并发的写访问，当Master无法承担高并发的写入请求时，不管如何扩展Slave服务器，都没有意义了。我们通过对数据库进行拆分，来提高数据库的写入能力，即所谓的分库。分库采用对关键字取模的方式，对数据库进行路由。

数据存放的数据库=分库字段的内容%数据库的数量

3、即分表又分库

数据库分表可以解决单表海量数据的查询性能问题，分库可以解决单台数据库的并发访问压力问题。

当数据库同时面临海量数据存储和高并发访问的时候，需要同时采取分表和分库策略。一般分表分库策略如下：

中间变量 = 关键字%（数据库数量单库数据表数量）

库 = 取整（中间变量/单库数据表数量）

表 = （中间变量%单库数据表数量）

实例：

1、分库分表

很明显，一个主表（也就是很重要的表，例如用户表）无限制的增长势必严重影响性能，分库与分表是一个很不错的解决途径，也就是性能优化途径，现在的案例是我们有一个1000多万条记录的用户表members,查询起来非常之慢，同事的做法是将其散列到100个表中，分别从members0到members99，然后根据mid分发记录到这些表中，牛逼的代码大概是这样子：

复制代码代码如下:

<php

for($i=0;$i< 100; $i++ ){

//echo "CREATE TABLE db2members{$i} LIKE db1members

echo "INSERT INTO members{$i} SELECT FROM members WHERE mid%100={$i}

}

2、不停机修改mysql表结构

同样还是members表，前期设计的表结构不尽合理，随着数据库不断运行，其冗余数据也是增长巨大，同事使用了下面的方法来处理：

先创建一个临时表：

/创建临时表/

CREATE TABLE members_tmp LIKE members

然后修改members_tmp的表结构为新结构，接着使用上面那个for循环来导出数据，因为1000万的数据一次性导出是不对的，mid是主键，一个区间一个区间的导，基本是一次导出5万条吧，这里略去了

接着重命名将新表替换上去：

/这是个颇为经典的语句哈/

RENAME TABLE members TO members_bak,members_tmp TO members;

就是这样，基本可以做到无损失，无需停机更新表结构，但实际上RENAME期间表是被锁死的，所以选择在线少的时候 *** 作是一个技巧。经过这个 *** 作，使得原先8G多的表，一下子变成了2G多。

以上就是关于mysql 源数据怎么做数据仓库全部的内容，包括:mysql 源数据怎么做数据仓库、无代码开发平台好用的，一定是要功能很强大，而且不需要写代码有什么推荐、如何提高亿级别 mysql group by order by 效率等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9876738.html

mysql 源数据怎么做数据仓库

发表评论

评论列表（0条）

mysql 源数据 怎么做数据仓库

发表评论

评论列表（0条）

mysql 源数据怎么做数据仓库