搞软件开发,请你来谈谈数据库连接池的原理吧

搞软件开发,请你来谈谈数据库连接池的原理吧,第1张

这次我们采取技术演进的方式来谈谈数据连接池的技术出现过程及其原理,以及当下最流行的开源数据连接池jar包。

1、原理

一般来说,Java应用程序访问数据库的过程是

①装载数据库驱动程序;

②通过jdbc建立数据库连接;

③访问数据库,执行sql语句;

④断开数据库连接。

2、代码

3、分析

程序开发过程中,存在很多问题:首先,每一次web请求都要建立一次数据库连接。建立连接是一个费时的活动,每次都得花费005s~1s的时间,而且系统还要分配内存资源。这个时间对于一次或几次数据库 *** 作,或许感觉不出系统有多大的开销。可是对于现在的web应用,尤其是大型电子商务网站,同时有几百人甚至几千人在线是很正常的事。在这种情况下,频繁的进行数据库连接 *** 作势必占用很多的系统资源,网站的响应速度必定下降,严重的甚至会造成服务器的崩溃。不是危言耸听,这就是制约某些电子商务网站发展的技术瓶颈问题。其次,对于每一次数据库连接,使用完后都得断开。否则,如果程序出现异常而未能关闭,将会导致数据库系统中的内存泄漏,最终将不得不重启数据库。还有,这种开发不能控制被创建的连接对象数,系统资源会被毫无顾及的分配出去,如连接过多,也可能导致内存泄漏,服务器崩溃。

上述的用户查询案例,如果同时有1000人访问,就会不断的有数据库连接、断开 *** 作:

通过上面的分析,我们可以看出来,“数据库连接”是一种稀缺的资源,为了保障网站的正常使用,应该对其进行妥善管理。其实我们查询完数据库后,如果不关闭连接,而是暂时存放起来,当别人使用时,把这个连接给他们使用。就避免了一次建立数据库连接和断开的 *** 作时间消耗。原理如下:

由上面的分析可以看出,问题的根源就在于对数据库连接资源的低效管理。我们知道,对于共享资源,有一个很著名的设计模式:资源池(resource pool)。该模式正是为了解决资源的频繁分配﹑释放所造成的问题。为解决上述问题,可以采用数据库连接池技术。数据库连接池的基本思想就是为数据库连接建立一个“缓冲池”。预先在缓冲池中放入一定数量的连接,当需要建立数据库连接时,只需从“缓冲池”中取出一个,使用完毕之后再放回去。我们可以通过设定连接池最大连接数来防止系统无尽的与数据库连接。更为重要的是我们可以通过连接池的管理机制监视数据库的连接的数量﹑使用情况,为系统开发﹑测试及性能调整提供依据。

我们自己尝试开发一个连接池,来为上面的查询业务提供数据库连接服务:

① 编写class 实现DataSource 接口

② 在class构造器一次性创建10个连接,将连接保存LinkedList中

③ 实现getConnection 从 LinkedList中返回一个连接

④ 提供将连接放回连接池中方法

1、连接池代码

2、使用连接池重构我们的用户查询函数

这就是数据库连接池的原理,它大大提供了数据库连接的利用率,减小了内存吞吐的开销。我们在开发过程中,就不需要再关心数据库连接的问题,自然有数据库连接池帮助我们处理,这回放心了吧。但连接池需要考虑的问题不仅仅如此,下面我们就看看还有哪些问题需要考虑。

1、并发问题

为了使连接管理服务具有最大的通用性,必须考虑多线程环境,即并发问题。这个问题相对比较好解决,因为java语言自身提供了对并发管理的支持,使用synchronized关键字即可确保线程是同步的。使用方法为直接在类方法前面加上synchronized关键字,如:

2、多数据库服务器和多用户

对于大型的企业级应用,常常需要同时连接不同的数据库(如连接oracle和sybase)。如何连接不同的数据库呢?我们采用的策略是:设计一个符合单例模式的连接池管理类,在连接池管理类的唯一实例被创建时读取一个资源文件,其中资源文件中存放着多个数据库的url地址等信息。根据资源文件提供的信息,创建多个连接池类的实例,每一个实例都是一个特定数据库的连接池。连接池管理类实例为每个连接池实例取一个名字,通过不同的名字来管理不同的连接池。

对于同一个数据库有多个用户使用不同的名称和密码访问的情况,也可以通过资源文件处理,即在资源文件中设置多个具有相同url地址,但具有不同用户名和密码的数据库连接信息。

3、事务处理

我们知道,事务具有原子性,此时要求对数据库的 *** 作符合“all-all-nothing”原则即对于一组sql语句要么全做,要么全不做。

在java语言中,connection类本身提供了对事务的支持,可以通过设置connection的autocommit属性为false 然后显式的调用commit或rollback方法来实现。但要高效的进行connection复用,就必须提供相应的事务支持机制。可采用每一个事务独占一个连接来实现,这种方法可以大大降低事务管理的复杂性。

4、连接池的分配与释放

连接池的分配与释放,对系统的性能有很大的影响。合理的分配与释放,可以提高连接的复用度,从而降低建立新连接的开销,同时还可以加快用户的访问速度。

对于连接的管理可使用空闲池。即把已经创建但尚未分配出去的连接按创建时间存放到一个空闲池中。每当用户请求一个连接时,系统首先检查空闲池内有没有空闲连接。如果有就把建立时间最长(通过容器的顺序存放实现)的那个连接分配给他(实际是先做连接是否有效的判断,如果可用就分配给用户,如不可用就把这个连接从空闲池删掉,重新检测空闲池是否还有连接);如果没有则检查当前所开连接池是否达到连接池所允许的最大连接数(maxconn)如果没有达到,就新建一个连接,如果已经达到,就等待一定的时间(timeout)。如果在等待的时间内有连接被释放出来就可以把这个连接分配给等待的用户,如果等待时间超过预定时间timeout 则返回空值(null)。系统对已经分配出去正在使用的连接只做计数,当使用完后再返还给空闲池。对于空闲连接的状态,可开辟专门的线程定时检测,这样会花费一定的系统开销,但可以保证较快的响应速度。也可采取不开辟专门线程,只是在分配前检测的方法。

5、连接池的配置与维护

连接池中到底应该放置多少连接,才能使系统的性能最佳?系统可采取设置最小连接数(minconn)和最大连接数(maxconn)来控制连接池中的连接。最小连接数是系统启动时连接池所创建的连接数。如果创建过多,则系统启动就慢,但创建后系统的响应速度会很快;如果创建过少,则系统启动的很快,响应起来却慢。这样,可以在开发时,设置较小的最小连接数,开发起来会快,而在系统实际使用时设置较大的,因为这样对访问客户来说速度会快些。最大连接数是连接池中允许连接的最大数目,具体设置多少,要看系统的访问量,可通过反复测试,找到最佳点。

如何确保连接池中的最小连接数呢?有动态和静态两种策略。动态即每隔一定时间就对连接池进行检测,如果发现连接数量小于最小连接数,则补充相应数量的新连接以保证连接池的正常运转。静态是发现空闲连接不够时再去检查。

理解了连接池的原理就可以了,没有必要什么都从头写一遍,那样会花费很多时间,并且性能及稳定性也不一定满足要求。事实上,已经存在很多流行的性能优良的第三方数据库连接池jar包供我们使用。如:

其中c3p0已经很久没有更新了。DBCP更新速度很慢,基本处于不活跃状态,而Druid和HikariCP处于活跃状态的更新中。

hbase在三者中更注重的是存储,它实现了类似mysql的double write机制,但是它是一种NoSQL的数据库,并且是可以支持列式存储的,算是比较大的一个内存Hash表。hbase也采用了类似mysql中的mvcc的思想通过时间戳来做版本控制。

hbase是在hdfs基础之上的,可以算是数据的一种组织方式,是一种基于hadoop的分布式数据库系统。从数据库的角度来说,与mysql处在同一个层次,都是基于文件系统之上的管理数据的一种方法。

hbase作为面向列的数据库,支持按列读取和行读取,并解决了关系型数据库的分表的一些需求,如:关系型数据库中有些表的列重复数据太多了,需要重新建表来存重复列的数据,减少表的大小。

hive和impala则更偏向于查询分析,impala需要依赖hive的元数据,它们都有自己的查询分析引擎,只是impala是纯查询分析引擎。

hive 本身并不执行任务的分析过程,而是推给了mapreduce,这点与impala大不同,hive本身提供了数据的格式化输出功能,但是hive转换的mr可能不是最高效的,调优方式有限,很多复杂的算法没有办法表达,毕竟sql的语义表达能力有限。

hive与impala在查询分析这部分,hive明显的支持程度要比impala高,提供了很多内部函数,并且支持UDAF,UDF的方式

从数据库特性角度来看,hive与hbase的对比,hive不能修改数据,只能追加的方式,hbase允许增加和删除数据,hive不支持索引,impala和hive都是没有存储引擎的,hbase算是有自己的存储引擎。

在使用层面上来看,hive在使用上更像数据库,它提供非常丰富的系统函数,各种数据的 *** 作,hbase在这方面就不太像一般的关系型数据库,它还是一个key-val的NoSQL,这方面的 *** 作支持很有限,impala在这方面也是比较弱。

在计算模型层面上来看,hive是通过MR来计算的,这是一个偏向挪动数据到mr的计算节点来计算的模型,而impala则更多的是移动计算需求到DN上来做,数据不用动,最后变成了本地的磁盘IO。

float保存在数据库好,只要做好备份就行。

放在数据库中的好处是查询,管理方便些,一些SQL语句就搞定了,比较方便。。

放在磁盘中和放在数据库中都是安全的。

数据库中的文件理论上来说会比直接放在磁盘中访问慢些,但在做好索引的情况下,速度上差异不大float保存在数据库好,只要做好备份就行。放在数据库中的好处是查询,管理方便些,一些SQL语句就搞定了,比较方便。float类型的数据既可以保存在磁盘,也可以保存在数据库中。磁盘文件存储float类型的数据可以避免安全漏洞,并且更容易备份和恢复,传输速度快,性能好,可以有效地节省内存。但是,将float类型的数据存储在数据库中具有较高的可用性和安全性,可以方便的查询、更新、删除数据,可以更好的控制和管理数据,特别是在多用户环境下,数据库可以更好地控制和管理大量数据。磁盘好,选择是在磁盘还是数据库中存储浮点数取决于许多因素,包括特定用例、数据集的大小以及对性能和可靠性的要求。

如果您的数据集相对较小,则将浮点数存储在磁盘文件中可能就足够了。磁盘文件易于使用,并允许快速读取和写入数据。

但是,如果您有一个大型或复杂的数据集,数据库可能是更好的选择。数据库提供更强大的数据管理功能,包括高效索引、查询和更新数据的能力。它们还为事务提供内置支持,这有助于确保在遇到故障或错误时的数据完整性。

最终,磁盘文件和数据库之间的选择将取决于您的使用案例的特定要求,您可能需要考虑各种因素,例如性能、可扩展性、可靠性和易用性,以便做出明智的决定。具体而言,float类型的数据是否保存在磁盘或数据库取决于具体使用场景,通常,如果要求对数据进行长期储存,建议将浮点类型数据保存在磁盘中;如果要求频繁的读写 *** 作,建议将浮点类型数据保存在数据库中,以提高效率。

以上就是关于搞软件开发,请你来谈谈数据库连接池的原理吧全部的内容,包括:搞软件开发,请你来谈谈数据库连接池的原理吧、hive,impala,kfk,hbase,mitaka的关系是怎样的、float保存在磁盘好还是数据库好等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9544145.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存