如何设计java程序能提高大数据量的计算速度?

如何设计java程序能提高大数据量的计算速度?,第1张

你可以先取出部分数据,处理完了保存,然后再取一部分,这不是提高计算速度,而是提高数据库读取效率,因为你每次从数据库读一条数据会很浪费时间。

不过你只有1000条数据不算太多的,而且你又不做排序,效率上不会差太多。

剩下的效率瓶颈就在你的公式或者方法里了。

问题描述 在通常的三层构架下 客户通过Browser请求Web服务器查询数据库 而查询结果是上千条甚至是上百万条记录 要求查询结果传送到客户端浏览器并分页显示

考虑因素

Web服务器的资源消耗 包括 内存(用来存储查询结果) 数据库相关资源(数据库连接对象 ResultSet对象等等)

DB服务器资源的消耗 包括游标 会话等等

网络开销 包括与数据库建立会话 传输查询结果等等

JDBC中的几个重要Class:

A ResultSet object maintains a cursor pointing to its current row of data Initially the cursor is positioned before the first row The next method moves the cursor to the next row and because it returns false when there are no more rows in the ResultSet object it can be used in a while loop to iterate through the result set

ResultSet是直接在数据库上建立游标 然后通过ResultSet的行位置定位接口来获得指定行位置的记录 当用户通过get方法获取具体纪录的内容时 ResultSet才从数据库把所需数据读到客户端

Oracle的ResultSet实现似乎会在本地缓存用户读取过的数据 导致内存消耗会随读取数据的增加而增加 这样 如果一次查询并读取海量数据 即使读出数据后马上丢弃(比如直接写入文件) 内存消耗也会随查询结果的增加而递增

The RowSet interface extends the standard java sql ResultSet interface A RowSet object may make a connection with a data source and maintain that connection throughout its life cycle in which case it is called a connected rowset A rowset may also make a connection with a data source get data from it and then close the connection Such a rowset is called a disconnected rowset A disconnected rowset may make changes to its data while it is disconnected and then send the changes back to the original source of the data but it must reestablish a connection to do so

RowSet是JDBC 中提供的接口 Oracle对该接口有相应实现 其中很有用的是 oracle jdbc rowset OracleCachedRowSet OracleCachedRowSet实现了ResultSet中的所有方法 但与ResultSet不同的是 OracleCachedRowSet中的数据在Connection关闭后仍然有效

解决方案一 直接使用ResultSet来处理

从ResultSet中将查询结果读入collection 缓存在HttpSession或有状态bean中 翻页的时候从缓存中取出一页数据显示 这种方法有两个主要的缺点 一是用户可能看到的是过期数据 二是如果数据量非常大时第一次查询遍历结果集会耗费很长时间 并且缓存的数据也会占用大量内存 效率明显下降

对上述方法的一种改进是当用户第一请求数据查询时 就执行SQL语句查询 获得的ResultSet对象及其要使用的连接对象都保存到其对应的会话对象中 以后的分页查询都通过第一次执行SQL获得的ResultSet对象定位取得指定页的记录(使用rs last()rs getRow()获得总计录条数 使用rs absolute()定位到本页起始记录) 最后在用户不再进行分页查询时或会话关闭时 释放数据库连接和ResultSet对象等数据库访问资源 每次翻页都只从ResultSet中取出一页数据 这种方式在某些数据库(如oracle)的JDBC实现中差不多也是回缓存所有记录而占用大量内存 同时速度也非常慢

在用例分页查询的整个会话期间 一个用户的分页查询就要占用一个数据库连接对象和结果集的游标 这种方式对数据库的访问资源占用比较大 并且其利用率不是很高

优点 减少了数据库连接对象的多次分配获取 减少了对数据库的SQL查询执行

缺点 占用数据库访问资源-数据库连接对象 并占用了数据库上的资源-游标 会消耗大量内存

解决方案二 定位行集SQL查询

使用数据库产品提供的对查询的结果集可定位行范围的SQL接口技术 在用户的分页面查询请求中 每次可取得查询请求的行范围的参数 然后使用这些参数生产取得指定行范围的的SQL查询语句 然后每次请求获得一个数据库连接对象并执行SQL查询 把查询的结果返回给用户 最后释放说有的数据库访问资源

这种方式需要每次请求时都要执行数据库的SQL查询语句 对数据库的访问资源是使用完就立即释放 不白白占用数据库访问资源 对特定(提供了对查询结果集可定位功能的)的数据库产品 如 Oracle(rowid或rownum ) DB (rowid或rownum ()) PostgreSQL(LIMIT 和 OFFSET) mySQL(Limit)等 (MS SQL Server 没有提供此技术 )

下面是在oracle下的查询语句示例

SELECT * FROM ( SELECT row_ * rownum rownum_ FROM ( ) row_ WHERE rownum <= {pageNumber*rowsPerPage}) WHERE rownum_ >{(pageNumber )*rowsPerPage}

优点 对数据库的访问资源(数据库连接对象 数据库游标等)没有浪费 这些资源的充分重复的利用

lishixinzhi/Article/program/Java/hx/201311/25890

数据库的开发对于后台编程程序员来说是必备能力之一了,而今天我们就一起来了解一下,关于数据库开发的设计规范都有哪些类型,山西北大青鸟http://www.kmbdqn.cn/希望通过对本文的阅读,大家对于数据库开发有更多的了解。

一、数据库命令规范所有数据库对象名称必须使用小写字母并用下划线分割所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来)数据库对象的命名要能做到见名识意,并且后不要超过32个字符临时库表必须以tmp_为前缀并以日期为后缀,备份表必须以bak_为前缀并以日期(时间戳)为后缀所有存储相同数据的列名和列类型必须一致(一般作为关联列,如果查询时关联列类型不一致会自动进行数据类型隐式转换,会造成列上的索引失效,导致查询效率降低)二、数据库基本设计规范1、所有表必须使用Innodb存储引擎没有特殊要求(即Innodb无法满足的功能如:列存储,存储空间数据等)的情况下,所有表必须使用Innodb存储引擎(mysql5.5之前默认使用Myisam,5.6以后默认的为Innodb)Innodb支持事务,支持行级锁,更好的恢复性,高并发下性能更好2、数据库和表的字符集统一使用UTF8兼容性更好,统一字符集可以避免由于字符集转换产生的乱码,不同的字符集进行比较前需要进行转换会造成索引失效3、所有表和字段都需要添加注释使用comment从句添加表和列的备注从一开始就进行数据字典的维护4、尽量控制单表数据量的大小,建议控制在500万以内500万并不是MySQL数据库的限制,过大会造成修改表结构,备份,恢复都会有很大的问题可以用历史数据归档(应用于日志数据),分库分表(应用于业务数据)等手段来控制数据量大小5、谨慎使用MySQL分区表分区表在物理上表现为多个文件,在逻辑上表现为一个表谨慎选择分区键,跨分区查询效率可能更低建议采用物理分表的方式管理大数据6、尽量做到冷热数据分离,减小表的宽度MySQL限制每个表多存储4096列,并且每一行数据的大小不能超过65535字节减少磁盘IO,保证热数据的内存缓存命中率(表越宽,把表装载进内存缓冲池时所占用的内存也就越大,也会消耗更多的IO)更有效的利用缓存,避免读入无用的冷数据经常一起使用的列放到一个表中(避免更多的关联 *** 作)


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/6767977.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-28
下一篇 2023-03-28

发表评论

登录后才能评论

评论列表(0条)

保存