读数据库,数据量太大,访问过程中,出现内存访问异常,该如何解决

读数据库,数据量太大,访问过程中,出现内存访问异常,该如何解决,第1张

数据量比较大的访问速度慢问题,就目前来说,我遇到的解决方法有一些,首先尽量不使用select ,因为数据库在进行查询时会把对应的列进行解析,会使得数据库的访问速度变慢,查询时应该选择需要的列;另外在查询时需要在关键列上建立索引,索引是提高访问数据库速度的最重要的手段,一般访问速度慢的问题中,90%可以使用建立索引来解决,具体怎么建立索引还请楼主自己查看相关资料;再一个就是及时对表进行数据分析,分析过的表能够自己选择合适的索引,使得查询性能在一定程度上得到提高(但是数据库自己选择的执行路径也不一定都是正确的,这一点需要具体问题具体分析)。

假定在程序效率和关键过程相当且不计入缓存等措施的条件下,读写任何类型的数据都没有直接 *** 作文件来的快,不论MSYQL过程如何,最后都要到磁盘上去读这个“文件”(记录存储区等效),所以当然这一切的前提是只读 内容,无关任何排序或查找 *** 作。

动态网站一般都是用数据库来存储信息,如果信息的及时性要求不高 可以加入缓存来减少频繁读写数据库。

两种方式一般都支持,但是绕过 *** 作系统直接 *** 作磁盘的性能较高,而且安全性也较高,数据库系中的磁盘性能一直都是瓶颈,大型数据库一般基于unix

系统,当然win下也有,不常用应为win的不可靠性,unix下,用的是裸设备raw设备,就是没有加工过的设备(unix下的磁盘分区属于特殊设备,

以文件形式统一管理),由dbms直接管理,不通过 *** 作系统,效率很高,可靠性也高,因为磁盘,cache和内存都是自己管理的,大型数据库系统

db2,oracal,informix(不太流行了),mssql算不上大型数据库系统。

1、直接读文件相比数据库查询效率更胜一筹,而且文中还没算上连接和断开的时间

2、一次读取的内容越大,直接读文件的优势会越明

显(读文件时间都是小幅增长,这跟文件存储的连续性和簇大小等有关系),这个结果恰恰跟书生预料的相反,说明MYSQL对更大文件读取可能又附加了某些 ***

作(两次时间增长了近30%),如果只是单纯的赋值转换应该是差异偏小才对。

3、写文件和INSERT几乎不用测试就可以推测出,数据库效率只会更差。

4、很小的配置文件如果不需要使用到数据库特性,更加适合放到独立文件里存取,无需单独创建数据表或记录,很大的文件比如、音乐等采用文件存储更为方便,只把路径或缩略图等索引信息放到数据库里更合理一些。

5、PHP上如果只是读文件,file_get_contents比fopen、fclose更有效率,不包括判断存在这个函数时间会少3秒左右。

6、fetch_row和fetch_object应该是从fetch_array转换而来的,书生没看过PHP的源码,单从执行上就可以说明fetch_array效率更高,这跟网上的说法似乎相反。

磁盘读写与数据库的关系:

一 磁盘物理结构

(1) 盘片:硬盘的盘体由多个盘片叠在一起构成。

在硬盘出厂时,由硬盘生产商完成了低级格式化(物理格式化),作用是将空白的盘片(Platter)划分为一个个同圆心、不同半径的磁道

(Track),还将磁道划分为若干个扇区(Sector),每个扇区可存储128×2的N次方(N=0123)字节信息,默认每个扇区的大小为

512字节。通常使用者无需再进行低级格式化 *** 作。

(2) 磁头:每张盘片的正反两面各有一个磁头。

(3) 主轴:所有磁片都由主轴电机带动旋转。

(4) 控制集成电路板:复杂!上面还有ROM(内有软件系统)、Cache等。

二 磁盘如何完成单次IO *** 作

(1) 寻道

当控制器对磁盘发出一个IO *** 作命令的时候,磁盘的驱动臂(Actuator

Arm)带动磁头(Head)离开着陆区(Landing

Zone,位于内圈没有数据的区域),移动到要 *** 作的初始数据块所在的磁道(Track)的正上方,这个过程被称为寻道(Seeking),对应消耗的时

间被称为寻道时间(Seek Time);

(2) 旋转延迟

找到对应磁道还不能马上读取数据,这时候磁头要等到磁盘盘片(Platter)旋转到初始数据块所在的扇区(Sector)落在读写磁头正下方之后才能开始读取数据,在这个等待盘片旋转到可 *** 作扇区的过程中消耗的时间称为旋转延时(Rotational Delay);

(3) 数据传送

接下来就随着盘片的旋转,磁头不断的读/写相应的数据块,直到完成这次IO所需要 *** 作的全部数据,这个过程称为数据传送(Data Transfer),对应的时间称为传送时间(Transfer Time)。完成这三个步骤之后单次IO *** 作也就完成了。

根据磁盘单次IO *** 作的过程,可以发现:

单次IO时间 = 寻道时间 + 旋转延迟 + 传送时间

进而推算IOPS(IO per second)的公式为:

IOPS = 1000ms/单次IO时间

三 磁盘IOPS计算

不同磁盘,它的寻道时间,旋转延迟,数据传送所需的时间各是多少?

1 寻道时间

考虑到被读写的数据可能在磁盘的任意一个磁道,既有可能在磁盘的最内圈(寻道时间最短),也可能在磁盘的最外圈(寻道时间最长),所以在计算中我们只考虑平均寻道时间。

在购买磁盘时,该参数都有标明,目前的SATA/SAS磁盘,按转速不同,寻道时间不同,不过通常都在10ms以下:

3 传送时间2 旋转延时

和寻道一样,当磁头定位到磁道之后有可能正好在要读写扇区之上,这时候是不需要额外的延时就可以立刻读写到数据,但是最坏的情况确实要磁盘旋转整整

一圈之后磁头才能读取到数据,所以这里也考虑的是平均旋转延时,对于15000rpm的磁盘就是(60s/15000)(1/2) = 2ms。

(1) 磁盘传输速率

磁盘传输速率分两种:内部传输速率(Internal Transfer Rate),外部传输速率(External Transfer Rate)。

内部传输速率(Internal Transfer Rate),是指磁头与硬盘缓存之间的数据传输速率,简单的说就是硬盘磁头将数据从盘片上读取出来,然后存储在缓存内的速度。

理想的内部传输速率不存在寻道,旋转延时,就一直在同一个磁道上读数据并传到缓存,显然这是不可能的,因为单个磁道的存储空间是有限的;

实际的内部传输速率包含了寻道和旋转延时,目前家用磁盘,稳定的内部传输速率一般在30MB/s到45MB/s之间(服务器磁盘,应该会更高)。

外部传输速率(External Transfer Rate),是指硬盘缓存和系统总线之间的数据传输速率,也就是计算机通过硬盘接口从缓存中将数据读出交给相应的硬盘控制器的速率。

硬盘厂商在硬盘参数中,通常也会给出一个最大传输速率,比如现在SATA30的6Gbit/s,换算一下就是61024/8,768MB/s,通常指的是硬盘接口对外的最大传输速率,当然实际使用中是达不到这个值的。

这里计算IOPS,保守选择实际内部传输速率,以40M/s为例。

(2) 单次IO *** 作的大小

有了传送速率,还要知道单次IO *** 作的大小(IO Chunk Size),才可以算出单次IO的传送时间。那么磁盘单次IO的大小是多少?答案是:不确定。

*** 作系统为了提高 IO的性能而引入了文件系统缓存(File System Cache),系统会根据请求数据的情况将多个来自IO的请求先放在缓存里面,然后再一次性的提交给磁盘,也就是说对于数据库发出的多个8K数据块的读 *** 作有可能放在一个磁盘读IO里就处理了。

还有,有些存储系统也是提供了缓存(Cache),接收到 *** 作系统的IO请求之后也是会将多个 *** 作系统的 IO请求合并成一个来处理。

不管是 *** 作系统层面的缓存还是磁盘控制器层面的缓存,目的都只有一个,提高数据读写的效率。因此每次单独的IO *** 作大小都是不一样的,它主要取决于系统对于数据读写效率的判断。这里以SQL Server数据库的数据页大小为例:8K。

(3) 传送时间

传送时间 = IO Chunk Size/Internal Transfer Rate = 8k/40M/s = 02ms

可以发现:

(31) 如果IO Chunk Size大的话,传送时间会变大,从而导致IOPS变小;

(32) 机械磁盘的主要读写成本,都花在了寻址时间上,即:寻道时间 + 旋转延迟,也就是磁盘臂的摆动,和磁盘的旋转延迟。

(33) 如果粗略的计算IOPS,可以忽略传送时间,1000ms/(寻道时间 + 旋转延迟)即可。

4 IOPS计算示例

以15000rpm为例:

(1) 单次IO时间

单次IO时间 = 寻道时间 + 旋转延迟 + 传送时间 = 3ms + 2ms + 02 ms = 52 ms

(2) IOPS

IOPS = 1000ms/单次IO时间 = 1000ms/52ms = 192 (次)

这里计算的是单块磁盘的随机访问IOPS。

考虑一种极端的情况,如果磁盘全部为顺序访问,那么就可以忽略:寻道时间 + 旋转延迟 的时长,IOPS的计算公式就变为:IOPS = 1000ms/传送时间

IOPS = 1000ms/传送时间= 1000ms/02ms = 5000 (次)

显然这种极端的情况太过理想,毕竟每个磁道的空间是有限的,寻道时间 + 旋转延迟 时长确实可以减少,不过是无法完全避免的。

四 数据库中的磁盘读写

1 随机访问和连续访问

(1) 随机访问(Random Access)

指的是本次IO所给出的扇区地址和上次IO给出扇区地址相差比较大,这样的话磁头在两次IO *** 作之间需要作比较大的移动动作才能重新开始读/写数据。

(2) 连续访问(Sequential Access)

相反的,如果当次IO给出的扇区地址与上次IO结束的扇区地址一致或者是接近的话,那磁头就能很快的开始这次IO *** 作,这样的多个IO *** 作称为连续访问。

(3) 以SQL Server数据库为例

数据文件,SQL Server统一区上的对象,是以extent(88k)为单位进行空间分配的,数据存放是很随机的,哪个数据页有空间,就写在哪里,除非通过文件组给每个表预分配足够大的、单独使用的文件,否则不能保证数据的连续性,通常为随机访问。

另外哪怕聚集索引表,也只是逻辑上的连续,并不是物理上。

日志文件,由于有VLF的存在,日志的读写理论上为连续访问,但如果日志文件设置为自动增长,且增量不大,VLF就会很多很小,那么就也并不是严格的连续访问了。

2 顺序IO和并发IO

(1) 顺序IO模式(Queue Mode)

磁盘控制器可能会一次对磁盘组发出一连串的IO命令,如果磁盘组一次只能执行一个IO命令,称为顺序IO;

(2) 并发IO模式(Burst Mode)

当磁盘组能同时执行多个IO命令时,称为并发IO。并发IO只能发生在由多个磁盘组成的磁盘组上,单块磁盘只能一次处理一个IO命令。

(3) 以SQL Server数据库为例

有的时候,尽管磁盘的IOPS(Disk Transfers/sec)还没有太大,但是发现数据库出现IO等待,为什么?通常是因为有了磁盘请求队列,有过多的IO请求堆积。

磁盘的请求队列和繁忙程度,通过以下性能计数器查看:

LogicalDisk/AvgDisk Queue Length

LogicalDisk/Current Disk Queue Length

LogicalDisk/%Disk Time

这种情况下,可以做的是:

(1) 简化业务逻辑,减少IO请求数;

(2) 同一个实例下,多个数据库迁移的不同实例下;

(3) 同一个数据库的日志,数据文件分离到不同的存储单元;

(4) 借助HA策略,做读写 *** 作的分离。

3 IOPS和吞吐量(throughput)

(1) IOPS

IOPS即每秒进行读写(I/O) *** 作的次数。在计算传送时间时,有提到,如果IO Chunk Size大的话,那么IOPS会变小,假设以100M为单位读写数据,那么IOPS就会很小。

(2) 吞吐量(throughput)

吞吐量指每秒可以读写的字节数。同样假设以100M为单位读写数据,尽管IOPS很小,但是每秒读写了N100M的数据,吞吐量并不小。

(3) 以SQL Server数据库为例

对于OLTP的系统,经常读写小块数据,多为随机访问,用IOPS来衡量读写性能;

对于数据仓库,日志文件,经常读写大块数据,多为顺序访问,用吞吐量来衡量读写性能。

磁盘当前的IOPS,通过以下性能计数器查看:

LogicalDisk/Disk Transfers/sec

LogicalDisk/Disk Reads/sec

LogicalDisk/Disk Writes/sec

磁盘当前的吞吐量,通过以下性能计数器查看:

LogicalDisk/Disk Bytes/sec

LogicalDisk/Disk Read Bytes/sec

LogicalDisk/Disk Write Bytes/sec

柏睿数据,其拳头产品分布式内存数据库RapidsDB是完全国产自主研发、具有完整独立知识产权、基于全内存结构的分布式分析型数据库,提供金融级数据持久化、数据安全性、系统高可用性,高于传统磁盘架构数据库100倍以上的数据读写访问和分析功能,适用于数据量大、实时性要求高的应用场景,已经服务了中国移动、中国电信、国家健康医疗大数据中心、上海信息中心、国网陕西省电力等国央企客户与其他金融、能源、工业互联网等领域客户,百度有相关资讯的。

像分布式内存数据库RapidsDB,它主要是将数据存储在内存中,并以压缩格式备份到磁盘,因此RapidsDB只使用顺序I/O,并且事务日志的大小会小很多,这种I/O模式针对旋转磁盘和固态磁盘进行了优化,然后RapidsDB中的读取可以使用内存优化的无锁跳表和哈希表,这些都不会被在缓存池中管理。有帮助的话,可以给个大大的赞不。

顺序读取Sequential Read/ 顺序写入Sequential Write:

顺序读取/写入的速度,代表了读取大文件的速度。这个速度其实意义不大,因为日常使用中基本没有对大文件的长时间读取,除了拷贝一部高清**到手机。

而且即使目前测试出速度最慢的200mb,放一部4gb大的高清**也就是个20秒。况且,大部分时候大文件读写的瓶颈反而在电脑是否支持USB30。

随机读取Random Read/随机写入Random Write:

游客,如果您要查看本帖隐藏内容请回复或点击感谢按钮

34

PS: 如果你的读取写入很高(如上图),则可能是你的软件版本里默认设置为多线程读取写入。单线程的测试结果基本都在20~30。

数据库插入SQLite Insert/数据库更新SQLite Update/数据库删除SQLite Delete:

数据库三兄弟,作用不大,大家无视

其他影响因素

测试结果受到剩余存储空间的影响,如果你剩余空间很小,测试结果就会相应差一点。这也是为什么普遍128G的测试结果要好一些的原因。

1javaDB不是内存数据库,时能够管理TB级别数据的一个标准数据库。

使用了内存数据库,从语文角度也应理解,那就是使用了内存数据库。。这还能怎么解释。

2文件缓存和内存数据库是完全不同的概念。你把文件读取到内存中就是在内存了。你怎么都是问这样的问题。Scanner和InputStream和文件在哪没关系,他只是读取,从哪读,是你设值的,你把文件先读到内存里,他就从内存里面读,你把文件从硬盘读,他就从硬盘读。

以上就是关于读数据库,数据量太大,访问过程中,出现内存访问异常,该如何解决全部的内容,包括:读数据库,数据量太大,访问过程中,出现内存访问异常,该如何解决、一个例子说明内存数据库为什么比磁盘数据库要快、国内有哪些内存数据库公司等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9644152.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存