测量数据包每秒(packets per second 缩写pps)比测量字节每秒(bytes per second简写Bps)更有意义。
可以通过优化管道(piplelining)和发送更长的数据包来实现高Bps。但提高pps比这难得多。
数据库吧,你用什么数据库
mysql可以配合lucene做搜索引擎,还不够大可以用cluster一般你用like没问题,索引要做得好。
如果大家有异议,可以在后面补充。我会随时更新的。
现在大概列出如下:(望各位补充)
1数据库的设计
尽量把数据库设计的更小的占磁盘空间
1)尽可能使用更小的整数类型(mediumint就比int更合适)
2)尽可能的定义字段为notnull,除非这个字段需要null(这个规则只适合字段为KEY的情形)
3)如果没有用到变长字段的话比如varchar,那就采用固定大小的纪录格式比如char(CHAR总是比VARCHR快)
4)表的主索引应该尽可能的短这样的话每条纪录都有名字标志且更高效
5)只创建确实需要的索引。索引有利于检索记录,但是不利于快速保存记录。如果总是要在表的组合字段上做搜索,那么就在这些字段上创建索引。索引的第一部分必须是最常使用的字段如果总是需要用到很多字段,首先就应该多复制这些字段,使索引更好的压缩。
(这条只适合MYISAM引擎的表,对于INNODB则在保存记录的时候关系不大,因为INNODB是以事务为基础的,如果想快速保存记录的话,特别是大批量的导入记录的时候)
6)所有数据都得在保存到数据库前进行处理。
7)所有字段都得有默认值。
8)在某些情况下,把一个频繁扫描的表分成两个速度会快好多。在对动态格式表扫描以取得相关记录时,它可能使用更小的静态格式表的情况下更是如此。
(具体的表现为:MYISAM表的MERGE类型,以及MYISAM和INNODB通用的分区,详情见手册)
9)不会用到外键约束的地方尽量不要使用外键。
2系统的用途
1)及时的关闭对MYSQL的连接。
2)explain复杂的SQL语句。(这样能确定你的SELECT语句怎么优化最佳)
3)如果两个关联表要做比较话,做比较的字段必须类型和长度都一致(在数据庞大的时候建立INDEX)
4)LIMIT语句尽量要跟orderby或者distinct这样可以避免做一次fulltablescan
5)如果想要清空表的所有纪录,建议用truncatetabletablename而不是deletefromtablename
不过有一个问题,truncate不会在事务处理中回滚。因为她要调用createtable语句。
(TruncateTable语句先删除表然后再重建,这个是属于文件界别的,所以自然快N多)
这一点手册上有详细解释:
1329TRUNCATE语法
TRUNCATE[TABLE]tbl_name
TRUNCATETABLE用于完全清空一个表。从逻辑上说,该语句与用于删除所有行的DELETE语句等同,但是在有些情况下,两者在使用上有所不同。
对于InnoDB表,如果有需要引用表的外键限制,则TRUNCATETABLE被映射到DELETE上;否则使用快速删减(取消和重新创建表)。使用TRUNCATETABLE重新设置AUTO_INCREMENT计数器,设置时不考虑是否有外键限制。
对于其它存储引擎,在MySQL51中,TRUNCATETABLE与DELETEFROM有以下几处不同:
删减 *** 作会取消并重新创建表,这比一行一行的删除行要快很多。
删减 *** 作不能保证对事务是安全的;在进行事务处理和表锁定的过程中尝试进行删减,会发生错误。
被删除的行的数目没有被返回。
只要表定义文件tbl_namefrm是合法的,则可以使用TRUNCATETABLE把表重新创建为一个空表,即使数据或索引文件已经被破坏。
表管理程序不记得最后被使用的AUTO_INCREMENT值,但是会从头开始计数。即使对于MyISAM和InnoDB也是如此。MyISAM和InnoDB通常不再次使用序列值。
当被用于带分区的表时,TRUNCATETABLE会保留分区;即,数据和索引文件被取消并重新创建,同时分区定义(par)文件不受影响。
TRUNCATETABLE是在MySQL中采用的一个OracleSQL扩展。
}
6)能使用STOREPROCEDURE或者USERFUNCTION的时候(ROUTINE总是减少了服务器端的开销)
7)在一条insert语句中采用多重纪录插入格式而且使用loaddatainfile来导入大量数据,这比单纯的indert快好多(在MYSQL中具体表现为:INSERTINTOTABLEQVALUES(),(),();)
(还有就是在MYISAM表中插入大量记录的时候先禁用到KEYS后面再建立KEYS,具体表现语句:
ALTERTABLETABLE1DISABLEKEYS;ALTERTABLETABLE1ENABLEKEYS;
而对于INNNODB表在插入前先setautocommit=0;完了后:setautocommit=1;这样效率比较高。)
8)经常OPTIMIZETABLE来整理碎片
9)还有就是date类型的数据如果频繁要做比较的话尽量保存在unsignedint类型比较快。
3系统的瓶颈
1)磁盘搜索
并行搜索,把数据分开存放到多个磁盘中,这样能加快搜索时间
2)磁盘读写(IO)
可以从多个媒介中并行的读取数据。
3)CPU周期
数据存放在主内存中这样就得增加CPU的个数来处理这些数据。
4)内存带宽
当CPU要将更多的数据存放到CPU的缓存中来的话,内存的带宽就成了瓶颈
1、打开文件中有商品名称、单价、数量及金额,通常我们要做的是在每一项商品里录入单价和需要的数量,然后计算金额。我们可以利用excel表格里面的运算公式,让软件自动计算出每一项金额,我们要做就是确保:单价和数量的正确。
2、运算公式的使用是这样的:首先在表格里面选定合适的位置,然后输入:等于“=”开始执行计算数据类型,求和的话我们一般使用:“=SUM(G1:G7)”公式。,其中,SUM指的是求和命令,G指的是表格的纵向,1指的是表格的横向。
3、假设在一个excel表格里面,需要处理几百项数据甚至几千万数据,可以在其中一行的一个项,写好计算公式,然后用鼠标往下拉复制,便可以轻松快速得出结果。
4、这是单项相乘的运算方法;公式是:“=D2E2”,意思为:D纵列的第2行和E纵列的第2行相乘,得出的结果会在G纵列的第2行显示出来。
5、在表格里面做好相对应的名称,在D纵列的第2行输入公式:"=表一!G9",意思是:在这个框里面,链接“表格一”里面的“G纵列的第9行”数据,即总价的金额。
SQL 关键索引,在大表上创建索引
千万记录的表不算大,只要索引创建对了,性能可以正常提升,
还有一种就是比较偏的方式:先把需要批量的数据库插入临时表
这个可以防止频繁对表进行查询 *** 作,
SQL 如下:select into #Temp from Table
后面就只需要对临时表 *** 作,不允许主表性能。
R语言
R是一套完整的数据处理、计算和制图软件系统。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可 *** 纵数据的输入和输出,可实现分支、循环,用户可自定义功能。
与其说R是一种统计软件,还不如说R是一种数学计算的环境,因为R并不是仅仅提供若干统计程序、使用者只需指定数据库和若干参数便可进行一个统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动的进行数据分析,甚至创造出符合需要的新的统计计算方法。
该语言的语法表面上类似 C,但在语义上是函数设计语言(functional programming language)的变种并且和Lisp以及APL有很强的兼容性。特别的是,它允许在“语言上计算”(computing on the language)。这使得它可以把表达式作为函数的输入参数,而这种做法对统计模拟和绘图非常有用。
R是一个免费的自由软件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免费下载和使用的。在那儿可以下载到R的安装程序、各种外挂程序和文档。在R的安装程序中只包含了8个基础模块,其他外在模块可以通过CRAN获得。
R的源代码可自由下载使用,亦有已编译的执行档版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。 R主要是以命令行 *** 作,同时有人开发了几种图形用户界面。
R内建多种统计学及数字分析功能。因为S的血缘,R比其他统计学或数学专用的编程语言有更强的物件导向(面向对象程序设计)功能。
R的另一强项是绘图功能,制图具有印刷的素质,也可加入数学符号。
虽然R主要用于统计分析或者开发统计相关的软体,但也有人用作矩阵计算。其分析速度可媲美GNU Octave甚至商业软件MATLAB。
R的功能能够通过由用户撰写的套件增强。增加的功能有特殊的统计技术、绘图功能,以及编程界面和数据输出/输入功能。这些软件包是由R语言、LaTeX、Java及最常用C语言和Fortran撰写。下载的执行档版本会连同一批核心功能的软件包,而根据CRAN纪录有过千种不同的软件包。其中有几款较为常用,例如用于经济计量、财经分析、人文科学研究以及人工智能。
你要整表删除吗,那么你用truncate table 可以瞬间删除所有记录,但是这个不记录log,无法回滚。也不能加条件。
如果要加条件,就只好用delete了,或者就是用DTS把你所要的表导出到文本,然后清空表,再把文本导回表中。
你用sp_spaceused 'talbe_name'可以迅速查到你要的记录数,及表所占的空间。
truncate table table_name
delete table_name where
sp_spaceused 'table_name'
如果这样你可以用bcp先导出你要的5千万数据
先count()你的记录然后-8kw=@num
1、在cmd下,导出你要保留的记录到文本data_1中
E:\>bcp "select top @num from dbdbotable order by id desc" queryout data_1txt -c -t "|" -r \n -U sa -P password
2、truncate table table_name ---trun掉你的表
3、将 data_1txt 的数据导入到table中
E:\temp>bcp dbdboTable in data_1txt -b 5000 -c -t ",|" -r \n -U sa -P password
4、ok搞定
速度绝对比delete快不知道多少倍。
而且日志也比较小。
然后你要高出1千五百万也可以用bcp来做。
效率很高。
我们常用的2中方法:
1,同一个DB下,新建另一张备份表。
2,不同的DB,新建另一张备份表,表名和原来的相同。查询备份数据的程序只需要修改数据库连接即可。
在每月的1号设置一个自动JOB,把数据备份出来;然后对原表执行重组,提高查询效率。
以上就是关于写一个每秒接收 100 万数据包的程序究竟有多难全部的内容,包括:写一个每秒接收 100 万数据包的程序究竟有多难、千万量级数据库设计能力是指什么、如何快速处理一张有100万条数据的excel表等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)