如何处理海量数据_工具

在实际的工作环境下，许多人会遇到海量数据这个复杂而艰巨的问题，它的主要难点有以下几个方面：

一、数据量过大，数据中什么情况都可能存在。

如果说有10条数据，那么大不了每条去逐一检查，人为处理，如果有上百条数据，也可以考虑，如果数据上到千万级别，甚至过亿，那不是手工能解决的了，必须通过工具或者程序进行处理，尤其海量的数据中，什么情况都可能存在，例如，数据中某处格式出了问题，尤其在程序处理时，前面还能正常处理，突然到了某个地方问题出现了，程序终止了。

二、软硬件要求高，系统资源占用率高。

对海量的数据进行处理，除了好的方法，最重要的就是合理使用工具，合理分配系统资源。一般情况，如果处理的数据过TB级，小型机是要考虑的，普通的机子如果有好的方法可以考虑，不过也必须加大CPU和内存，就象面对着千军万马，光有勇气没有一兵一卒是很难取胜的。

三、要求很高的处理方法和技巧。

这也是本文的写作目的所在，好的处理方法是一位工程师长期工作经验的积累，也是个人的经验的总结。没有通用的处理方法，但有通用的原理和规则。

下面我们来详细介绍一下处理海量数据的经验和技巧：

一、选用优秀的数据库工具

现在的数据库工具厂家比较多，对海量数据的处理对所使用的数据库工具要求比较高，一般使用Oracle或者DB2，微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域：数据库，数据仓库，多维数据库，数据挖掘等相关工具也要进行选择，象好的ETL工具和好的OLAP工具都十分必要，例如Informatic，Eassbase等。笔者在实际数据分析项目中，对每天6000万条的日志数据进行处理，使用SQL Server 2000需要花费6小时，而使用SQL Server 2005则只需要花费3小时。

二、编写优良的程序代码

处理数据离不开优秀的程序代码，尤其在进行复杂数据处理时，必须使用程序。好的程序代码对数据的处理至关重要，这不仅仅是数据处理准确度的问题，更是数据处理效率的问题。良好的程序代码应该包含好的算法，包含好的处理流程，包含好的效率，包含好的异常处理机制等。

三、对海量数据进行分区 *** 作

对海量数据进行分区 *** 作十分必要，例如针对按年份存取的数据，我们可以按年进行分区，不同的数据库有不同的分区方式，不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下，而不同的文件组存于不同的磁盘分区下，这样将数据分散开，减小磁盘I/O，减小了系统负荷，而且还可以将日志，索引等放于不同的分区下。

四、建立广泛的索引

对海量的数据处理，对大表建立索引是必行的，建立索引要考虑到具体情况，例如针对大表的分组、排序等字段，都要建立相应索引，一般还可以建立复合索引，对经常插入的表则建立索引时要小心，笔者在处理数据时，曾经在一个ETL流程中，当插入表时，首先删除索引，然后插入完毕，建立索引，并实施聚合 *** 作，聚合完成后，再次插入前还是删除索引，所以索引要用到好的时机，索引的填充因子和聚集、非聚集索引都要考虑。

五、建立缓存机制

当数据量增加时，一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败，例如，笔者在处理2亿条数据聚合 *** 作时，缓存设置为100000条/Buffer，这对于这个级别的数据量是可行的。

六、加大虚拟内存

如果系统资源有限，内存提示不足，则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理，内存为1GB，1个P424G的CPU，对这么大的数据量进行聚合 *** 作是有问题的，提示内存不足，那么采用了加大虚拟内存的方法来解决，在6块磁盘分区上分别建立了6个4096M的磁盘分区，用于虚拟内存，这样虚拟的内存则增加为 40966 + 1024 =25600 M，解决了数据处理中的内存不足问题。

七、分批处理

海量数据处理难因为数据量大，那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理，然后处理后的数据再进行合并 *** 作，这样逐个击破，有利于小数据量的处理，不至于面对大数据量带来的问题，不过这种方法也要因时因势进行，如果不允许拆分数据，还需要另想办法。不过一般的数据按天、按月、按年等存储的，都可以采用先分后合的方法，对数据进行分开处理。

八、使用临时表和中间表

数据量增加时，处理中要考虑提前汇总。这样做的目的是化整为零，大表变小表，分块处理完成后，再利用一定的规则进行合并，处理过程中的临时表的使用和中间结果的保存都非常重要，如果对于超海量的数据，大表处理不了，只能拆分为多个小表。如果处理过程中需要多步汇总 *** 作，可按汇总步骤一步步来，不要一条语句完成，一口气吃掉一个胖子。

九、优化查询SQL语句

在对海量数据进行查询处理过程中，查询的SQL语句的性能对查询效率的影响是非常大的，编写高效优良的SQL脚本和存储过程是数据库工作人员的职责，也是检验数据库工作人员水平的一个标准，在对SQL语句的编写过程中，例如减少关联，少用或不用游标，设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标，运行3个小时没有出结果，这是一定要改用程序处理了。

十、使用文本格式进行处理

对一般的数据处理可以使用数据库，如果对复杂的数据处理，必须借助程序，那么在程序 *** 作数据库和程序 *** 作文本之间选择，是一定要选择程序 *** 作文本的，原因为：程序 *** 作文本速度快；对文本进行处理不容易出错；文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者 csv格式（文本格式），对它进行处理牵扯到数据清洗，是要利用程序进行处理的，而不建议导入数据库再做清洗。

十一、定制强大的清洗规则和出错处理机制

海量数据中存在着不一致性，极有可能出现某处的瑕疵。例如，同样的数据中的时间字段，有的可能为非标准的时间，出现的原因可能为应用程序的错误，系统的错误等，这是在进行数据处理时，必须制定强大的数据清洗规则和出错处理机制。

十二、建立视图或者物化视图

视图中的数据来源于基表，对海量数据的处理，可以将数据按一定的规则分散到各个基表中，查询或处理过程中可以基于视图进行，这样分散了磁盘I/O，正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。

十三、避免使用32位机子（极端情况）

目前的计算机很多都是32位的，那么编写的程序对内存的需要便受限制，而很多的海量数据处理是必须大量消耗内存的，这便要求更好性能的机子，其中对位数的限制也十分重要。

十四、考虑 *** 作系统问题

海量数据处理过程中，除了对数据库，处理程序等要求比较高以外，对 *** 作系统的要求也放到了重要的位置，一般是必须使用服务器的，而且对系统的安全性和稳定性等要求也比较高。尤其对 *** 作系统自身的缓存机制，临时空间的处理等问题都需要综合考虑。

十五、使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的，传统的报表可能5、6个小时出来结果，而基于Cube的查询可能只需要几分钟，因此处理海量数据的利器是OLAP多维分析，即建立数据仓库，建立多维数据集，基于多维数据集进行报表展现和数据挖掘等。

十六、使用采样数据，进行数据挖掘

基于海量数据的数据挖掘正在逐步兴起，面对着超海量的数据，一般的挖掘软件或算法往往采用数据抽样的方式进行处理，这样的误差不会很高，大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和，防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样，抽取出 400万行，经测试软件测试处理的误差为千分之五，客户可以接受。

还有一些方法，需要在不同的情况和场合下运用，例如使用代理键等 *** 作，这样的好处是加快了聚合时间，因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。

海量数据是发展趋势，对数据分析和挖掘也越来越重要，从海量数据中提取有用信息重要而紧迫，这便要求处理要准确，精度要高，而且处理时间要短，得到有价值信息要快，所以，对海量数据的研究很有前途，也很值得进行广泛深入的研究。

分布式数据库系统通常使用较小的计算机系统，每台计算机可单独放在一个地方，每台计算机中都有DBMS的一份完整拷贝副本，并具有自己局部的数据库，位于不同地点的许多计算机通过网络互相连接，共同组成一个完整的、全局的大型数据库。

　这种组织数据库的方法克服了物理中心数据库组织的弱点。首先，降低了数据传送代价，因为大多数的对数据库的访问 *** 作都是针对局部数据库的，而不是对其他位置的数据库访问；其次，系统的可靠性提高了很多，因为当网络出现故障时，仍然允许对局部数据库的 *** 作，而且一个位置的故障不影响其他位置的处理工作，只有当访问出现故障位置的数据时，在某种程度上才受影响；第三，便于系统的扩充，增加一个新的局部数据库，或在某个位置扩充一台适当的小型计算机，都很容易实现。然而有些功能要付出更高的代价。例如，为了调配在几个位置上的活动，事务管理的性能比在中心数据库时花费更高，而且甚至抵消许多其他的优点。

1亿数据是什么概念？1亿行的一张表？

明显你没有实际接触过数据库乱问。

好吧，坦白的讲，DB2卖的好那是因为它是IBM的，现在的主流小型机都是IBM。和什么海量不海量一点关系都没有。

但现在无数企业买IBM的小型机用ORACLE的数据库。oracle的数据库占市场44％的份额。

移动的数据够不够海量？人家也有用oracle作为业务数据库。别跟我讲你的数据能比移动更海量。除非你是全国人口统计之类的。不过那个用的也是oracle

大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。

大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和呈现的有力武器。

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

一、大数据采集技术

数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据，是大数据知识服务模型的根本。

重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型，开发数据质量技术。

互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果你真的想做，可以来这里，这个手机的开始数字是一八七中间的是三儿

零最后的是一四二五零，按照顺序组合起来就可以找到，我想说的是，除非你想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了。

大数据采集一般分为大数据智能感知层：主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。

基础支撑层：提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。

重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策 *** 作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

二、大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等 *** 作。

1)抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

2)清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

三、大数据存储及管理技术

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。

重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。

主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。

开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术，异构数据的数据融合技术，数据组织技术，研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术，数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。

其中，非关系型数据库主要指的是NoSQL数据库，分为：键值数据库、列存数据库、图存数据库以及文档数据库等类型。

关系型数据库包含了传统关系数据库系统以及NewSQL数据库。

开发大数据安全技术。

改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

四、大数据分析及挖掘技术

大数据分析技术。

改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘涉及的技术方法很多，有多种分类法。

根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分，可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。

机器学习中，可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。

统计方法中，可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。

神经网络方法中，可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。

数据库方法主要是多维数据分析或OLAP方法，另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度，着重突破：

1可视化分析。

数据可视化无论对于普通用户或是数据分析专家，都是最基本的功能。

数据图像化可以让数据自己说话，让用户直观的感受到结果。

2数据挖掘算法。

图像化是将机器语言翻译给人看，而数据挖掘就是机器的母语。

分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据，挖掘价值。

这些算法一定要能够应付大数据的量，同时还具有很高的处理速度。

3预测性分析。

预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。

4语义引擎。

语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。

5数据质量和数据管理。

数据质量与管理是管理的最佳实践，透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

六、大数据展现与应用技术

大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。

在我国，大数据将重点应用于以下三大领域：商业智能、决策、公共服务。

例如：商业智能技术，决策技术，电信数据信息处理与挖掘技术，电网数据信息处理与挖掘技术，气象信息分析技术，环境监测技术，警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)，大规模基因序列分析比对技术，Web信息挖掘技术，多媒体数据并行化处理技术，影视制作渲染技术，其他各种行业的云计算和海量数据处理应用技术等。

数据库技术的发展趋势:

根据数据库应用及多家分析机构的评估，数据库技术发展将以应用为导向，面向业务服务，并与计算机网络和人工智能等技术结合，为新型应用提供多种支持。

（1）云数据库和混合数据快速发展

云数据库（Cloud Database）简称为云库，是在云计算环境中部署和虚拟化的数据库。将各种关系型数据库看成一系列简单的二维表，并基于简化版本的SQL或访问对象进行 *** 作。使传统关系型数据库通过提交一个有效地链接字符串即可加入云数据库，云数据库可解决数据集中更广泛的异地资源共享问题。

（2）数据集成与数据仓库

数据仓库（Data Warehouse）是面向主题、集成、相对稳定、反映历史变化的数据集合，是决策支持系统和联机分析应用数据源的结构化数据环境。主要侧重对机构历史数据的综合分析利用，找出对企业发展有价值的信息，以提供决策支持，帮助提高效益。其特征是面向主题、集成性、稳定性和时变性。新一代数据库使数据集成和数据仓库的实施更简单。数据应用逐步过渡到数据服务，开始注重处理：关系型与非关系型数据的融合、分类、国际化多语言数据。

（3）主数据管理和商务智能

在企事业机构内部业务应用整合和系统互联中，许多机构具有相同业务语义的数据被多次反复定义和存储，导致数据大量冗余成为IT环境发展的障碍，为了有效使用和管理这些数据，主数据管理已经成为一个新的热点。

商务智能（Business Intelligence）是指利用数据仓库及数据挖掘技术对业务数据分析处理并提供决策信息和报告，促进企业利用现代信息技术收集、管理和分析商务数据，改善决策水平，提升绩效，增强综合竞争力的智慧和能力。是企业利用现代信息技术收集、管理和分析商务数据和信息，创造和累计商务知识和见解，改善商务决策水平，采取有效的商务行动，完善各种商务流程，提升各方面商务绩效，增强综合竞争力的智慧和能力。融合了先进信息技术与创新管理理念的结合体，集成企业内外的数据，加工并从中提取能够创造商业价值的信息，面向企业战略并服务于管理层。

（4）“大数据”促进新型数据库

进入“大数据时代”，大数据量、高并发、分布式和实时性的需求，由于传统的数据库技术的数据模型和预定义的 *** 作模式，时常难以满足实际需求，致使新型数据库在大数据的场景下，将取代传统数据库成为主导。

（5）基于网络的自动化管理

网络数据库应用系统的广泛应用，使数据库管理更加自动化。如网购、网银等系统，从企业级Enterprise-class到世界级World-class的转变，提供更多基于Internet环境的管理工具，完成数据库管理网络化。应用程序编程接口API(Application ProgrammingInterface)更开放，基于浏览器端技术的管理套件，便于分布远程管理。

（6）PHP将促进数据库产品应用

随着新一代Web技术的广泛应用，在NET和Java成为数据应用的主体开发平台后，很多厂商为了争取市场在新版本数据库产品推出后，提供面向超级文本预处理语言PHP（Hypertext Preprocessor）的专用驱动和应用。

（7）数据库将与业务语义的数据内容融合

数据库将更广泛地为用于“信息服务”。对新一代基于AJAX、MashUp、SNS等技术的创新应用，数据从集中于逻辑中心数据库，改为分布网络，为了给予技术支持，数据聚集及基于业务语义的数据内容融合也成为数据库发展的方向，不仅在商务智能领域不断加强对服务应用的支持，而且注重加强数据集成服务。

去打的超市买东西，收银机是连在数据库上的、去银行存钱，是要连数据库的、打电话，通话记录是存在数据库里的、话费计算也是要用数据库的、其他的水电煤气费都是这样、去大一点的医院，从挂号开始，都是要连数据库的。

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库，它产生于距今六十多年前，随着信息技术和市场的发展，特别是二十世纪九十年代以后，数据管理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。

在信息化社会，充分有效地管理和利用各类信息资源，是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分，是进行科学研究和决策管理的重要技术手段。

数据库，简单来说是本身可视为电子化的文件柜--存储电子文件的处所，用户可以对文件中的数据进行新增、截取、更新、删除等 *** 作。

数据库指的是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。

在经济管理的日常工作中，常常需要把某些相关的数据放进这样的"仓库"，并根据管理的需要进行相应的处理。

例如，企业或事业单位的人事部门常常要把本单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、简历等)存放在表中，这张表就可以看成是一个数据库。

有了这个"数据仓库"我们就可以根据需要随时查询某职工的基本情况，也可以查询工资在某个范围内的职工人数等等。这些工作如果都能在计算机上自动进行，那我们的人事管理就可以达到极高的水平。

此外，在财务管理、仓库管理、生产管理中也需要建立众多的这种"数据库"，使其可以利用计算机实现财务、仓库、生产的自动化管理。

以上就是关于如何处理海量数据全部的内容，包括:如何处理海量数据、如何在海量数据环境下，搭建分布式数据库系统、oracle数据库和db2数据库哪个处理海量数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9488768.html

如何处理海量数据

发表评论

评论列表（0条）