八个最佳的数据中心开源挖掘工具_工具

数据挖掘，又称为资料探勘、数据采矿。它是数据库知识发现(英语：Knowledge-DiscoveryinDatabases，简称：KDD)中的一个步骤，是一个挖掘和分析大量数据并从中提取信息的过程。其中一些应用包括市场细分-如识别客户从特定品牌购买特定产品的特征，欺诈检测-识别可能导致在线欺诈的交易模式等。在本文中，昌平电脑培训整理了进行数据挖掘的8个最佳开源工具。

1、Weka

WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。

2、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。

3、Orange

Orange是一个基于组件的数据挖掘和机器学习软件套装，它的功能即友好，又很强大，快速而又多功能的可视化编程前端，以便浏览数据分析和可视化，基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理，并提供了数据帐目，过渡，建模，模式评估和勘探的功能。其由C++和Python开发，它的图形库是由跨平台的Qt框架开发。

4、Knime

KNIME(KonstanzInformationMiner)是一个用户友好，智能的，并有丰演的开源的数据集成，数据处理，数据分析和数据勘探平台。

5、jHepWork

jHepWork是一套功能完整的面向对象科学数据分析框架。Jython宏是用来展示一维和二维直方图的数据。该程序包括许多工具，可以用来和二维三维的科学图形进行互动。

6、ApacheMahout

ApacheMahout是ApacheSoftwareFoundation(ASF)开发的一个全新的开源项目，其主要目标是创建一些可伸缩的机器学习算法，供开发人员在Apache在许可下免费使用。该项目已经发展到了它的最二个年头，目前只有一个公共发行版。Mahout包含许多实现，包括集群、分类、CP和进化程序。此外，通过使用ApacheHadoop库，Mahout可以有效地扩展到云中。

7、ELKI

ELKI(EnvironmentforDevelopingKDD-ApplicationsSupportedbyIndex-Structures)主要用来聚类和找离群点。ELKI是类似于weka的数据挖掘平台，用java编写，有GUI图形界面。可以用来寻找离群点。

如果打算为项目选择一款免费、开源的数据库，那么你可能会在MySQL与PostgreSQL之间犹豫不定。MySQL与PostgreSQL都是免费、开源、强大、且功能丰富的数据库。你主要的问题可能是：哪一个才是最好的开源数据库，MySQL还是PostgreSQL呢？该选择哪一个开源数据库呢？

在选择数据库时，你所做的是个长期的决策，因为后面如果再改变决定将是非常困难且代价高昂的。你希望一开始就选择正确。两个流行的开源数据库MySQL与PostgreSQL常常成为最后要选择的产品。对这两个开源数据库的高层次概览将会有助于你选择最适合自己需要的。

MySQL

MySQL相对来说比较年轻，首度出现在1994年。它声称自己是最流行的开源数据库。MySQL就是LAMP（用于Web开发的软件包，包括Linux、Apache及Perl/PHP/Python）中的M。构建在LAMP栈之上的大多数应用都会使用MySQL，包括那些知名的应用，如WordPress、Drupal、Zend及phpBB等。

一开始，MySQL的设计目标是成为一个快速的Web服务器后端，使用快速的索引序列访问方法（ISAM），不支持ACID。经过早期快速的发展之后，MySQL开始支持更多的存储引擎，并通过InnoDB引擎实现了ACID。MySQL还支持其他存储引擎，提供了临时表的功能（使用MEMORY存储引擎），通过MyISAM引擎实现了高速读的数据库，此外还有其他的核心存储引擎与第三方引擎。

MySQL的文档非常丰富，有很多质量不错的免费参考手册、图书与在线文档，还有来自于Oracle和第三方厂商的培训与支持。

MySQL近几年经历了所有权的变更和一些颇具戏剧性的事件。它最初是由MySQLAB开发的，然后在2008年以10亿美金的价格卖给了Sun公司，Sun公司又在2010年被Oracle收购。Oracle支持MySQL的多个版本：Standard、Enterprise、Classic、Cluster、Embedded与Community。其中有一些是免费下载的，另外一些则是收费的。其核心代码基于GPL许可，对于那些不想使用GPL许可的开发者与厂商来说还有商业许可可供使用。

现在，基于最初的MySQL代码还有更多的数据库可供选择，因为几个核心的MySQL开发者已经发布了MySQL分支。最初的MySQL创建者之一Michael"Monty"Widenius貌似后悔将MySQL卖给了Sun公司，于是又开发了他自己的MySQL分支MariaDB，它是免费的，基于GPL许可。知名的MySQL开发者BrianAker所创建的分支Drizzle对其进行了大量的改写，特别针对多CPU、云、网络应用与高并发进行了优化。

PostgreSQL

PostgreSQL标榜自己是世界上最先进的开源数据库。PostgreSQL的一些粉丝说它能与Oracle相媲美，而且没有那么昂贵的价格和傲慢的客服。它拥有很长的历史，最初是1985年在加利福尼亚大学伯克利分校开发的，作为Ingres数据库的后继。

可靠性是PostgreSQL的最高优先级。它以坚如磐石的品质和良好的工程化而闻名，支持高事务、任务关键型应用。PostgreSQL的文档非常精良，提供了大量免费的在线手册，还针对旧版本提供了归档的参考手册。PostgreSQL的社区支持是非常棒的，还有来自于独立厂商的商业支持。

数据一致性与完整性也是PostgreSQL的高优先级特性。PostgreSQL是完全支持ACID特性的，它对于数据库访问提供了强大的安全性保证，充分利用了企业安全工具，如Kerberos与OpenSSL等。你可以定义自己的检查，根据自己的业务规则确保数据质量。在众多的管理特性中，point-in-timerecovery（PITR）是非常棒的特性，这是个灵活的高可用特性，提供了诸如针对失败恢复创建热备份以及快照与恢复的能力。但这并不是PostgreSQL的全部，项目还提供了几个方法来管理PostgreSQL以实现高可用、负载均衡与复制等，这样你就可以使用适合自己特定需求的功能了。

在此次征集的开源软件解决方案中，经过组织专家评选，《计算机世界》方案评析实验室推荐了5个开源软件解决方案。本报在此摘登其内容概要，有兴趣的读者可登录计世网（ccwcomcn）查询方案全文。

开源软件解决方案

邮区中心局生产作业系统是全国邮政综合网非常重要的应用系统之一，红旗软件为其搭建了一个高效、稳定、安全的系统平台。

中科红旗

搭建邮区中心局作业系统

方案背景

邮区中心局生产作业系统是邮政综合网系统的一个重要组成部分，按照邮政生产的四大基本环节（收寄―处理―运输―投递）划分，邮区中心局主要负责邮件的处理和运输任务，它是一个邮区的邮件处理中心。

邮区中心局生产作业系统不仅要完成一个邮区中心局内邮政生产作业系统的计算机数字化、自动化和信息化的生产运作和管理，更要以此为基础构造一个全国性统一的邮政生产作业网络系统。因此该系统不只是在邮区中心局内的一个生产作业系统，更是作为全国邮区中心局间的邮件运输、交接、生产作业、业务查询、信息交换等系统的有机组成部分，承担着对局站间的物流和信息流处理的重要职责。

邮区中心局生产作业系统作为全国邮政综合网非常重要的应用系统之一，为更好地服务于目前及将来的业务需求，应尽量利用现有资源，该系统的设计、开发、实施、运行应遵循实用性、开放性、综合性、统一性以及安全性等原则。

部署实施过程

在中心机房采用了Red Flag DC Server作为 *** 作系统，采用Red Flag HA Server对数据库及应用做系统热备份; 在生产车间采用Red Flag DC Server作 *** 作系统。

● 生产中心

生产中心是邮区中心局生产作业系统的数据中心，在此设置枢纽服务器，存储管理邮区中心局生产作业系统的生产数据，同时还是邮区中心局内和综合网其他系统的数据交换枢纽。生产中心服务器系统分为数据库服务器和应用服务器两部分。

数据库服务器

数据库服务器是整个业务系统的核心，采用 Oracle作为数据库管理平台，数据库服务分为生产数据库和历史数据库两个实例，为了保证其7x24小时不间断地提供服务，采用两台IBM xSeries 255运行Red Flag DC Server *** 作系统，通过红旗高可用（HA）集群软件组成高可用系统。

应用服务器和Web服务器

邮区中心局生产作业系统的应用服务器采用Tuxedo作为中间件平台的生产作业应用系统，而对于历史数据系统采用的是在Weblogic系统上的B/S模式的数据管理及查询系统，应用服务器及Web服务器系统同样要确保其7x24小时不间断提供服务，这就要求系统同样具有极高的可靠性和可用性。本系统方案中采用两台IBM xServer255分别作为应用服务器和Web服务器，采用Red Flag DC Server作为 *** 作系统，为了保证其高可用性，中心局通过红旗高可用（HA）集群软件将其组成高可用系统。与数据库集群类似，该集群中同样包括Tuxedo和Weblogic两个应用，并将两个应用分别分布在两台主机上，组成Active/Active模式的互为热备份系统。当一台服务器发生故障时，另一台服务器可以在最短的时间内接管失败服务器上的应用，即其上同时运行两个应用，同时提供服务，从而保证业务的可靠性和连续性。当失败服务器恢复正常时，原来运行在其上的应用会重新返回，系统重新达到平衡状态。

● 邮件处理中心

在邮政枢纽中心的范围内，建设一个城域网，所辖各生产车间的客户端通过该车间服务器接入到生产中心服务器中，车间服务器承担终端服务器和应用通信服务器的功能。

车间服务器系统的配置方案是: Red Flag DC Server *** 作系统＋ PostgresSQL数据库。

Red Flag DC Server的卓越网络性能使各车间服务器更能充分发挥其硬件效能，使整个应用系统更加稳定可靠地运行。

Red Flag DC Server不仅具有很高的开发性，稳定性，可靠性，安全性和可用性，还针对Oracle数据库做了进一步的优化工作，包括I/O子系统优化、虚拟内存子系统优化、进程调度及SMP优化等，所有这些特性使得生产中心服务器系统能够高效稳定地运行。

整个应用系统采用单一的 *** 作系统平台，极大地提高了系统的易维护性，同时Red Flag DC Server优异的整体性能充分满足了生产作业系统的各项技术指标，为系统长期稳定运行提供了极大的保障。

技术和产品介绍

红旗软件在部署实施该系统过程中，综合提供了如下软硬件产品，共同搭建了一个高效、稳定、安全的系统平台:

软件平台采用Red Flag DC（数据中心）Server和Red Flag HA（高可用） Server;

硬件平台采用IBM 255 （4CPU,P4 exon 16G ,4G内存），FastT 200磁盘阵列柜，IBM光线交换机以及DELL 1600SC。

中间件/数据库等其他第三方产品采用Oracle、Tuxedo和Weblogic。

红旗数据中心服务器软件提供了一个稳定安全的计算平台，让企业用户充分利用Linux的可伸缩、高性能和开放性的优势，从容面对快速的业务增长和未来的挑战。它满足从32位到64位关键应用的系统需求，作为强大的数据中心或者分布的网络应用服务器集群，创造连续高效的业务价值。它适用于各种硬件平台、异构环境和服务应用。为企业在部署数据中心、网络应用和安全接入服务等方面提供了更加完整灵活的支持。它广泛支持企业级硬件和大型商业软件，提供易用的图形界面和智能管理工具集。

随着Linux大规模进入企业级关键应用，用户对系统24 小时×365 天的可靠性要求越来越高。Red Flag HA Server是红旗软件推出的企业级高可用集群软件，支持多种硬件架构，能提供Linux 平台的高可用和高可靠以及高扩展性解决方案。

Red Flag HA Server适用于对应用系统有严格高可靠性要求的企业、政府、军队、重要商业网站、ISP/ICP或数据库应用等用户。

Red Hat

深入移动核心业务

中国移动通信采用Red Hat Enterprise Linux作为WEB服务器及应用服务器业务支撑平台来满足应用需求。

方案背景

中国移动通信集团公司（简称“中国移动通信”）主要经营移动话音、数据、IP电话和多媒体业务，并具有计算机互联网国际联网单位经营权和国际出入口局业务经营权。除提供基本话音业务以外，还提供传真、数据IP电话等多种增值业务，拥有“全球通”、“动感地带”、“神州行”等著名客户品牌。用户号码段包括“139”、 “138”、 “137”、 “136”、“135”以及“134（0至8号段）”。

面向未来，中国移动通信确立了“争创世界一流企业”的发展战略目标。围绕这一目标，中国移动通信全力实施“服务与业务领先”的近期战略重点，提高核心竞争力，努力实现新跨越，确保企业全面协调、持续发展。

在中国移动通信有限公司的统一规划和指导下，各省、自治区、直辖市移动公司业务支撑网的建设已基本完成并正在完善中。面对业务支撑网的复杂性和多样性，为保障业务支撑网的正常稳定运行，迫切要求建立一个能够对业务支撑网进行集中监控、集中维护、集中管理的网管系统。

业务支撑网网管系统不仅要求能够及时监测与发现业务支撑网中潜在的各类问题、保证系统的稳定运行和业务的正常开展，还应能够对运维工作进行规范化、流程化管理。

红帽解决方案

业务支撑网网管系统是一个全国规范的系统，由各省公司分别建设，当前已经覆盖了大部分省份。如中国移动有限公司、上海移动公司、江西移动公司、贵州移动公司、山东移动公司、四川移动公司、广东移动公司等。

目前Linux越来越多地应用到电信领域的核心业务中，在中国移动也已经在众多的项目上采用了Linux *** 作系统平台，而且也都有良好的性能表现。该项目中采用Red Hat Enterprise Linux作为WEB服务器及应用服务器业务支撑平台来满足需求。

系统 *** 作系统是Red Hat Enterprise Linux；硬件系统是IBM X336；应用软件系统采用了Apache、Tomcat5、Oracle9i等。

选用Linux的优势

● Linux最大的优点是使企业应用不再受某一专有厂商或某种独有技术的限制，从而保护企业应用通用性、可扩展性、不受限制性，节省IT投资成本，提高灵活性、自由性和延伸性。Linux从创始之初就遵循开放源码和自由的GNU GPL协议，从而可以充分利用全球的技术资源和智慧，创造出更为健壮的技术。用户拥有源代码，就可以自由利用源码改进、提升或定制 *** 作系统和应用程序。

● 作为类 Unix *** 作系统，Linux 在稳定性、可扩展性、高可用性、安全性及性能上与Unix一致。最新的权威测试机构通过对Linux和Unix性能测试比较发现，Linux在很多方面都表现出超过Unix的测能指标。

● 目前许多关键应用的服务器均是Unix *** 作系统，而Linux是类Unix *** 作系统，通过Linux可以保证网络架构体系非常容易实现互连与协作，极大地方便系统的管理维护及各系统间的数据交流。

● 完整的linux *** 作系统内含有大量的应用软件和开发工具，包括GNU GCC/C++、Fortran编译器、Qt库及PHP、Awk、TCL/TK等语言。而在其他专有的 *** 作系统内，开发工具往往是另外收取费用的。

● Linux支持很多硬件平台，比如x86、x86_64、AMD64、安腾、Sparc、PPC、ARM等，它支持从笔记本电脑到大型主机。

共创开源

搭建平谷区电子政务平台

以共创桌面Linux *** 作系统为基础搭建的平谷区电子政务平台可以支撑目前各类业务系统的运行，基本满足了政府部门日常办公的需要。

项目背景

作为北京市重要的郊区县之一，北京市平谷区高度重视电子政务软件平台的建设工作。为保证全区各单位之间能够实现资源共享、协同办公，提升全区所有政府部门员工的办公自动化水平，平谷区政府确立了以电子政务办公平台应用促进软件正版化、国产化应用的指导方针，推出了基于国产基础软件的电子政务平台。实践证明，以共创Linux *** 作系统为基础搭建出来的电子政务平台可以支撑目前各类业务系统的运行，基本能够满足政府部门日常办公的需要。

方案简介

平谷区电子政务办公应用平台主要包括三个部分，即基于国产基础软件的电子政务平台、贯穿所有委办局、乡镇的统一办公自动化系统以及基于办公套件的桌面系统。

2004年11月，北京市平谷区电子政务办公平台建设圆满完成，其客户端 *** 作系统和办公套件分别采用了北京共创开源软件有限公司（简称共创开源）的共创桌面Linux和共创Office, 共计安装4693套，其中超过50%的计算机安装了共创桌面Linux，实现了单系统办公。

平谷区共有118家行政事业单位，计算机总数达到4693台，全部使用正版国产Linux以及国产Office办公套件仅用了670万元的资金投入，比起使用微软的Windows和Office所需要的3000多万元的巨额资金投入，可以节省2330万元。共创桌面Linux和共创Office作为国内主流的开源 *** 作系统和办公套件，被广泛应用于整个项目当中，为所有系统的成功运行提供了坚实的基础，发挥了重大的积极作用。

平台框架部署

平谷区电子政务办公应用平台对平谷区各种应用系统进行整合，实现了政务内网的建设，通过信息发布与政务外网进行互联并和广大市民进行互动。这个平台包括的主要内容有办公自动化系统、GIS地理信息系统、互联审批系统、农村三级互动系统和信息发布系统等子系统。另外，这个平台还包括各种共享资源，如法律、法规、政策、文件、工作流程、办事指南、新闻、等数据库信息。

整个方案采用B/S结构，遵循J2EE标准。服务器的桌面系统都具备跨平台运行的能力，同时支持Linux和Windows *** 作系统。

平台主要特点

● 应用集成、资源整合、数据共享

平台整合了办公相关资源，实现了数据共享。共整合了40多个应用系统，形成了以四大基础数据库为依托的数据资源体系。

● 大平台流转，小平台办理

平台以实现公文在全区机构大循环和单位内部小循环的顺利流转为目标，利用覆盖全区的政务宽带网，将各委、办、局、乡、镇、街道等政府职能机构链接在一起，各机构通过电子政务办公平台，实现协同办公。同时，在电子政务办公平台的支撑下，从平台大循环流转过程中接收的各种公文、任务等可以直接计入各机构内部的小循环中，在各个科室之间继续流转、办理。

● 办公自动化系统实现全面国产基础软件应用

北京市平谷区办公自动化系统中主要功能有: 公文管理、交办任务、电子公告、短消息、系统管理等等。

● 客户端桌面系统的兼容性、创新性、安全性、易用性

平谷区电子政务平台的客户端主要采用的是共创桌面Linux，为平谷区整个电子政务系统的运行提供了坚实的基础保障，其显著特点主要表现在创新、安全、稳定、兼容、易用等方面。

● 特有的安全稳定的浏览器

作为基础 *** 作应用系统的一部分，共创浏览器在整个平台系统的部署和应用中发挥了独特的功效。共创浏览器，顾名思义，就是共创桌面Linux系统采用FireFox浏览器实现特有的浏览器功能。共创浏览器还增加了对“IE特有功能”的支持。原始的FireFox浏览器，不支持IE特定的一些功能，例如documentall、数据岛等，这使得FireFox浏览器在浏览一些网站时，常常会出现各种问题。针对这一现场，共创浏览器则提供了这些IE特有浏览器功能的支持，使得FireFox浏览器能够较好地支持各种应用系统和电子商务的应用领域。

恩信科技

ERP开源解决方案

恩信科技开源ERP软件把企业的客户关系、产品设计、生产管理、库存管理等整合为非常明确可控制的模块化流程单元，使企业的人力、物力、财力得到最合理的应用。

传统的企业管理系统侧重于面向结果而非面向服务（SOA）的架构，数据采集是部分（信息孤岛）而非全面的，数据处理是滞后而非实时（B/S）的，导致企业的最高管理者无法实时准确地知道企业的资产情况、人员状况、销售情况等，无法及时地做出正确的决策。

据统计，体系完整的ERP（企业资源管理软件）在我国企业的使用率只在38%左右，而同样的系统在欧洲的使用率在68%。

方案设计

根据对用户需求的分析，使用开源软件产品及相关技术为用户提供合理的解决方案。

针对现代企业的迫切需求，恩信科技开源ERP软件把企业的客户关系、产品设计、生产管理、库存管理、委外管理、采购管理、资金控制、财务系统、人力资源、协同办公、系统安全整合为非常明确可控制的模块化流程单元，使企业的人力、物力、财力得到最充分、最合理的应用，帮助企业增强核心竞争力。

恩信科技开源ERP系统利用Internet全面实时地采集企业数据，面向企业流程控制，支持数据挖掘; 系统支持大规模精确计算、支持海量用户数和用户分组管理; 系统界面友好、礼貌、简洁; 各子模块既能独立运行，又可以与其他模块共享数据。恩信科技开源ERP系统有专门的安全控制管理模块，保证系统可靠地运行。恩信科技开源ERP系统应用了安全的Internet *** 技术让企业能跨地域、跨国界、跨时区实时采集任何应该采集的企业数据，实现企业的全部资源共享，对企业的任何分支机构实现实时的流程管理控制，为企业管理者提供智能化的决策分析支持。

方案实施

根据方案设计，确定合理的实施方法，控制项目进度; 对用户进行培训、系统维护，介绍未来的升级与扩充步骤。

恩信科技开源软件的定义:

用户可以免费永久使用恩信科技开源ERP及获得源代码，但当用户需要服务和一定的商业担保时需付服务费。恩信科技通过合作伙伴为客户提供服务的形式实施开源ERP，目前恩信科技能为客户提供实时服务的合作伙伴主要有两类: 应用伙伴和增值伙伴，应用伙伴的职责是为客户提供解决方案、安装、设置、数据迁移、使用培训、系统实施; 增值伙伴的职责是为客户提供解决方案、安装、设置、数据迁移、使用培训、系统实施; 帮助客户实现个性化应用作代码级二次开发、系统移植。这些合作伙伴都是恩信科技的授权认证单位，可以为客户提供实时服务和商业担保。

开源ERP实施过程及时间:

首先客户免费下载开源ERP产品并且根据提供的使用文档自行安装运行; 然后客户结合自身的需求，试运行开源ERP,通过系统提供的客户化设置功能，将ERP系统设置为符合自身特点的系统。其间可以通过开源社区对自己的有关想法、建议、困惑寻求帮助; 客户先局部试验性使用该系统，然后大面积地使用，还可以选择能提供本地化服务的合作伙伴就实施、培训、个性化开发、后续保障等细节进行商讨，然后开始实施ERP。同时可以向恩信科技或者恩信科技的合作伙伴购买、电话咨询、商业担保、现场支持等服务。整个过程会因客户所处的行业、个性化需求程度、客户领导层重视程度的不同，所需要的时间可能在3个月至9个月之间不等。

技术及产品介绍

恩信科技开源ERP产品具有支持互联网、支持多语种、支持个性化应用以及数据集成等特点。

其技术特点主要有:

● 汲取Struts、Spring等优秀框架设计思想，采用三层结构设计。

● 模块化的设计、组件化的开发提高了代码的重用性，为不同的客户提供不同的系统、不同的服务。

● 分布式数据集中设计避免了企业信息化中信息孤岛的出现，各数据表结构、命名、各子系统、各模块都采用一体化设计，既可以单独使用，也可以无缝连接、组合使用。

● 支持标准的XML、EXCEL、PDF等数据交换格式，这一特点形成了恩信科技开源ERP开放的特性。

● 突破了传统的角色管理机制，支持0到1200余个模块的任意、灵活的权限管理机制。

C3CRM

开源社区CRM解决方案

C3CRM覆盖了从客户管理、商品管理、销售管理、售后服务等全部领域，能够很好地解决目前中小企业在客户管理方面信息化投入不会太高但需求功能全面的问题。

需求分析

随着业务的发展，目前已经有越来越多的中小企业，在客户管理方面遇到了以下问题:

对于一些中小企业来说，业务人员的流动性比较强，而往往客户资源掌握在业务人员手里，一旦业务人员离职，这个客户可能就随之流失。

同时对于业务人员而言，往往需要对不同的客户群进行划分，还要对客户进行必要的跟踪或者进行一些营销活动，需借助系统来对客户进行分析得到一些有价值的决策数据。

如何更好地维系客户关系对企业来说已经显得非常重要。但有些中小企业并没有专门的IT部门，信息化投入不会太高，无法建立完善的CRM系统。

方案设计

C3CRM覆盖了从客户管理、商品管理、销售管理、售后服务、销售报表、销售分析、销售预测、日程管理、项目管理、文档管理、电子商务和企业网站等全部领域，涉及到行销活动、客户筛选、客户跟踪、销售管理、售后服务整个流程，能够很好地解决目前中小企业在客户管理方面所提出的问题。

该软件可以让业务人员根据行销活动后得到的销售线索进行逐步跟踪，整个过程也都能通过软件得到体现。其产品管理以及知识管理的模块使得业务人员可以快速得到相关所需要的信息。

该软件在客户后续服务方面有着更多的考虑。包括合同的交付回款、产品的退换以及呼叫中心的建立。这些功能能够很好地为客户的后续服务提供有力支持。

方案实施

目前在国内下载C3CRM软件的用户数已经超过十万，并已能够很大程度地满足用户的需求。

C3CRM完全可以通过远程进行安装调试以及维护。用户在使用过程中遇到的问题也都可以通过远程请求或者通过公司的网站得到解决。软件的设计充分考虑到了满足易用易实施。

针对用户的特殊要求，系统还提供二次开发服务。用户可以使用C3CRM提供的开发工具(ModuleBuilder)开发适合企业需要的模块。

技术及产品介绍

C3CRM主要面向拥有5～100用户之间的中小型企业。该产品定位在技术平台上，可提供市场、销售、服务与业务报表等基础业务支持功能，并提供强大的业务定制功能，通过快速实施，C3CRM产品可灵活适应企业的不同管理模式。

C3CRM的核心模块包括客户管理、联系人管理、潜在客户管理、销售机会管理、报价管理、产品管理、价格手册、营销活动、项目管理、客户反馈、客户回访、产品服务、合同管理、文档管理、解决方案、常见问题、日程管理、活动管理、备忘录管理、手机短信、内部通知、统计图、统计报表等以及完善的权限管理、数据备份和恢复等功能。

C3CRM产品界面友好，部署与维护简单，并可与其他系统无缝集成。C3CRM的代码完全公开，没有任何许可证费用，适合不同类型的企业应用。用户可在Web浏览器(IE或Firefox)进行 *** 作，无需安装客户端。

方案特点分析

C3CRM是一个开源的软件，基于LAMP(Linux Apache Mysql PHP)平台，采用WEB服务实现交互通信。用户不仅可以使用开发工具(ModuleBuilder)开发适合企业需求的模块，还可以通过SOAP与其他系统集成。包括安装调试、维护都可以通过远程服务轻松得到解决。

本文将以阿里云在GIAC的分享《云原生InfluxDB高可用架构设计》为例，剖析阿里云的自研InfluxDB集群方案的当前实现，在分析中会尽量聚焦的相对确定的技术、架构等，考虑到非一线信息，在个别细节上难免存在理解偏差，欢迎私聊讨论:

0x0 初步结论

目前是一个过渡性质的公测方案，具备数据一致性，但接入性能有限，缺乏水平扩展能力。缺乏自定义副本数和水平扩展等能力，通过Raft或Anti-entroy提升了数据的可靠性，但受限于节点和副本的强映射，集群接入性能有限，约等同于单机接入性能，另外，基于时序分片和分布式迭代器等核心功能未提及，可能仍在预研中。

0x1 集群方案剖析

1 背景补充：InfluxDB是DB-Engines上排名第一的TSDB，针对时序数据多写、少读、成本敏感等特点而设计的TSDB，并做了多轮架构迭代和优化，是一款实时、高性能、水平扩展（InfluxDB Enterprise）、具有成本优势的TSDB。但在2016年，Paul Dix基于商业化和持久运营的考虑，尚未成熟的集群能力在v0111版后，选择闭源，推出了收费版的InfluxDB Enterprise和InfluxDB Cloud。

2 通过Raft协议实现Meta节点的数据一致性，考虑到Meta节点存放的是Database/Rention Policy/Shard Group/Shard Info等元信息，这些信息敏感，是系统稳定运行的的关键，CP的分布式架构，合适。

3 通过Raft协议实现Data节点的数据一致性，考虑到Data节点存储的是具体的时序数据，性能和水平扩展性是挑战，对一致性性要求不高（PPT中亦提到这一点），采用CP的分布式架构，节点和副本强映射，不仅对实时性有影响，集群接入性能亦有限，约等同于单机接入性能，不能很好的支持海量数据的实时接入的时序需求。

4 2节点集群方案，通过Anti-entroy实现Data节点的数据一致性，应该还实现了Hinted-handoff能力，AP的分布式架构，但节点和副本还是强映射，未见提及基于时序分配、自定义副本数、分布式迭代器等能力，暂无法水平扩展。

5 云盘能保障数据的可靠性，但无法保障接入的可用性，可用性敏感的业务或实时要求高的业务，还是推荐多节点的集群模式。

6 开源版InfluxDB（单机）性能不错，InfluxDB Enterprise性能不错，但如何保障补齐集群能力的卓越性能，取决于集群架构、并发架构等，是由集群功能的开发者决定的，这次未见提及性能数据，期待后续的公布。

0x2 附录

今天真是一个美好的时代，有无数的开源系统可以为我们提供服务，现在有许多开发软件可以用到工业大数据中，当然很多系统还不成熟，应用到工业中还需要小心，并且需要开发人员对其进行一定的优化和调整。下面就简单介绍一些开源的大数据工具软件，看看有哪些能够应用到工业大数据领域。

下面这张图是我根据网上流传的一张开源大数据软件分类图整理的：

我们可以把开源大数据软件分成几类，有一些可以逐步应用到工业大数据领域，下面就一一介绍一下这些软件。（以下系统介绍大都来源于网络）

1、数据存储类

（1）关系数据库MySQL

这个就不用太多介绍了吧，关系型数据库领域应用最广泛的开源软件，目前属于 Oracle 旗下产品。

（2）文件数据库Hadoop

Hadoop是大数据时代的明星产品，它最大的成就在于实现了一个分布式文件系统（Hadoop Distributed FileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上，而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。

Hadoop可以在工业大数据应用中用来作为底层的基础数据库，由于它采用了分布式部署的方式，如果是私有云部署，适用于大型企业集团。如果是公有云的话，可以用来存储文档、视频、图像等资料。

（3）列数据库Hbase

HBase是一个分布式的、面向列的开源数据库，HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

基于Hbase开发的OpenTSDB，可以存储所有的时序（无须采样）来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics，支持永久存储，可以做容量规划，并很容易的接入到现有的报警系统里。

这样的话，它就可以替代在工业领域用得最多的实时数据库。

（4）文档数据库MongoDB

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

MongoDB适合于存储工业大数据中的各类文档，包括各类图纸、文档等。

（5）图数据库Neo4j/OrientDB

图数据库不是存放的，是基于图的形式构建的数据系统。

Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。

OrientDB是兼具文档数据库的灵活性和图形数据库管理链接能力的可深层次扩展的文档-图形数据库管理系统。可选无模式、全模式或混合模式下。支持许多高级特性，诸如ACID事务、快速索引，原生和SQL查询功能。可以JSON格式导入、导出文档。若不执行昂贵的JOIN *** 作的话，如同关系数据库可在几毫秒内可检索数以百记的链接文档图。

这些数据库都可以用来存储非结构化数据。

2、数据分析类

（1）批处理MapReduce/Spark

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。

这些大数据的明星产品可以用来做工业大数据的处理。

（2）流处理Storm

Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快（在一个小集群中，每个结点每秒可以处理数以百万计的消息）。Storm的部署和运维都很便捷，而且更为重要的是可以使用任意编程语言来开发应用。

（3）图处理Giraph

Giraph是什么？Giraph是Apache基金会开源项目之一，被定义为迭代式图处理系统。他架构在Hadoop之上，提供了图处理接口，专门处理大数据的图问题。

Giraph的存在很有必要，现在的大数据的图问题又很多，例如表达人与人之间的关系的有社交网络，搜索引擎需要经常计算网页与网页之间的关系，而map-reduce接口不太适合实现图算法。

Giraph主要用于分析用户或者内容之间的联系或重要性。

（4）并行计算MPI/OpenCL

OpenCL（全称Open Computing Language，开放运算语言）是第一个面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境，便于软件开发人员为高性能计算服务器、桌面计算系统、手持设备编写高效轻便的代码，而且广泛适用于多核心处理器(CPU)、图形处理器(GPU)、Cell类型架构以及数字信号处理器(DSP)等其他并行处理器，在游戏、娱乐、科研、医疗等各种领域都有广阔的发展前景。

（5）分析框架Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

（6）分析框架Pig

Apache Pig 是apache平台下的一个免费开源项目，Pig为大型数据集的处理提供了更高层次的抽象，很多时候数据的处理需要多个MapReduce过程才能实现，使得数据处理过程与该模式匹配可能很困难。有了Pig就能够使用更丰富的数据结构。[2]

Pig LatinPig Latin 是一个相对简单的语言，一条语句就是一个 *** 作，与数据库的表类似，可以在关系数据库中找到它（其中，元组代表行，并且每个元组都由字段组成）。

Pig 拥有大量的数据类型，不仅支持包、元组和映射等高级概念，还支持简单的数据类型，如 int、long、float、double、chararray 和 bytearray。并且，还有一套完整的比较运算符，包括使用正则表达式的丰富匹配模式。

结论：单机版性能已经足够支撑个人和小公司的业务了

我在实际使用中，010以上的单机版可以满足需要了，这个TSM的引擎实力很强了

我司一月的数据量是1400个点3000万秒=四千亿个点

存储查询的速度也很好，而且还是按一段时间7000秒左右进行存取的，存大概15秒，取几秒

压缩性特别棒，存储文件小得可爱

我估计了下，存下我司一年的业务也才500G硬盘

综上，也就用不着上集群了

以上就是关于八个最佳的数据中心开源挖掘工具全部的内容，包括:八个最佳的数据中心开源挖掘工具、该选择哪个开源数据库哪一个更好(哪个数据库好用)、开源软件有哪些 [五个开源软件解决方案]等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9696641.html

八个最佳的数据中心开源挖掘工具

发表评论

评论列表（0条）