1、数据采集概念:目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。
2、数据预处理:通过mapreduce程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。
3、数据入库:将预处理之后的数据导入到HIVE仓库中相应的库和表中。
4、数据分析:项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果。
5、数据展现:将分析所得数据进行数据可视化,一般通过图表进行展示。
如何选择大数据应用程序选择大数据软件对于组织来说是一个复杂的过程,组织需要仔细评估其目标和供应商提供的解决方案。
如今可以确定的是,组织对大数据解决方案需求量很大。组织的管理者知道他们的大数据是不可忽视的最宝贵的资源之一。因此,他们正在寻找可帮助存储、管理和分析其大数据的硬件和软件。
根据调研机构IDC公司的调查,2017年组织在大数据和数据分析方面的支出为1508亿美元,比去年增长12.4%。到2020年,这一支出可能会以每年11.9%的速度增长,2020年的收入可能高达2100亿美元。
大部分收入都用于大数据应用。据IDC公司预测,到2020年,仅软件开支就可能超过700亿美元。非关系分析数据存储(如NoSQL数据库)的支出增长尤其迅速,每年可能增长38.6%,认知软件平台(如人工智能和机器学习能力的分析工具)每年可能增长23.3%。
为了充分利用大量的数据支出,供应商在各种不同的产品和服务上打上了“大数据”标签。这种产品的扩散会使组织很难找到合适的大数据应用程序来满足他们的需求。专家建议,企业开始选择大数据应用程序的一个好方法是精确地确定自己所需要什么类型的应用程序。
大数据应用的类型
企业软件供应商提供了大量不同类型的大数据应用程序。适合企业的大数据应用将取决于其目标。
例如,如果企业只想更加详细和深入地扩展现有的财务报告功能,那么数据仓库和商业智能解决方案可能已足以满足其需求如果企业的销售和营销团队希望利用其大数据的发现增加收入和利润的新机会,则可以考虑创建数据湖和/或投资数据挖掘解决方案如果企业想创建一个数据驱动的文化,组织中的每个人都在使用数据来指导他们的决策,那么企业可能需要数据湖和预测分析,内存数据库,也可能是流分析。
这样的事情将会变得更复杂,因为不同类型的工具之间的界限可能会有些模糊。一些商业智能工具具有数据挖掘和预测分析功能。一些预测分析工具包括流媒体功能。
最好的办法是组织一开始就清楚地确定自己的目标,然后去寻找能够帮助其实现这些目标的产品。
选择大数据应用程序时的关键决策
无论企业选择哪种类型的大数据应用程序,都需要做出一些关键决策,以帮助企业缩小选择范围。以下是一些最重要的考虑事项:
(1)内部部署数据中心与基于云计算的大数据应用程序
企业需要做出的第一个重大决策是要在自己的数据中心托管大数据软件,还是希望采用基于云计算的解决方案。
目前,更多的组织似乎正在选择云计算。分析机构Forrester公司副总裁兼首席分析师BrianHopkins在2017年8月的一篇博客文章中写道:“通过云订阅在大数据解决方案上的全球支出将增长快近7.5倍。此外,根据数据分析专业人员的2016和2017调查,公有云是大数据的头号技术优先事项。”
基于云计算的大数据应用受到欢迎有多种原因,其中包括可扩展性和易管理性。主要的云计算供应商也在人工智能和机器学习研究方面处于领先地位,这使得他们可以在解决方案中添加高级功能。
但是,云计算对于组织来说并不总是最好的选择。对合规性或安全性要求较高的组织有时会发现他们需要将敏感数据保留在内部部署的数据中心。此外,一些组织已经在现有的本地数据解决方案上进行投资,并且他们发现继续在本地部署数据中心运行大数据应用程序或使用混合方法会更具成本效益。
(2)私有vs开源的大数据应用程序
一些最流行的大数据工具(包括Hadoop生态系统)可以在开源许可下获得。 Forrester公司指出,“2017年,企业将在Hadoop软件和相关服务上投入8亿美元。”
Hadoop和其他开源软件最大的吸引力之一是降低总体拥有成本。尽管专有解决方案需要支付高昂的许可费,并且可能需要昂贵的专用硬件,但Hadoop没有许可费,并且可以在标准的硬件上运行。
然而,企业有时发现很难获得开源的解决方案,以满足他们的需要。他们可能需要购买支持或咨询服务,组织在计算总拥有成本时需要考虑这些费用。
(3)批处理vs流式传输大数据应用程序
最早的大数据解决方案(如Hadoop)只是处理批量数据,但企业越来越多地发现他们希望实时分析数据。这引发了对Spark、Storm、Samza等流媒体解决方案的更多兴趣。
许多分析师表示,即使组织认为他们现在不需要处理流式数据,流媒体功能也可能在不久的将来成为标准 *** 作流程。出于这个原因,许多组织正在向Lambda体系结构迈进,这是一种既能处理实时数据又能批处理数据的数据处理体系结构。
在大数据应用中寻找特性
一旦企业缩小了选项范围,就需要评估其正在考虑的大数据应用程序。以下包括一些最重要的需要考察的因素。
与传统技术集成 - 大多数组织已经在数据管理和分析技术方面进行现有投资。完全替代该技术可能代价高昂并且具有破坏性,因此组织通常会选择寻找可以与现有工具一起使用的解决方案,或者可以增加现有软件。
绩效 - 2017年Talend研究发现,实时分析功能是商业领袖的首要IT优先事项之一。如果要从这些洞察中获益,管理人员和工作人员需要能够及时获取见解。这意味着投资可以提供他们所需速度的技术。
可扩展性 - 大数据存储的规模每天都会变得更大。组织需要快速执行的大数据应用程序,随着数据存储量以指数级增长,这些应用程序可以继续快速执行。这种对可扩展性的需求是基于云计算的大数据应用变得非常流行的主要原因之一。
可用性 - 组织还应该考虑他们打算购买的任何大数据应用程序的“学习曲线”。易于部署、易于配置、界面直观和/或与组织已经使用的工具相似或集成的工具可以提供巨大的价值。
可视化 - BI-Survey.com表示,“针对商业用户的可视化和探索性数据分析(称为数据发现)已经演变成当今市场上最热门的商业智能和分析主题。”在图表中呈现数据可以使人类的大脑更容易发现趋势和异常值,加快识别可 *** 作见解的过程。
灵活性 – 企业如今所需要的大数据可能与其在一两年前的需求大不相同。这就是为什么许多企业选择寻找能够满足各种不同目标的工具,而不是很好地执行单一功能的原因。
安全性 - 这些大数据存储中包含的大部分数据都是敏感信息,这对于竞争对手、国家机构或黑客都是非常有价值的。组织需要确保他们的大数据具有足够的保护,以防止成为头条新闻报道的大量数据泄露事件。这意味着组织需要寻找具有内置安全功能(如加密和强身份验证)的工具,或者寻找与现有安全解决方案集成的工具。
支持 - 即使有经验的IT专业人员有时也会发现难以部署、维护和使用复杂的大数据应用程序。不要忘记考虑各供应商提供的支持的质量和成本。
生态系统 - 大多数组织需要多种不同的应用程序来满足他们所有的大数据需求。这意味着要寻找一个大数据平台,与其他许多流行工具以及与其他提供商有强大合作关系的供应商进行整合。
自助服务能力 - 2017年毕马威公司针对组织的CIO调查发现,60%的CIO持续报告指出数据分析人才短缺,而大数据和分析是最需要的技能组合。由于没有足够的数据科学家去解决,组织正在寻找其他商业专业人士可以独立使用的工具。调研机构Gartner公司最近的博客文章指出,通常在一个组织中,大约32%的员工正在使用商业智能和分析。
总体拥有成本 - 大数据应用的前期成本只是其中的一小部分。组织需要确保他们考虑相关硬件成本,正在采用的许可或订购费用、员工时间、支持成本,以及与本地部署应用程序的物理空间相关的任何费用。不要忘记要考虑到云计算成本随着时间的推移普遍下降的事实。
预计价值的时间 - 另一个重要的财务考虑因素是企业能够以多快的速度启动并运行特定的解决方案。大多数公司都希望在几天或几周内,而不是几个月或几年内从他们的大数据项目中受益。
人工智能和机器学习 - 最后,考虑各种大数据应用供应商的创新。人工智能和机器学习的研究正在以惊人的速度发展,并成为大数据分析的主流部分。据Forrester公司预测,“企业在2017年对于人工智能的投资增加了三倍,因为企业需要将客户数据转换为个性化体验。”如果企业选择的供应商在这项研究没有处于行业前沿,那么可能会发现自己落后于竞争对手。
选择大数据应用程序的提示
很明显,选择正确的大数据应用程序是一个复杂的过程,这涉及诸多因素。已成功部署大数据软件的专家和组织提供以下建议:
理解自己的目标–企业在选择大数据应用程序时,需要知道自己想完成什么是至关重要的。如果不确定为什么要投资某项技术,那么其项目不太可能成功。
从小规模开始-如果企业可以通过小规模的大数据分析项目取得成功,那么企业对使用该工具将会产生更多的兴趣。
采取整体方法-尽管小规模项目可以帮助企业获得技术方面的经验和专业知识,但选择最终可用于整个业务的应用程序非常重要。Gartner公司建议:“为了支持无处不在的数据和分析世界,IT专业人员需要创建一个新的端到端体系结构,为敏捷、规模和实验而构建。如今,技术学科正在融合,数据和分析的方法正在变得更加整体化,涵盖整个业务。”
协同工作–Gartner公司的这篇博客文章还指出:“建议数据和分析领导者积极主动地在他们的组织中传播分析,以便从启用数据驱动业务 *** 作中获得最大的收益。”许多组织正试图构建数据驱动文化,这需要业务和IT领导者之间的大量合作。
病毒式传播–前面提到的自助服务功能还可以帮助创建数据驱动的文化。Gartner公司建议:“让分析在企业内部和外部真正发挥作用。通过培养实用的自助服务方法,并通过在交互和流程中的数据摄入点上嵌入分析功能,使更多的业务用户能够执行分析。”
1.Hadoop
Hadoop是一个由Apache基金会所开发的分布式体系基础架构。用户能够在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop是一个能够对很多数据进行分布式处理的软件结构。Hadoop 以一种牢靠、高效、可伸缩的方式进行数据处理。
2.Apache Hive
Hive是一个建立在Hadoop上的开源数据仓库基础设施,经过Hive能够很简略的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive供给了一种简略的类似SQL的查询言语—HiveQL,这为了解SQL言语的用户查询数据供给了便利。
3. Apache Spark
Apache Spark是Hadoop开源生态体系的新成员。它供给了一个比Hive更快的查询引擎,由于它依赖于自己的数据处理结构而不是依靠Hadoop的HDFS服务。一起,它还用于事情流处理、实时查询和机器学习等方面。
4. Keen IO
Keen IO是个强壮的移动应用分析东西。开发者只需要简略到一行代码, 就能够跟踪他们想要的关于他们应用的任何信息。开发者接下来只需要做一些Dashboard或者查询的工作就能够了。
5. Ambari
Apache Ambari是一种基于Web的东西,支撑Apache Hadoop集群的供给、管理和监控。Ambari已支撑大多数Hadoop组件,包含HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
6. Flume
Flume是Cloudera供给的一个高可用的,高牢靠的,分布式的海量日志搜集、聚合和传输的体系,Flume支撑在日志体系中定制各类数据发送方,用于搜集数据一起,Flume供给对数据进行简略处理,并写到各种数据接受方(可定制)的才能。
7.MapReduce
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的首要思维,都是从函数式编程言语里借来的,还有从矢量编程言语里借来的特性。它极大地便利了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式体系上。
关于常见的大数据开发工具有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)