Hadoop是什么，具体有什么用呢？_软件运维

首先Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop 的最常见用法之一是 Web 搜索。虽然它不是唯一的软件框架应用程序，但作为一个并行数据处理引擎，它的表现非常突出。Hadoop 最有趣的方面之一是 Map and Reduce 流程，它受到Google开发的启发。这个流程称为创建索引，它将 Web爬行器检索到的文本 Web 页面作为输入，并且将这些页面上的单词的频率报告作为结果。

结果是对输入域中的单词进行计数，这无疑对处理索引十分有用。但是，假设有两个输入域，第一个是 one small step for man，第二个是 one giant leap for mankind。您可以在每个域上执行 Map 函数和 Reduce 函数，然后将这两个键/值对列表应用到另一个 Reduce 函数，这时得到与前面一样的结果。换句话说，可以在输入域并行使用相同的 *** 作，得到的结果是一样的，但速度更快。这便是 MapReduce 的威力；它的并行功能可在任意数量的系统上使用

回到 Hadoop 上，它实现这个功能的方法是：一个代表客户机在单个主系统上启动的 MapReduce应用程序称为 JobTracker。类似于 NameNode，它是 Hadoop 集群中唯一负责控制 MapReduce应用程序的系统。在应用程序提交之后，将提供包含在 HDFS 中的输入和输出目录。JobTracker 使用文件块信息（物理量和位置）确定如何创建其他 TaskTracker 从属任务。MapReduce应用程序被复制到每个出现输入文件块的节点。将为特定节点上的每个文件块创建一个唯一的从属任务。每个 TaskTracker 将状态和完成信息报告给 JobTracker

通过Hadoop安全部署经验总结，开发出以下十大建议，以确保大型和复杂多样环境下的数据信息安全 [9] 。

1、先下手为强!在规划部署阶段就确定数据的隐私保护策略，最好是在将数据放入到Hadoop之前就确定好保护策略 [9] 。

2、确定哪些数据属于企业的敏感数据。根据公司的隐私保护政策，以及相关的行业法规和政府规章来综合确定 [9] 。

3、及时发现敏感数据是否暴露在外，或者是否导入到Hadoop中 [9] 。

4、搜集信息并决定是否暴露出安全风险 [9] 。

5、确定商业分析是否需要访问真实数据，或者确定是否可以使用这些敏感数据。然后，选择合适的加密技术。如果有任何疑问，对其进行加密隐藏处理，同时提供最安全的加密技术和灵活的应对策略，以适应未来需求的发展 [9] 。

6、确保数据保护方案同时采用了隐藏和加密技术，尤其是如果我们需要将敏感数据在Hadoop中保持独立的话 [9] 。

7、确保数据保护方案适用于所有的数据文件，以保存在数据汇总中实现数据分析的准确性 [9] 。

8、确定是否需要为特定的数据集量身定制保护方案，并考虑将Hadoop的目录分成较小的更为安全的组 [9] 。

9、确保选择的加密解决方案可与公司的访问控制技术互 *** 作，允许不同用户可以有选择性地访问Hadoop集群中的数据 [9] 。

10、确保需要加密的时候有合适的技术(比如Java、Pig等)可被部署并支持无缝解密和快速访问数据

hadoop支持C++，Java开发语言。

Hadoop带有用Java语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。MapReduce是处理大量半结构化数据集合的编程模型。编程模型是一种处理并结构化特定问题的方式。

例如，在一个关系数据库中，使用一种集合语言执行查询，如SQL。告诉语言想要的结果，并将它提交给系统来计算出如何产生计算。还可以用更传统的语言(C++，Java)，一步步地来解决问题。这是两种不同的编程模型，MapReduce就是另外一种。

扩展资料

特点

1、确定哪些数据属于企业的敏感数据。根据公司的隐私保护政策，以及相关的行业法规和政府规章来综合确定。

2、确保数据保护方案同时采用了隐藏和加密技术，尤其是如果我们需要将敏感数据在Hadoop中保持独立的话。

3、确保需要加密的时候有合适的技术(比如Java、Pig等)可被部署并支持无缝解密和快速访问数据。

参考资料来源：百度百科—Hadoop

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/7749784.html

Hadoop是什么，具体有什么用呢？

发表评论

评论列表（0条）