我正在学习Hadoop和MapReduce框架。 到现在为止,我已经玩了文本文件,并利用MapReduce框架进行处理。
当我开始学习第一个stream行的MapReduce示例时,我发现它是WORDCOUNT,它是一个文本文件处理场景。 然后我写了自己的逻辑来处理一些文本文件并显示结果。 在这种情况下,我是成功的。
但是我需要转向不同格式的input。 因为在现实世界中,我们不打算只处理文本文件。 我需要探索使用MapReduce框架的图像,audio,vIDeo等不同格式的处理。 但我正在努力寻找适合我的目的的例子。 我需要一些关于MapReduce的示例和教程,以不同格式的input从文本到vIDeo。
编辑:
Apache Hadoop YARN中的“mapreduce.map.memory.mb”和“mapred.map.child.java.opts”之间的关系是什么?
Hadoop发行版本令人困惑
在makeDirOnfileSystem中结合HBase和HDFS导致exception
在Hadoop文件系统中扫描多个文件
有没有一个良好的windows 7机器上的Hadoop开发在线教程?
我的意思是处理图像,vIDeo和audio。 不仅是文本文件。
编辑2:
示例:假设我有一个10年的.bmp图像(其中不涉及压缩和解压缩),大小为450GB。 我需要分析文件夹中的每个图像,我应该显示相似的图像(通过比较像素的相似性模式)。 我应该列出在“从”“到”date之间创build/修改的图像。 说在2013年1月至2013年2月之间在该组图像中创build/修改的图像。 我怎样才能做到这一点?
如果有人帮助我走在正确的道路上,我会很高兴!
windows上的Hadoop 2.2.0:作业成功,但只输出input文件
如何构buildHadoop 2的本地库
如何在windows环境中使用Mahout?
用Java读取远程HDFS文件
安装并获取当前的dfs.name.dir和dfs.data.dir值
HIPI是用MapReduce对图像文件进行图像处理的框架。
这是一篇关于云中高性能视频处理的论文。 这不完全是MapReduce,但非常类似于MapReduce。
请注意,我没有尝试过,但做了一些谷歌搜索,这些是我能得到的最接近的资源。
在设置映射器和简化器时,可以指定输入/输出键和值数据类型。 这就是你要以我想要的方式处理不同数据类型的地方。
这里是一个例子(尽管格式不好),它使用int数据类型来计算均值:
http://souravgulati.webs.com/apps/forums/topics/show/8539120-hadoop-map-reduce-example-calculate-mean-in-map-reduce
编辑
处理这些类型的文件时,再次有助于举例说明您正在尝试完成的具体内容。 例如,如果您正在使用音频:您是否使用.wav文件? 这将是很好的知道,因为你可以使用字节数据类型进行处理。 否则如果你使用.mp3文件你有压缩处理。
.bmp文件与图像相同,我相信不会压缩,并且可以直接使用int或byte数据类型在map reduce中进行 *** 作。 使用任何类型的压缩文件在运行作业之前很可能需要进行某种预处理。
那里的大多数教程处理字数或类似的东西。 为了得到更好的建议,最好有一个具体的问题要解决。
所以你想用你的mapreduce工作做什么? 计算图像中的像素数量? 压花图像? 计算一个音频文件的平均音量?
编辑
你所描述的是两个不同的mapred任务(除非你只想在你的开始日期之间对所有图像进行分析)。
你可以尝试做什么(这是一个没有任何代码的高级描述)是下面的(这是我的头顶,因为我没有用这种方式使用mapreduce):
因为您的mapred作业需要一次比较两个图像文件,所以您需要运行number-of-files facotrial map reduce作业以获取所有可能的文件比较结果。 这可能需要一段时间!
您需要您的映射器一次输入两个文件并执行比较mapreduce作业。 您可以根据需要多次运行此作业来处理源图像文件的所有组合。 你可以用[oozIE] [1]
现在你可能会问 – 如何比较mapreduce中的两个图像文件? 再次,我没有这样做,但这可能指向你在正确的方向 – 查看mapreduce作业与多个文件来源: Hadoop映射从2个不同的源输入文件
总结以上是内存溢出为你收集整理的Hadoop和不同格式的input,如图像,audio,video全部内容,希望文章能够帮你解决Hadoop和不同格式的input,如图像,audio,video所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)