当您使用M / R程序读取文件时,映射器的输入键应为 文件中该行的索引 ,而输入值将为整行。
因此,这里正在发生的事情是您试图将行索引作为
Text错误的对象,并且您需要一个
LongWritable替代项,以便Hadoop不会抱怨类型。
尝试以下方法:
public class TopKRecord extends Configured implements Tool { public static class MapClass extends Mapper<LongWritable, Text, Text, Text> { public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // your map pre goes here String[] fields = value.toString().split(","); String year = fields[1]; String claims = fields[8]; if (claims.length() > 0 && (!claims.startsWith("""))) { context.write(new Text(year.toString()), new Text(claims.toString())); } } } ...}
您还可能需要重新考虑代码中的一件事,即为
Text要处理的每条记录创建2个对象。您应该只在开始时创建这两个对象,然后在您的映射器中只需使用
set方法设置它们的值。如果您要处理大量数据,这将节省大量时间。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)