目录
1 序列化概述
1.1 什么是序列化
1.2 为什么要序列化
2 如何自定义bean对象实现序列化 *** 作
3 序列化案例实 ***
3.1 案例需求
3.2 案例需求分析
3.3 代码详解
1 序列化概述 1.1 什么是序列化
1.2 为什么要序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘和网络传输。
反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。
2 如何自定义bean对象实现序列化 *** 作(1)通俗点来说,存储在内存中的对象是“活的”,如果关机、断电、宕机,内存中的对象就不存在了。因此,我们需要通过序列化将内存中的对象,转换成其他形式(字节码)进行存储。
(2)“活”的对象只能在本地进程使用,不能被发送到网络上的另一台计算机,而序列化可以将“活”的对象发送到远程计算机中。hadoop集群中,通常map和reduce都不在同一台计算机上。因此,将对象进行序列化处理是必要的。
(3)为什么不用java序列化。Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。所以, Hadoop 自己开发了一套序列化机制(Writable)
(4)hadoop序列化特点。紧凑 :高效使用存储空间。 快速:读写数据的额外开销小。 互 *** 作:支持多语言的交互。
3 序列化案例实 *** 3.1 案例需求在日常开发中,往往常用的已有的基本序列化类型不能满足所有需求。因此自定义类,创建满足需求的对象,因此该对象就需要实现序列化接口。例如,在mapreduce中需要传递一个Bean对象,那么该对象序列化步骤如下:
(1)必须实现Writable接口
(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造
public FlowBean() { super(); }(3)重写序列化方法
@Override public void write(DataOutput dataOutput) throws IOException { dataOutput.writeLong(upFlow); dataOutput.writeLong(downFlow); dataOutput.writeLong(sumFlow); }(4)重写反序列化方法
@Override public void readFields(DataInput dataInput) throws IOException { this.upFlow = dataInput.readLong(); this.downFlow = dataInput.readLong(); this.sumFlow = dataInput.readLong(); }注意:反序列化的顺序和序列化的顺序完全一致
(6)要想把结果显示在文件中,还需要重写toString()方法。
@Override public String toString() { return upFlow + "t" + downFlow + "t" + sumFlow; }(7)如果需要将自定义的bean凡在key中传输,则还需要实现Comparable接口,因为MapReduce框中的shuffle过程要求对key必须能排序。(后续的文章中,我会讲到)
@Override public int compareTo(FlowBean o) { // 倒序排列,从大到小 return this.sumFlow > o.getSumFlow() ? -1 : 1; }
3.2 案例需求分析统计每个手机号耗费的总上行流量、总下行流量以及总流量
(1)输入数据(需要源数据可以关注+私信我)
(2)输入数据格式
(3)期望输出数据格式
3.3 代码详解(1)明确需求:统计每个手机号的总上行流量、下行流量、总流量
(2)输入数据格式:
(3)期望输出数据格式
(4)map阶段(明确map阶段的输入输出的数据类型)
1)读取一行数据,切分字段
7 13560436666 120.196.100.99 1116 954 200
2)抽取手机号、上行流量、下行流量
13560436666 1116 954
3)以手机号为key,bean对象为value输出。bean对象将上行流量、下行流量以总流量分装起来。
4)bean对象想要传输,要实现序列化接口
(5)reduce阶段,map阶段的输出数据类型就是reduce阶段的输入数据类型。在这个阶段中,将通一个key的value值进行处理。这里是累加上行流量和下行流量得到总流量。
13560436666 1116 + 954 = 2070
手机号码 上行流量 下行流量 总流量
包含4个部分:编写业务需求的Bean对象,对其进行序列化;编写Map代码;编写Reduce代码;编写Driver主程序。
解析都在代码注释中,看源码可以帮助理解整体逻辑。
(1)编写流量统计的Bean对象
package com.yangmin.mapreduce.writable; import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; public class FlowBean implements Writable { private long upFlow; //上行流量 private long downFlow; //下行流量 private long sumFlow; //总流量 //2 无参构造 public FlowBean() { } //3 提供get/set方法 public long getUpFlow() { return upFlow; } public void setUpFlow(long upFlow) { this.upFlow = upFlow; } public long getDownFlow() { return downFlow; } public void setDownFlow(long downFlow) { this.downFlow = downFlow; } public long getSumFlow() { return sumFlow; } public void setSumFlow(long sumFlow) { this.sumFlow = sumFlow; } public void setSumFlow() { this.sumFlow = this.upFlow + this.downFlow; } // 4.实现序列化和反序列化方法,注意顺序一定要保持一致 @Override public void write(DataOutput dataOutput) throws IOException { dataOutput.writeLong(upFlow); dataOutput.writeLong(downFlow); dataOutput.writeLong(sumFlow); } @Override public void readFields(DataInput dataInput) throws IOException { this.upFlow = dataInput.readLong(); this.downFlow = dataInput.readLong(); this.sumFlow = dataInput.readLong(); } //5 重写tostring方法 @Override public String toString() { return upFlow + "t" + downFlow + "t" + sumFlow; } }(2)编写map类
package com.yangmin.mapreduce.writable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; public class FlowMapper extends Mapper{ private Text outK = new Text(); private FlowBean outbV = new FlowBean(); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 1. 获取一行数据,转换成字符串 String string = value.toString(); // 2. 切割数据 String[] split = string.split("t"); // 3. 抓取我们需要的数据:手机号,上行流量,下行流量 String phone = split[1]; String up = split[split.length - 3]; String down = split[split.length - 2]; // 4. 封装outK outV outK.set(phone); outbV.setDownFlow(Long.parseLong(up)); outbV.setUpFlow(Long.parseLong(down)); outbV.setSumFlow(); //5.写出outK,outV context.write(outK,outbV); } } (3)编写Reduce类
package com.yangmin.mapreduce.writable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; import java.io.IOException; public class FlowReducer extends Reducer{ private FlowBean outV = new FlowBean(); @Override protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { long totalUp = 0; long totalDown = 0; //1 遍历values,将其中的上下行流量,下行流量分别累加 for (FlowBean value : values) { totalUp += value.getDownFlow(); totalDown += value.getDownFlow(); } //2 封装outV outV.setDownFlow(totalDown); outV.setUpFlow(totalUp); outV.setSumFlow(); //3 写出 context.write(key, outV); } } (4)编写 Driver 驱动类
package com.yangmin.mapreduce.writable; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import java.io.IOException; public class FlowDriver { public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { // 1.获取job对象 Configuration conf = new Configuration(); Job job = Job.getInstance(conf); // 2.关联本Driver类 job.setJarByClass(FlowDriver.class); //3.关联map和reduce job.setMapperClass(FlowMapper.class); job.setReducerClass(FlowReducer.class); //4.设置map端输出kv值 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(FlowBean.class); //5.设置程序最终输出KV值 job.setOutputKeyClass(Text.class); job.setOutputValueClass(FlowBean.class); //6.设置程序的输入输出路径 FileInputFormat.setInputPaths(job, new Path("C:\ZProject\bigdata\input\inputflow")); FileOutputFormat.setOutputPath(job, new Path("C:\ZProject\bigdata\output\output_writable")); //7.提交Job boolean b = job.waitForCompletion(true); System.exit(b ? 0 : 1); } }
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)