1、hadoop内部默认的文本读取编码设置为utf-8,
你的源
文件为gbk,在坦歼读取时遇到中文时是肯定要出现
乱码。 解决方法有二: (1)将你的GBK编码的文件在生成时,统一成utf-8,这是最好的方式,方便国拦信咐际化。 (2)重写简纯一个你的hadoop读文件的FileInpu...hadoop涉及输出文本的默认携州输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文辩碧蔽件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。
因此将hadoop默认输出慧源编码更改为GBK成为非常常见的需求。
评论列表(0条)