hadoop2中使用teragen生成的原数据为什么是乱码的

sunup • 2023-5-24 • 教程 • 阅读 12

1、hadoop内部默认的文本读取编码设置为utf-8，你的源文件为gbk，在坦歼读取时遇到中文时是肯定要出现乱码。解决方法有二：（1）将你的GBK编码的文件在生成时，统一成utf-8,这是最好的方式，方便国拦信咐际化。（2）重写简纯一个你的hadoop读文件的FileInpu...

hadoop涉及输出文本的默认携州输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文辩碧蔽件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时，输出的结果为乱码，只能由UE或者记事本打开才能正常显示。

因此将hadoop默认输出慧源编码更改为GBK成为非常常见的需求。

欢迎分享，转载请注明来源：内存溢出

你的文件乱码中文的是

打赏

微信扫一扫

支付宝扫一扫

上一篇 2023-05-24

下一篇 2023-05-24

登录后才能评论