hadoop2中使用teragen生成的原数据为什么是乱码的

hadoop2中使用teragen生成的原数据为什么是乱码的,第1张

1、hadoop内部默认的文本读取编码设置为utf-8,你的文件为gbk,在坦歼读取时遇到中文时是肯定要出现乱码。 解决方法有二: (1)将你的GBK编码的文件在生成时,统一成utf-8,这是最好的方式,方便国拦信咐际化。 (2)重写简纯一个你的hadoop读文件的FileInpu...

hadoop涉及输出文本的默认携州输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文辩碧蔽件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。

因此将hadoop默认输出慧源编码更改为GBK成为非常常见的需求。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12272113.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存