linux下文件编码格式转换方法（gb18030utf-8）_教程

linux下文件编码格式转换方法（gb18030/utf-8）

在 Linux 做开发或者系统管理遇到乱码是经常的事情，主要windows下中文的默认编码是bg2312，而 linux下是utf-8。很多时候涉及到和windows平台系统的通信免不了编码的转化，可能大部分人都用iconv库函数（包含在glib中）和iconv命令来执行编码转换，即：

iconv -f gb18030 -t utf-8 file1.txt -o file2.txt

说实话这个命令不好使，一方面容易重复转换，另一方面不支持通配符，无法成批转换，文件少了还好说，要是一大堆文件岂不是要累死？

今天我要推荐的是另一个 Shell 下编码转换工具enca。用它不仅可以转换编码，还可以查看文件的原始编码，而且还支持成批转换。使用上也比iconv方便一些。安装enca很简单，一般用源安装就行了，enca用法如下：

enca -L 当前语言文件名

enca -L zh_CN file ／／检查文件的编码

enca -L 当前语言 -x 目标编码文件名

enca -L zh_CN -x UTF-8 file ／／将文件编码转换为”UTF-8″编码

enca -L zh_CN -x UTF-8 <file1 >file2 ／／如果不想覆盖原文件可以这样

除了有检查文件编码的功能以外，”enca”还有一个好处就是如果文件本来就是你要转换的那种编码，它不会报错，还是会print出结果来，而”iconv”则会报错。这对于脚本编写是比较方便的事情。

Windows的默认编码为GBK，Linux的默认编码为UTF-8。在Windows下编辑的中文，在Linux下显示为乱码。为了解决此问题，修改Linux的默认编码为GBK。方法如下：

方法1：

vi /etc/sysconfig/i18n

默认为:

LANG="en_US.UTF-8"

SYSFONT="latarcyrheb-sun16"

修改为:

LANG="zh_CN.GBK"

SUPPORTED="zh_CN.UTF-8:zh_CN:zh"

SYSFONT="latarcyrheb-sun16"

方法2：

vi /etc/profile

export LC_ALL="zh_CN.GBK"

export LANG="zh_CN.GBK"

运行locale指令得到当前系统编码设置的详细资料。

一、locale的五脏六腑

1、语言符号及其分类(LC_CTYPE)

2、数字(LC_NUMERIC)

3、比较和排序习惯(LC_COLLATE)

4、时间显示格式(LC_TIME)

5、货币单位(LC_MONETARY)

6、信息主要是提示信息,错误信息, 状态信息, 标题, 标签, 按钮和菜单等(LC_MESSAGES)

7、姓名书写方式(LC_NAME)

8、地址书写方式(LC_ADDRESS)

9、电话号码书写方式(LC_TELEPHONE)

10、度量衡表达方式(LC_MEASUREMENT)

11、默认纸张尺寸大小(LC_PAPER)

12、对locale自身包含信息的概述(LC_IDENTIFICATION)。

二、理解locale的设置

设定locale就是设定12大类的locale分类属性，即 12个LC_*。除了这12个变量可以设定以外，为了简便起见，还有两个变量：LC_ALL和LANG。

它们之间有一个优先级的关系：LC_ALL >LC_* >LANG

可以这么说，LC_ALL是最上级设定或者强制设定，而LANG是默认设定值。

三具体设定locale的方法（zh_CN.UTF-8、zh_CN.GBK）

freebsd的设置：

1.GDM登录改为终端登录后startx启动图形桌面

2.在~/.cshrc中增加如下语句,（根据自己使用的shell进行相应设置）

setenv LANG zh_CN.GBK

setenv LC_ALL zh_CN.GBK

setenv LC_CTYPE zh_CN.GBK

3.修改/etc/fstab的默认值：

linux 设置：

1.修改/etc/sysconfig/i18n文件，LANG="zh_CN.UTF-8"或LANG="zh_CN.GBK"

普通用户修改~/.profile

...

export LANG zh_CN.GBK

...

2.修改/etc/fstab的默认值

在Linux中查看文件编码可以通过以下几种方式：1.在Vim中可以直接查看文件编码:setfileencoding，即可显示文件编码格式。2.enca(如果你的系统中没有安装这个命令，可以用sudoyuminstall-yenca安装)查看文件编码

下面介绍一下，在Linux中如何查看文件的编码及如何进行对文件进行编码转换。

一，查看文件编码：在Linux 中查看文件编码可以通过以下几种方式：

1.在Vim中可以直接查看文件编码:setfileencoding即可显示文件编码格式。如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在~/.vimrc文件中添加以下内容：setencoding=utf-8fileencodings=ucs-bom,utf-8,cp936这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用latin-1(ASCII)编码打开。

2.enca(如果你的系统中没有安装这个命令，可以用sudoyuminstall-yenca安装)查看文件编码&#36encafilenamefilename:Universaltransformationformat8bitsUTF-8CRLFlineterminators需要说明一点的是，enca对某些GBK编码的文件识别的不是很好，识别时会出现：Unrecognizedencoding

二，文件编码转换

1.在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式:setfileencoding=utf-8 2.iconv转换，iconv的命令格式如下：输入/输出格式规范：-f,--from-code=名称原始文本编码-t,--to-code=名称输出编码信息： www.Svn8.Com-l,--list列举所有已知的字符集输出控制：-c从输出中忽略无效的字符-o,--output=FILE输出文件Svn8.Com-s,--s ilent关闭警告--verbose打印进度信息-?,--help给出该系统求助列表--usage给出简要的用法信息-V,--version打印程序版本号例子:iconv-futf-8-tgb2312aaa.txt>bbb.txt这个命令读取aaa.txt文件，从utf-8编码转换为gb2312编码,其输出定向到bbb.txt文件。iconv-fencoding-tencodinginputfile比如将一个UTF-8编码的文件转换成GBK编码iconv-fGBK-tUTF-8file1-ofile2

3.enconv转换文件编码比如要将一个GBK编码的文件转换成UTF-8编码， *** 作如下enconv-Lzh_CN-xUTF-8filename

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/8050061.html

linux下文件编码格式转换方法（gb18030utf-8）

发表评论

评论列表（0条）