linux下文件编码格式转换方法（gb18030utf-8）_教程

linux下文件编码格式转换方法（gb18030/utf-8）

在 Linux 做开发或者系统管理遇到乱码是经常的事情，主要windows下中文的默认编码是bg2312，而 linux下是utf-8。很多时候涉及到和windows平台系统的通信免不了编码的转化，可能大部分人都用iconv库函数（包含在glib中）和iconv命令来执行编码转换，即：

iconv -f gb18030 -t utf-8 file1.txt -o file2.txt

说实话这个命令不好使，一方面容易重复转换，另一方面不支持通配符，无法成批转换，文件少了还好说，要是一大堆文件岂不是要累死？

今天我要推荐的是另一个 Shell 下编码转换工具enca。用它不仅可以转换编码，还可以查看文件的原始编码，而且还支持成批转换。使用上也比iconv方便一些。安装enca很简单，一般用源安装就行了，enca用法如下：

enca -L 当前语言 文件名

enca -L zh_CN file ／／检查文件的编码

enca -L 当前语言 -x 目标编码文件名

enca -L zh_CN -x UTF-8 file ／／将文件编码转换为”UTF-8″编码

enca -L zh_CN -x UTF-8 <file1 >file2 ／／如果不想覆盖原文件可以这样

除了有检查文件编码的功能以外，”enca”还有一个好处就是如果文件本来就是你要转换的那种编码，它不会报错，还是会print出结果来，而”iconv”则会报错。这对于脚本编写是比较方便的事情。

处于linux命令，想在linux系统中处理一些表格信息，但是在linux输入cat solr |head -2中文字符出现乱码，百度之后才知道linux下文件编码必须是utf-8中文字符才不会出现乱码。经过多方求助，才得知解决方法。

linux环境如何查看文件编码：

file filename

file是命令，filename是文件名

可以从上图看出solr.txt的编码是utf-16，所以要转换成utf-8。

linux环境如何实现编码转换：

iconv -f utf-8 -t utf-16 keyword -o keyword1

iconv -f 源文件格式 -t 想要转成的格式文件名 -o 输出文件名

上图所示，中文字符乱码经过转换之后可以输出正常的中文字符。

查看文件编码

在Linux中查看文件编码可以通过以下几种方式：

1.在Vim中可以直接查看文件编码

:set fileencoding

即可显示文件编码格式。

如果你只是想查看其它编码格式的文件或者想解决用Vim查看文件乱码的问题，那么你可以在

~/.vimrc 文件中添加以下内容：

set encoding=utf-8 fileencodings=ucs-bom,utf-8,cp936

这样，就可以让vim自动识别文件编码（可以自动识别UTF-8或者GBK编码的文件），其实就是依照fileencodings提供的编码列表尝试，如果没有找到合适的编码，就用latin-1(ASCII)编码打开。

文件编码转换

1.在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式

:set fileencoding=utf-8

2. iconv 转换，iconv的命令格式如下：

iconv -f encoding -t encoding inputfile

比如将一个UTF-8 编码的文件转换成GBK编码

iconv -f GBK -t UTF-8 file1 -o file2

iconv -f gbk -t utf8 linux常用命令.txt >linux常用命令.txt.utf8

文件名编码转换:

从Linux 往 windows拷贝文件或者从windows往Linux拷贝文件，有时会出现中文文件名乱码的情况，出现这种问题的原因是因为，windows的文件名中文编码默认为GBK,而Linux中默认文件名编码为UTF8,由于编码不一致，所以导致了文件名乱码的问题，解决这个问题需要对文件名进行转码。

在Linux中专门提供了一种工具convmv进行文件名编码的转换，可以将文件名从GBK转换成UTF-8编码,或者从UTF-8转换到GBK。

首先看一下你的系统上是否安装了convmv,如果没安装的话用:

yum -y install convmv

安装。

下面看一下convmv的具体用法：

convmv -f 源编码 -t 新编码 [选项] 文件名

常用参数：

-r 递归处理子文件夹

--notest 真正进行 *** 作，请注意在默认情况下是不对文件进行真实 *** 作的，而只是试验。

--list 显示所有支持的编码

--unescap 可以做一下转义，比如把%20变成空格

比如我们有一个utf8编码的文件名，转换成GBK编码，命令如下：

convmv -f UTF-8 -t GBK --notest utf8编码的文件名

这样转换以后"utf8编码的文件名"会被转换成GBK编码（只是文件名编码的转换，文件内容不会发生变化）

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/11410896.html

linux下文件编码格式转换方法（gb18030utf-8）

发表评论

评论列表（0条）