Python：查看文件的编码格式-chardet_教程

其中， encoding 为检测出的编码， confidence 为可信度， language 是语言。

另外一个例子：

检测的编码是GB2312，注意到GBK是GB2312的超集，两者是同一种编码，检测正确的概率是74%，language字段指出的语言是'Chinese'。

注意：chardet支持检测的编码列表请参考官方文档 Supported encodings 。

1. 使用chardet这个库，用chardet.detect() 查明现在的编码格式其实是‘GB23212'. 这里要注意chardet.detect()函数接收的是字节流而不是字符串，所以读取文件时要用open('file','rb')，注意时’rb'而不是‘r'

2. 这样我们就可以用codecs将文件夹下的所有txt文件转成utf-8格式。很直观的，转码完成后记事本就可以正常打开显示中文了。当然也可以在python程序中加以验证。

3. 最终我们可以将文档里的内容读取出来存在本地的list中，处理后作为神经网络的input。那这里最后需要注意的就是open()函数中要使用encoding='utf-8'，否则还会读成乱码

欢迎分享，转载请注明来源：内存溢出

Python：查看文件的编码格式-chardet