另外一个例子:
检测的编码是GB2312,注意到GBK是GB2312的超集,两者是同一种编码,检测正确的概率是74%,language字段指出的语言是'Chinese'。
注意:chardet支持检测的编码列表请参考官方文档 Supported encodings 。
1. 使用chardet这个库,用chardet.detect() 查明现在的编码格式其实是‘GB23212'. 这里要注意chardet.detect()函数接收的是字节流而不是字符串,所以读取文件时要用open('file','rb'),注意时’rb'而不是‘r'2. 这样我们就可以用codecs将文件夹下的所有txt文件转成utf-8格式。很直观的,转码完成后记事本就可以正常打开显示中文了。当然也可以在python程序中加以验证。
3. 最终我们可以将文档里的内容读取出来存在本地的list中,处理后作为神经网络的input。那这里最后需要注意的就是open()函数中要使用encoding='utf-8',否则还会读成乱码
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)