Python:查看文件的编码格式-chardet

Python:查看文件的编码格式-chardet,第1张

其中, encoding 为检测出的编码, confidence 为可信度, language 是语言。

另外一个例子:

检测的编码是GB2312,注意到GBK是GB2312的超集,两者是同一种编码,检测正确的概率是74%,language字段指出的语言是'Chinese'。

注意:chardet支持检测的编码列表请参考官方文档 Supported encodings 。

1. 使用chardet这个库,用chardet.detect() 查明现在的编码格式其实是‘GB23212'. 这里要注意chardet.detect()函数接收的是字节流而不是字符串,所以读取文件时要用open('file','rb'),注意时’rb'而不是‘r'

2. 这样我们就可以用codecs将文件夹下的所有txt文件转成utf-8格式。很直观的,转码完成后记事本就可以正常打开显示中文了。当然也可以在python程序中加以验证。

3. 最终我们可以将文档里的内容读取出来存在本地的list中,处理后作为神经网络的input。那这里最后需要注意的就是open()函数中要使用encoding='utf-8',否则还会读成乱码


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12081418.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存