我有两个相同的CSV文件,但是由于UnicodeDecodeError而无法将一个读入Pandas DataFrame中_python

概述标题解释了主要问题,但让我详细说明.假设我有两个CSV文件-csv1和csv2.它们每个看起来都像这样：csv1：和csv2：问题是,当我运行pd.read_csv('./ csv1.csv')时,它工作正常,但是当我运行pd.read_csv('./ csv2.csv')时,我得到一个UnicodeDecodeError: 'utf-8' codec ca

标题解释了主要问题,但让我详细说明.假设我有两个CSV文件-csv1和csv2.它们每个看起来都像这样：

csv1：

和csv2：

问题是,当我运行pd.read_csv(‘./ csv1.csv’)时,它工作正常,但是当我运行pd.read_csv(‘./ csv2.csv’)时,我得到一个

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 73: invalID start byte

这两个CSV文件之间的区别在于,csv2基本上是csv1,但日期按升序排序.我要做的 *** 作是：

csv2 = csv1.sort_values(by=['date'])csv2.to_csv('./Data/csv_final.csv',index=False)

有人知道问题出在哪里吗？我尝试过寻找其他解决方案,许多人建议在运行pd.read_csv()时尝试指定不同的编码方案,但我只是对问题可能由什么引起的好奇.

谢谢.

最佳答案

many people suggest to try specifying a different enCoding scheme when running pd.read_csv()

是的,这是您应该做的-首先确定CSV文件使用哪种编码方案.由于utf-8的默认设置无效,因此建议使用windows-1252.

but I’m just curIoUs as to what the problem may be caused by.

这是由于CSV文件未以熊猫默认假定的utf-8编码进行编码,因此尝试使用该编码进行读取是无效的.

您应该确保您了解Unicode and text encoding in Python.最初在进行.to_csv调用时,明确地指定编码也是一个好主意. 总结

以上是内存溢出为你收集整理的我有两个相同的CSV文件,但是由于UnicodeDecodeError而无法将一个读入Pandas DataFrame中全部内容，希望文章能够帮你解决我有两个相同的CSV文件,但是由于UnicodeDecodeError而无法将一个读入Pandas DataFrame中所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1199665.html

我有两个相同的CSV文件,但是由于UnicodeDecodeError而无法将一个读入Pandas DataFrame中

发表评论

评论列表（0条）