巨大的TSV文件中的大整数字符串列上的pandas read_csv dtype推断不一致

五方通话 • 2022-11-14 • 随笔 • 阅读 35

您在这里欺骗了read_csv解析器（为了公平起见，无论您扔给它什么，我都不总是
期望它能够正确输出）…但是，这可能是一个错误！

正如@Steven指出的那样，您可以使用read_csv的converters参数：

df2 = pd.read_csv('test', sep='t', converters={'a': str})

一个懒惰的解决方案是在阅读文件后进行修补：

In [11]: df2['a'] = df2['a'].astype('str')# now they are equalIn [12]: pd.util.testing.assert_frame_equal(df, df2)

注意：如果您正在寻找 一种解决方案来存储Dataframe
，例如在会话之间，则pickle和HDF5Store都是出色的解决方案，它们不会受到此类解析错误的影响（并且速度会更快）。请参阅：
如何使用PANDAS，Python存储数据帧

欢迎分享，转载请注明来源：内存溢出

解决方案串列解析错误文件

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-11-14

下一篇 2022-11-14

登录后才能评论