pd.io.parsers.read_csv('filename',skiprows=40,nrows=12646)
它工作正常.更多行,它会抛出一个错误:
CParserError: Error tokenizing data. C error: Expected 56 fIElds in line 13897,saw 71
确实,13897行有那么多行,这就是我试图使用nrows和skiprows的原因.我可以找到pandas将读取的最后一行,它与其余部分看起来没什么不同.在十六进制编辑器中查看文件,我仍然没有看到任何区别.
我也尝试过另一个CSV文件,我得到了类似的结果:
pd.io.parsers.read_csv('file2',skiprows=112,nrows=18524)<class 'pandas.core.frame.DataFrame'>Int64Index: 18188 entrIEs,0 to 18187
但:
pd.io.parsers.read_csv('file2',nrows=18525)
得到:
CParserError: Error tokenizing data. C error: Expected 56 fIElds in line 19190,saw 71
有什么我想念的吗?还有另一种方法吗?
我在windows上使用:pandas-0.10.1.win-amd64-py3.3,numpy-MKL-1.7.1rc1.win-amd64-py3.3和python-3.3.0.amd64.我在numpy-unoptimized-1.7.1rc1.win-amd64-py3.3中遇到了同样的问题.
解决方法 您可以使用warn_bad_lines和error_bad_lines来关闭坏线错误&警告:import pandas as pdfrom StringIO import StringIOdata = StringIO("""a,b,c1,2,34,5,66,7,8,91,53,4,5""")pd.read_csv(data,warn_bad_lines=False,error_bad_lines=False)总结
以上是内存溢出为你收集整理的使用pandas read_csv和nrows读取~13000行CSV文件的部分内容全部内容,希望文章能够帮你解决使用pandas read_csv和nrows读取~13000行CSV文件的部分内容所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)