python– 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期月份字段

python– 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期月份字段,第1张

概述我试图通过pandas.read_csv()的parse_dates解析几个日期时遇到了这个bug.在下面的代码片段中,我试图解析格式为dd / mm / yy的日期,这导致我转换不正确.在某些情况下,日期字段被视为月份,反之亦然.为了简单起见,在某些情况下,dd / mm / yy会转换为yyyy-dd-mm而不是yyyy-mm-dd.情况1: 04/1

我试图通过pandas.read_csv()的parse_dates解析几个日期时遇到了这个BUG.在下面的代码片段中,我试图解析格式为dd / mm / yy的日期,这导致我转换不正确.在某些情况下,日期字段被视为月份,反之亦然.

为了简单起见,在某些情况下,dd / mm / yy会转换为YYYY-DD-mm而不是yyyy-mm-dd.

情况1:

  04/10/96 is parsed as 1996-04-10,which is wrong.

案例2:

  15/07/97 is parsed as 1997-07-15,which is correct.

案例3:

  10/12/97 is parsed as 1997-10-12,which is wrong.

代码示例

import pandas as pddf = pd.read_csv('date_time.csv') print 'Data in csv:'print dfprint df['start_date'].dtypesprint '----------------------------------------------'df = pd.read_csv('date_time.csv',parse_dates = ['start_date'])print 'Data after parsing:'print dfprint df['start_date'].dtypes

电流输出

----------------------Data in csv:----------------------  start_date0   04/10/961   15/07/972   10/12/973   06/03/994     //19945   /02/1967object----------------------Data after parsing:----------------------   start_date0 1996-04-101 1997-07-152 1997-10-123 1999-06-034 1994-01-015 1967-02-01datetime64[ns]

预期产出

----------------------Data in csv:----------------------   start_date0   04/10/961   15/07/972   10/12/973   06/03/994     //19945   /02/1967object----------------------Data after parsing:----------------------  start_date0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01datetime64[ns]

更多评论:

我可以使用date_parser或pandas.to_datetime()来指定日期的正确格式.但在我的情况下,我有几个日期字段,如[‘// 1997′,’/ 02/1967′]我需要转换[’01 / 01/1997′,’01/02/1967’]. parse_dates帮助我将这些类型的日期字段转换为预期的格式,而不会让我编写额外的代码行.

这有什么解决方案吗?

BUG link @GitHub:https://github.com/pydata/pandas/issues/13063最佳答案在版本pandas 0.18.0中,您可以添加参数dayfirst = True然后它可以工作:

import pandas as pdimport iotemp=u"""start_date04/10/9615/07/9710/12/9706/03/99//1994/02/1967"""#after testing replace io.StringIO(temp) to filenamedf = pd.read_csv(io.StringIO(temp),parse_dates = ['start_date'],dayfirst=True)  start_date0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01

另一种方案:

你可以用to_datetime解析不同的参数格式和错误=’coerce’然后combine_first

date1 = pd.to_datetime(df['start_date'],format='%d/%m/%y',errors='coerce')print date10   1996-10-041   1997-07-152   1997-12-103   1999-03-064          NaT5          NaTname: start_date,dtype: datetime64[ns]date2 = pd.to_datetime(df['start_date'],format='/%m/%Y',errors='coerce')print date20          NaT1          NaT2          NaT3          NaT4          NaT5   1967-02-01name: start_date,dtype: datetime64[ns]date3 = pd.to_datetime(df['start_date'],format='//%Y',errors='coerce')print date30          NaT1          NaT2          NaT3          NaT4   1994-01-015          NaTname: start_date,dtype: datetime64[ns]
print date1.combine_first(date2).combine_first(date3)0   1996-10-041   1997-07-152   1997-12-103   1999-03-064   1994-01-015   1967-02-01name: start_date,dtype: datetime64[ns]
总结

以上是内存溢出为你收集整理的python – 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期/月份字段全部内容,希望文章能够帮你解决python – 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期/月份字段所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1206406.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存