我试图通过pandas.read_csv()的parse_dates解析几个日期时遇到了这个BUG.在下面的代码片段中,我试图解析格式为dd / mm / yy的日期,这导致我转换不正确.在某些情况下,日期字段被视为月份,反之亦然.
为了简单起见,在某些情况下,dd / mm / yy会转换为YYYY-DD-mm而不是yyyy-mm-dd.
情况1:
04/10/96 is parsed as 1996-04-10,which is wrong.
案例2:
15/07/97 is parsed as 1997-07-15,which is correct.
案例3:
10/12/97 is parsed as 1997-10-12,which is wrong.
代码示例
import pandas as pddf = pd.read_csv('date_time.csv') print 'Data in csv:'print dfprint df['start_date'].dtypesprint '----------------------------------------------'df = pd.read_csv('date_time.csv',parse_dates = ['start_date'])print 'Data after parsing:'print dfprint df['start_date'].dtypes
电流输出
----------------------Data in csv:---------------------- start_date0 04/10/961 15/07/972 10/12/973 06/03/994 //19945 /02/1967object----------------------Data after parsing:---------------------- start_date0 1996-04-101 1997-07-152 1997-10-123 1999-06-034 1994-01-015 1967-02-01datetime64[ns]
预期产出
----------------------Data in csv:---------------------- start_date0 04/10/961 15/07/972 10/12/973 06/03/994 //19945 /02/1967object----------------------Data after parsing:---------------------- start_date0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01datetime64[ns]
更多评论:
我可以使用date_parser或pandas.to_datetime()来指定日期的正确格式.但在我的情况下,我有几个日期字段,如[‘// 1997′,’/ 02/1967′]我需要转换[’01 / 01/1997′,’01/02/1967’]. parse_dates帮助我将这些类型的日期字段转换为预期的格式,而不会让我编写额外的代码行.
这有什么解决方案吗?
BUG link @GitHub:https://github.com/pydata/pandas/issues/13063最佳答案在版本pandas 0.18.0中,您可以添加参数dayfirst = True然后它可以工作:
import pandas as pdimport iotemp=u"""start_date04/10/9615/07/9710/12/9706/03/99//1994/02/1967"""#after testing replace io.StringIO(temp) to filenamedf = pd.read_csv(io.StringIO(temp),parse_dates = ['start_date'],dayfirst=True) start_date0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01
另一种方案:
你可以用to_datetime
解析不同的参数格式和错误=’coerce’然后combine_first
:
date1 = pd.to_datetime(df['start_date'],format='%d/%m/%y',errors='coerce')print date10 1996-10-041 1997-07-152 1997-12-103 1999-03-064 NaT5 NaTname: start_date,dtype: datetime64[ns]date2 = pd.to_datetime(df['start_date'],format='/%m/%Y',errors='coerce')print date20 NaT1 NaT2 NaT3 NaT4 NaT5 1967-02-01name: start_date,dtype: datetime64[ns]date3 = pd.to_datetime(df['start_date'],format='//%Y',errors='coerce')print date30 NaT1 NaT2 NaT3 NaT4 1994-01-015 NaTname: start_date,dtype: datetime64[ns]
print date1.combine_first(date2).combine_first(date3)0 1996-10-041 1997-07-152 1997-12-103 1999-03-064 1994-01-015 1967-02-01name: start_date,dtype: datetime64[ns]
总结 以上是内存溢出为你收集整理的python – 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期/月份字段全部内容,希望文章能够帮你解决python – 当设置parse_date = [‘column name’]时,pd.read_csv无法正确解析日期/月份字段所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)