今天在处理国家数据的时候,莫名其妙多出来很多国家为空值的数据,不知道哪来的。
在一步步print筛查后,终于发现是read_excel()函数的问题。如图所示:
我查了查官方文档
是read_excel()函数,把国家代码NA(纳米比亚)自动转义成pd.nan了。
解决办法根据官方文档,加上参数keep_default_na问题暂时解决。
pd.read_excel(xlsx_path, keep_default_na=False)
但所有的空值形式都不会被转义了,有引发其他问题的可能性。
总结其他读取文件的函数也可能有类似的坑,所以能不偷懒还是老老实实把数据放在数据库比较靠谱。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)