Python进阶分享 | 盘点一个Pandas数据清洗题目

Python进阶分享 | 盘点一个Pandas数据清洗题目,第1张

一、写在前面

大家好,我是吒吒。前几天在Python技术交流群有个小伙伴问了一道Python清洗数据的问题,这里拿出来给大家分享下,一起学习下。

 

如何才能把pandas serise里乱七八糟的字符清理干净呢?

二、解决过程

这里给出了一个示例的代码,使用了applylambda和正则表达式,一气呵成,只需要稍微修改下,匹配自己的数据就可以了。

df['主营业务']=df['主营业务'].astype('str').apply(lambda x: re.sub('[0-9+,,.。…、“”^_?::’‘''""()();;【】!!*?]+', '', x))

 

 

不过这个是通用的,也会把数字干掉,如果想适配自己的数据,还需要稍微修改下。

 

这样问题就完美解决了,另外的话,遇到特殊字符什么的,都可以优先使用re.sub或者replace()函数,事半功倍。

三、写在最后

这篇文章主要分享了一个Pandas数据清洗题目,针对该问题给出了具体的解析和代码演示,一共两个方法,顺利解决了问题。相信肯定还有其他方法的,欢迎大家积极尝试,如果有好方法,记得也分享给我噢,大家一起学习交流!我这里有整理一套新手学习Python的路线及资料,可以扫名片找我的小助手领取

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/718709.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存