Excel ETL处理五要素常见问题_工具

经常我们在处理小数据集是不想用大刀，逮住了excel 就想一直拖拖拉拉就把数据先处理一下，实在处理费力，再从 python numpy pandas 处理一通。

常见的在处理五要素的时候，姓名基本没啥要处理的，

1身份z号手机号 yhk号经常是显示为 E+17 或者前面带有 ``` 字符

2申请日期经常是各种格式，有时候一不小心就变成乱码的数字后者####。

3如果 excel 有外部链接存在，即使忽略，但是在修改的时候还是非常糟心，要等很久，而且经常无法保存，excel就崩溃了

4还有就是本身就是文本，但是使用 TEXT LEFT RIGHT MID IF 没有任何效果

5excel 读取含有中文的数据显示乱码

6多条件的替换问题，if嵌套。

7批量替换匹配

8空值问题

9筛选问题

10脚本读取文件

其实就是以上的这些小情况，经常浪费大量时间，急需一招狠制敌

接着说 1

因为很多时候 excel会把一些类数值的身份z号和手机号当做数字，这个其实是数据源在使用python处理的时候没有来得及保存对应列的数据类型。

在出现 E+17,我们首先想到的是修改单元格格式，比如保存为文本，假如正常那简直是万幸，如果不可以，可能会发现修改后的数据末尾都变成了3个零。

另外一个终极方法

这里，有一个简单的 *** 作方法：选择数据源——右键设置单元格格式——自定义——选择0，按确定——结果出来了。结果很明显，是我们需要的效果，而且快捷，方便。

另外就是使用python pandas读取，设置 dtype=npstr

对于身份z或者手机号 yhk号数据首位出现 `字符的，可以使用 RIGHT MID 函数做数据的截取

对于数据出现 ###,一般修改单元格格式，或者拉长单元格，或者 python读取一下就可以处理

最后就是说2了。日期

其实这个日期，就是格式太特么的多和复杂不固定。我们现在使用的是类似 2018-4-17 这种格式，所以只要不符合这种格式的，我们都会需要做一些转化，

最简单的就是使用 TEXT 函数，一般这样用 =TEXT(E2,"yyyy-mm-dd")

基本就可以转化过来。

如果以上不起作用参考处理 4 的方法不断尝试，最后确认函数真的不会起作用为止。

之后如果不小心变成一段数字了，修改单元格格式，转回日期一般是有效的。

如果日期函数不起效果，我们使用截取拼接的方式使用 RIGHT LEFT MID

CONCATENATE() 这些函数一般也可以胜任

如果还是不行也可以使用 YEAR() DATE() EXCEL 本身的日期处理函数

另外就是修改单元格格式，尝试一下各种日期格式是否可以满足要求

另外的杀手锏就是 python pandas 和numpy都有时间处理的函数

可以参考

Excel ETL处理五要素常见问题