pandas的聚合 *** 作: groupyby与agg_随笔

pandas的聚合 *** 作: groupyby与agg

pandas提供基于行和列的聚合 *** 作，groupby可理解为是基于行的，agg则是基于列的

从实现上看，groupby返回的是一个DataFrameGroupBy结构，这个结构必须调用聚合函数（如sum）之后，才会得到结构为Series的数据结果。

而agg是DataFrame的直接方法，返回的也是一个DataFrame。

当然，很多功能用sum、mean等等也可以实现。

但是agg更加简洁, 而且传给它的函数可以是字符串，也可以自定义，参数是column对应的子DataFrame

一、pandas.group_by

首先来看一下案例的数据格式,使用head函数调用DataFrame的前8条记录，这里一共4个属性

column_map.head(8)

work_order 表示工序， work_station表示工位，rang_low, range_high 表示对应记录的上下限，现在使用groupby统计每个工序工位下面各有多少条记录

column_map.groupby(['work_order','work_station'])

我们会发现输出的是一个GroupBy类，并非我们想要的结果

 <pandas.core.groupby.DataFrameGroupBy object at 0x111242630>

还需要加上一个聚合函数，比如

wo_ws_group = column_map.groupby(['work_order','work_station'])

wo_ws_group.size()

我们就可以得到

新出现的列对应着每个工序工位下面有多少条记录
但是我们可以发现它的格式已经和我们平时使用的DataFrame不太一样了，我们可以使用下面的命令解决

wo_ws_group.size().reset_index()

想要查询具体每一个记录，可以使用loc命令

使用get_group可以查询具体每一个分组下面的所有记录

wo_ws_group.get_group(('0','11'))

因为比较多就显示全部了，使用head，显示前几条记录

wo_ws_group.get_group(('0','11')).head(8)

我们还可以使用idxmin()，idxmax()函数，获得每一个分组下面所有记录中数值最大最小的index

wo_ws_group['range_low'].idxmin()

对于分组结果的每一列还可以使用apply，进行一些函数的二次处理，如

wo_ws_group['work_order'].apply(lambda x:2*x).head(8)

由于这里的0是字符串类型，所以2*以后都变成了2个0

二、pandas.agg

agg的使用比groupby还要简介一些，我们现自己创建一个DataFrame作为例子

data = pd.DataFrame([[2,11],[1,23],[5,11],[1.3,44],[5,111]],columns = ['price','quantity'],dtype = float)

使用agg统计每一列的求和与平均值

data.agg({'price':['sum','mean'],'quantity':['sum']})

如果需要自定义一些函数的话可以使用lambda函数

欢迎分享，转载请注明来源：内存溢出

pandas的聚合 *** 作: groupyby与agg