假设两个数据框具有相同的列,则可以将它们串联起来,然后在串联的帧上计算汇总统计信息:
更新资料import numpy as npimport pandas as pd# some random data framesdf1 = pd.Dataframe(dict(x=np.random.randn(100), y=np.random.randint(0, 5, 100)))df2 = pd.Dataframe(dict(x=np.random.randn(100), y=np.random.randint(0, 5, 100)))# concatenate themdf_concat = pd.concat((df1, df2))print df_concat.mean()# x -0.163044# y 2.120000# dtype: float64print df_concat.median()# x -0.192037# y 2.000000# dtype: float64
如果要计算两个数据集中具有相同索引的每组行的统计信息,可以使用
.groupby()按行索引对数据进行分组,然后应用均值,中位数等:
by_row_index = df_concat.groupby(df_concat.index)df_means = by_row_index.mean()print df_means.head()#x y# 0 -0.850794 1.5# 1 0.159038 1.5# 2 0.083278 1.0# 3 -0.540336 0.5# 4 0.390954 3.5
即使您的数据帧中的行数不相等,此方法也可以使用-如果两个数据帧之一中缺少特定的行索引,则将在单个现有行上计算均值/中值。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)