assign可以说是pandas中强大且鲜为人知的设计,可以让你以优雅的方式用一行代码实现任意复杂的DataFrame
# assign使用现有的列创建新列
# 1.assign中可以存在依赖,调用刚刚生成的列
# 2.assign中有这样的 *** 作:第一步对A列更新,第二步引用A列值,那么在python3.5及以前版本,第二步会引用A的旧值,而在python3.6及更高版本,第二步会引用A列的新值
# 注意:assign中的lambda参数x引用的是df,区别的是,agg中的lambda参数x引用的groupby分组后的对应列
# 注意:可以多个assign函数链连接使用,后继assign必需使用lambda调用前驱函数链结果
# 注意:lambda中的参数x引用的是df还是df中的列要根据“左侧最近原则”来判断
# 注意:assign一般可以用作列与列之间的计算,不改变行数,agg可用于按列分组后的聚合,行数可能不变或变少
# df.assign(c=lambda x:...),这里左侧最近的DataFrame是df
# df.groupby('A')['B'].agg(lambda x: np.mean(x)),这里左侧最近的DataFrame是分组后的B列
# df.groupby('A').agg(lambda x: np.mean(x)),这里左侧最近的DataFrame是分组后的df
df.assign(C=lambda x:x['A']+x['B'],D=lambda x:x['A']+x['C'])
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)