【pandas教程】方法链简介_python

用方法链assign创建新列

assign可以说是pandas中强大且鲜为人知的设计，可以让你以优雅的方式用一行代码实现任意复杂的DataFrame

# assign使用现有的列创建新列
# 1.assign中可以存在依赖，调用刚刚生成的列
# 2.assign中有这样的 *** 作：第一步对A列更新，第二步引用A列值，那么在python3.5及以前版本，第二步会引用A的旧值，而在python3.6及更高版本，第二步会引用A列的新值
# 注意：assign中的lambda参数x引用的是df，区别的是，agg中的lambda参数x引用的groupby分组后的对应列
# 注意：可以多个assign函数链连接使用，后继assign必需使用lambda调用前驱函数链结果
# 注意：lambda中的参数x引用的是df还是df中的列要根据“左侧最近原则”来判断
# 注意：assign一般可以用作列与列之间的计算，不改变行数，agg可用于按列分组后的聚合，行数可能不变或变少
# df.assign(c=lambda x:...)，这里左侧最近的DataFrame是df
# df.groupby('A')['B'].agg(lambda x: np.mean(x))，这里左侧最近的DataFrame是分组后的B列
# df.groupby('A').agg(lambda x: np.mean(x))，这里左侧最近的DataFrame是分组后的df
df.assign(C=lambda x:x['A']+x['B'],D=lambda x:x['A']+x['C'])

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/799877.html

【pandas教程】方法链简介

发表评论

评论列表（0条）