本次综合实验以阿里巴巴天池的婴儿用品购买数据集为例,进行相关分析并提出建议。
数据来源说明:该数据源自于阿里天池,数据具体为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据,数据包含两个表格:
- 导包
import pandas as pd import numpy as np import matplotlib.pyplot as plt from pandas import Series, Dataframe
- 创建dataframe实例(df即为dataframe的缩写)
df_gender = pd.read_csv('./mum_baby.csv') df_gender
- 另外一个文件
df_mums = pd.read_csv('./mum_baby_trade_history.csv', engine='python') df_mums
- 连接两个表
df_mums_gender = pd.merge(df_mums,df_gender,how='inner') df_mums_gender
- 年份切片
df_mums_gender['birthday']=df_mums_gender['birthday'].astype(str).str.slice(0,4) df_mums_gender
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)