import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = 'SimHei' plt.rcParams['axes.unicode_minus'] = False %config InlineBackend.figure_format = 'svg' lagou_df = pd.read_csv( '*' ) # 提取字段中包含'*'内容的 lagou_df[lagou_df.字段.str.contains('*')] # 直接删除不包含'*'内容的 index_nums = lagou_df[~lagou_df.字段.str.contains('*')].index lagou_df.drop(index=index_nums, inplace=True) # 上函数对指定字段 *** 作 lagou_df['字段'] = lagou_df.字段.apply(函数实现数据 *** 作) lagou_df # 实例 temp_df = pd.Dataframe(data=np.random.randint(30, 101, (5, 3))) temp_df.apply(np.mean) # 此处lambda函数的参数x是一个数据系列 temp_df.apply(lambda x: (x ** 0.5 * 10).astype(int)) # 此处lambda函数的参数x是一个数据系列 # transform的参数是不带归约性质的函数 temp_df.transform(lambda x: (x ** 0.5 * 10).astype(int)) # 此处lambda函数的参数x是一个值 temp_df.applymap(lambda x: int(x ** 0.5 * 10)) # 分组聚合 groupby('*').字段.agg(['sum', 'max', 'min']) # 分段 new = pd.cut(luohu_df.字段,np.arange(30,61,5)) luohu_df.groupby(new).字段.count()
-
加载数据
- read_csv
- read_excel
- read_sql
-
数据抽取
- 布尔索引
- query
- drop
-
数据清洗
- 缺失值:isnull、isna、dropna、fillna
- 重复值:duplicated、drop_duplicates、nunique
- 异常值:replace、drop
- 预处理:apply、transform、applymap
- str
- dt
- to_datetime
-
数据透视
- 分组:groupby
- 透视表:pivot_table
- 排序:sort_values
- 取头部:nlargest、nsmallest
-
可视化
- 绘图:plot
- kind
- figsize
- 绘图:plot
-
业务洞察
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)