本文主要针对Python处理Excel & CSV文件的应用。所有代码均实例化代入且逐条备注解释。
全文逐条手工输入整理,可能会产生错误之处,还请指正。
之后会陆续整理 “爬虫” 与 “金融量化分析” 两个文档
# --------------------------------------------------------------------------------------------
一、查询数据:
print(数据) # 查询完整数据值 print(数据.index) # 查索引名 print(数据['姓名']) # 查具体某列的值 print(数据[['姓名','性别']]) # 查具体多列的值 print(数据.values) # 查每列的值 print(数据.sort_index()) # 按索引列排序 print(数据.sort_values('日期')) # 按具体某列数据排序 print(数据['a'][0]) # 查具体列具体行的值,即a列、o行 print(数据.loc[0]['a']) # 查具体行具体列的值,即0行、a列 (按索引) print(数据.iloc[0][0]) # 查具体行具体列的值,即0行、a列 (按行列数) print(数据.dtypes) # 查数据类型 print(数据.columns) # 查全部列名 print(数据.loc[0:3]) # 查指定几行的值 print(数据.head()) # 查前5行的值(默认) print(数据.head(3)) # 查前3行的值 print(数据.tail(5)) # 查最后5行的值(默认) print(数据.tail(3)) # 查最后3行的值 print(数据.shape) # 查整个表共几行几列 print(数据.fillna(1)) # 将表格中的空白填充为数字1 print(数据.replace('Jack','Jason')) # 将表中的Jack全部替换成Jason print(数据.reset_index(drop=True)) # 删除索引 print(数据.apply(np.square)) # 对数据各项求平方 print(数据.describe()) # 查每列数据的平均值/最大值/最小值/标准差 print(数据['姓名'].value_counts()) # 查姓名列相同的值出现的次数
二、数据删除:
1.删除单行或多行 print(数据.drop(2)) # 删除第2行数据 print(数据.drop(labels=[1,3])) # 删除第1至第3行数据 2.删除单列或多列 print(数据.drop('语文',axis=1)) # 删除语文至一列数据 print(数据.drop(labels=['语文','英语'],axis=1)) # 删除语文和英语这两列数据 3.删除重复行 print(数据.drop_duplicates(数据['姓名'],keep='first')) # 删除重复行,并保留第一个重复值 print(数据.drop_duplicates(数据['姓名'],keep='last')) # 删除重复行,并保留最后一个重复值 print(数据.drop_duplicates(数据['姓名'],keep=False)) # 删除重复行,并保留无重复值 print(数据.drop_duplicates(数据['姓名','性别'],keep=False)) # 删除多列重复行,并保留无重复值
三、处理缺失值/空白值:
1.显示空白值 print(数据.isnull()) # 判断表中是否有空值,有空值则为True print(数据.notnull()) # 判断表中是否有空值,不是空值则为True 2.删除空白值 print(数据.dropna()) # 删除有空白值的行(有空值则整行数据删除) print(数据.dropna(axis=1)) # 删除有空白值的列(有空值则整列数据删除) print(数据.dropna(how='all')) # 若整行都为空值,则删除整行。否则不删 print(数据.dropna(subset=['语文','数学'])) # 删除指定多列中的空值 3.填充空白值 print(数据.fillna(100)) # 将整个数据中的空值都填为100 print(数据.fillna({'语文':2,'数学':3})) # 将语文列的空值填为2,数学列的空值填为3 print(数据.fillna(method='ffill')) # 将两个非空值之间的空值按上方的非空值,向下填充完整 print(数据.fillna(method='bfill')) # 将两个非空值之间的空值按下方的非空值,向上填充完整 print(数据.fillna(method='ffill',limit=2)) # 将两个非空值之间的空值按上方的非空值,向下填充2行
四、Excel 文件的拆分与合并
import pandas as pd import os # 如果功能涉及文件夹的 *** 作,需要导入os模块 路径='c:/pandas' # 路径没有结尾.txt/.xlsx ,则表示文件夹 1.将一个文件夹中多个Excel合并 新数据=pd.ExcelWriter('c:/pandas/新数据.xlsx') for i in os.listdir(路径): 数据=pd.read_excel('路径/文件名1.xlsx',header=1) 新数据=pd.concat([新数据,数据]) 新数据.to_excel('路径/新数据.xlsx') # 在'c:/pandas’文件夹下创建一个合并后的Excel文件 # 'os.listdir(路径)':读取路径这个文件夹下的所有文件的文件名 # concat:将数据合并入新数据中 2.将一个Excel中多个sheet合并成一个sheet 数据=pd.read_excel('路径/数据.xlsx',sheet_name=None) SHEET名=list(数据.keys()) 新数据=pd.Dataframe() for i in SHEET名: 新数据1=数据[i] 新数据=pd.concat([新数据,新数据1]) 新数据.to_excel('路径/新数据.xlsx') # sheet_name=None:读取Excel中所有sheet # list:获取数据中所有sheet名称 # pd.Dataframe:创建一个空的表格用来连接,并命名为新数据 # for:循环每个sheet名称 # concat:将新数据1合并入新数据中 3.将一个Excel中的一个sheet拆分成多个sheet (指定某列拆分成不同sheet) 数据=pd.read_excel('路径/数据.xlsx') 部门明细=list(数据['部门'].drop_duplicates()) 新数据=pd.ExcelWriter('c:/pandas/新数据.xlsx') for i in 部门明细: 数据1=数据[数据['部门']==i] 数据1.to_excel(新数据,sheet_name=i) # drop_duplicates: 因为之后将按部门列中的部门明细拆分成不同sheet,所以先去除部门列的重复值 # 在'c:/pandas’文件夹下创建一个合并后的Excel文件 4.将一个Excel拆分成多个Excel 数据=pd.read_excel('路径/数据.xlsx') 部门明细=list(数据['部门'].drop_duplicates()) for i in 部门明细: 数据1=数据[数据['部门']==i] 数据1.to_excel('{0}.xlsx',format(i)) # 将format(i)的内容格式,填入{}中,并生成以i命名的Excel
五、字符串处理:
1. 字符的分割 print(数据['姓名'].str.cat(sep='*')) # 例:王五*赵六*NaN*李逵 # 1.将姓名列的所有姓名串联,并用“*”隔开 2. cat为串联,sep为添加分隔符 print(数据['姓名'].str.cat(['变身']*len(数据),sep='^')) # 例:王五^变身 赵六^变身 NaN^变身 李逵^变身 # 将姓名列的所有姓名后加变身两个字,并用“^”符号隔开 print(数据['姓名'].str.cat(['变身']*len(数据),sep='^'),na_rep='没有')) # 例:王五^变身 赵六^变身 没有^变身 李逵^变身 # na_rep=‘没有’:将姓名列中的空值替代为“没有”这两个字 print(数据['小名'].str.split()) # 例: 王小明 李小马 王大军 赵小六 # 将小名列分离出来 print(数据['小名'].str.split('小')) # 例:【王,明】 【李,马】 【王大军】 【赵,六】 # 将小名列分离出来,并用“小”字来分隔开,并删除小字,中间用逗号分隔 print(数据['小名'].str.split('小',expend=True)) # 例:【王 明】 【李 马】 【王大军】 【赵 六】 # 将小名列分离出来,并用“小”字来分隔开,并删除小字,中间用空格分隔 print('EeEeEe'.partition('e')) # 例:'E','e','EeEe' # 将从左至右遇到的第一个e字作为分隔符,并保留e字 2. 字符的获取 print(数据['小名'].str.get(2)) # 例: 明 马 军 六 # 获取小名列的第三个字符 print(数据['小名'].str.slice(0,2)) # 例: 王小 李小 王大 赵小 # 获取小名列位置1~2的字符 print(数据['小名'].str.slice_replace(1.3,'之')) # 例: 王之 李之 王之 赵之 # 获取小名列的数据,并将2~3的数据替换成“之”字 print(数据['小名'].str.join('之')) # 例: 王之小之明 李之小之马 王之大之军 赵之小之六 # 获取小名列的数据,并将各字符之间用之字链接 print(数据['日期'].astype('str').str.find('-')) # 例: 2020-05-01 》》 位置:4 # 在日期列查找‘-’的具体位置,如果查不到则显示“-1” 3. 字符的验证 print(数据['小名'].str.contains('之',na='没有')) # 查询小名列是否包含“之”字,有则显示“True”,没有则显示“没有” print(数据['小名'].str.startswith('王')) # 查询小名列是否以“王”字开头,是则显示“True”,否则显示“False” print(数据['小名'].str.endswith('王')) # 查询小名列是否以“王”字结尾,是则显示“True”,否则显示“False” print(数据.str.isalpha()) # 判断字符串是否全部为字母,是显示True,否显示False print(数据.str.isnumeric()) # 判断字符串是否全部为数字,是显示True,否显示False print(数据.str.isalnum()) # 判断字符串是否全部为字母和数字组合,是显示True,否显示False print(数据.str.isspace()) # 判断字符串是否全部为空格,是显示True,否显示False print(数据.str.islower()) # 判断字符串是否全部为小写,是显示True,否显示False print(数据.str.istitle()) # 判断字符串是否全部单词首字母都是大写,是显示True,否显示False 4. 字符的填充 print(数据['小名'].str.repeat(3)) # 例: 王小明王小明王小明 李小马李小马李小马 # 将小名列的数值重复显示3次 print(数据['小名'].str.pad(5,fillchar='&')) # 例: &&&王明 &&李小马 &&王大军 &&赵小六 # 将姓名列的数据设置为5位字符,并将缺少值从左开始用“&”填充 print(数据['小名'].str.pad(5,fillchar='&',side='right')) # 例: 王明&&& 李小马&& 王大军&& 赵小六&& # 将姓名列的数据设置为5位字符,并将缺少值从右开始用“&”填充 print(数据['小名'].str.pad(5,fillchar='&'side='both')) # 例: &&王明& &李小马& &王大军& &赵小六& # 将姓名列的数据设置为5位字符,并将缺少值在两侧用“&”填充 print(数据['小名'].str.zfill(5) # 例: 000王明 00李小马 00王大军 00赵小六 # 将姓名列的数据设置为5位字符,并将缺少值从左开始用“0”填充 5. 字符编码转换 print(数据['姓名'].str.encode('utf-8')) # 编码转换 print(数据['姓名'].str.decode('utf-8')) # 解码转换 6. 字符的替换 print(数据.str.lower()) # 所有字符转换成小写 print(数据.str.upper()) # 所有字符转换成大写 print(数据.str.title()) # 每一个单词的首字母大写 print(数据.str.capitalize()) # 第一个字母大写 print(数据.str.swapcase()) # 大小写交换 字典=str.maketrans({'前''qian','后':'hou'}) print(数据['方位'],str.translate(字典)) # 例: 前后左右 》》qianhou左右 # 指定替换字符 7. 删除空格/指定字符 print(数据['姓名'].str.strip('后')) # 例: 前后左右 》》 前左右 # 删除姓名列字符串中的“后”字 print(数据['姓名'].str.strip()) # 删除姓名列字符串中的空格
六、离散化和分箱:
年份=[1992,1983,1922,1932,1973] 箱子=[1900,1950,2000] 结果=pd.cut(年份,箱子) # 箱子为分段的标准,即按1900,1950,2000来区分隔开 print(结果) # 例:(1950,2000],(1950,2000],(1900,1950],(1900,1950],(1950,2000] # 表示年份中的数据分别位于箱子中的哪个区间段 print(pd.value_counts(结果)) # 例:(1950,2000] >> 3 (1900,1950] >> 2 # 表示统计每段区间内年份的个数 结果=pd.cut(年份,箱子,labels=False) print(pd.value_counts(结果)) # 例:1 >> 3 0 >> 2 # 表示将以上的区间段用0和1代替,统计每段区间内年份的个数 箱子名=['50年前','50年后'] 结果=pd.cut(年份,箱子,labels=箱子名) print(pd.value_counts(结果)) # 例: 50年后 >> 3 50年前 >> 2 # 表示用箱子名作为区间的名称 结果=pd.qcut(年份,q=4) # qcut 表示等分 print(pd.value_counts(结果)) # 将年份从小到大排序后4等分
七、多层索引与计算:
数据=pd.read_excel(路径,sheet_name='有序',index_col=['班级','学号']) 数据=数据.set_index('班级','学号') 数据=数据.loc[('1班',slice(None)),:] # slice(None)为显示1班内的所有行 数据=数据.loc[('1班','小明',slice(None)),:] # 查询1班中小明的相关数据 # sheet_name:将Excel的sheet重命名 # index_col:将班级和学号设置为索引 # ----------------------------------------------------------------- 例: 番茄 红薯 合计 销量 毛利 销量 毛利 销量 毛利 20 2 30 5 50 7 40 3 60 4 100 7 数据=pd.read_excel(路径,header=[0,1]) # 将第一第二行设置为索引 总计=数据['番茄']+数据['红薯'] # 将番茄和红薯下的销量&毛利分别相加 总计.columns=pd.MultiIndex.from_product([['合计'],总计.columns]) print(总计) 结果=pd.concat([数据.总计].axis=1) # 将番茄和红薯和总计值横向连接
八、数据替换:
数据=数据.replace('第九','第八') # 将所有的第九替换成第八 数据['数值'].replace('第九','第八',inplace=True) # 将数值列的所有第九替换成第八 字典={'A':20,'B':30} 数据['数值'].replace(字典,inplace=True) # 将数值列的所有A替换成20,B替换成30 数据['数值'].replace(['A','B'],30,inplace=True) # 将数值列的所有A和B都替换成30 数据.replace([A-Z],88,regex=True,inplace=True) # 使用正则表达式,将A至Z所有值都替换成88,regex=True 为正则表达式必写语句
九、列计算:
描述 >> 方法 >> 反转方法 加 >> add >> add 减 >> sub >> sub 乘 >> mul >> mul 除 >> div >> div 整除 >> floordiv >> floordiv N次方 >> pow >> pow
数据['销售金额']=数据['单价']*数据['销售数量'] 数据['销售金额']=数据['单价']*2 def 涨价(X): return x+3 数据['单价']=数据['单价'].apply(涨价) # 每行数据加3,方法一 数据['单价']=数据['单价'].apply(lambda x:x+3) # 每行数据加3,方法二 差异=数据['结束日期']-数据['起始日期'] # 两列日期求差 数据['间隔日期']=差异.apply(lambda x:x days) # 将差值转换为日期格式 数据=数据['门店1'].fillna(0)+数据['门店2'].fillna(0) #门店1或门店2数据含空值时,将空值填充为0
import pandas as pd import numpy as np 列表=[[1,2,3],[4,5,6],[7,8,9]] 数据.pd.Dataframe(列表,columns=list('xyz'),index=list('abc')) # 方法一 数据.pd.Dataframe(列表,columns=['x','y','z'],index=['a','b','c']) # 方法二 # 将“x”,“y”,“z”分别作为“列表”的各列列名 print(数据.apply(np.square)) # 对整个数据求平方 print(数据.apply(lambda m:np.square(m) if m.name=='x' else m)) # 将m作为变量,如果列名为’x‘,则对x列求平方,其余列保持不变 print(数据.apply(lambda m:np.square(m) if m.name=='x' else m,axis=1)) # 将m作为变量,如果列名为’x‘,则对x行求平方,其余行保持不变 print(数据.apply(lambda m:np.square(m) if m.name in list('yz') else m)) # 将m作为变量,如果列名为’y‘或’z‘,则对x列和y列求平方,其余列保持不变 print(数据.apply(lambda m:np.square(m) if m.name in list('yz') else m,axis=1)) # 将m作为变量,如果行名为‘y’或’、‘z’,则对x行和y行求平方,其余行保持不变
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)