pandas包依赖于 NumPy 包
1 数据结构 1、 Series 数据结构Series 是一种类似于一维数组的对象,由一组数据和一组数据标签(索引值)组成。
通过Series()方法创建对象,也可以直接将列表、字典等序列类型转换成Series数据。
当参数为列表时列表元素作为series的值;当参数为字典时key作为series的索。
s=pd.Series(range(6),index=['a','b','c','d','e','f'],name='333333')
s1=pd.Series([1,2,3,5]) #当没有显示指定索引的时候,Series 自动以 0 开始,步长为 1 为数据创建索引
s2=pd.Series({'a':[1,2,3,4],'b':[9,8,7,6]}) #
s3=pd.Series({'a':1,'b':2,'c':3}) #
(2) Series对象的属性
获取数据:Series.values
获取名称:Series.name
获取index:Series.index
获取index的名称:Series.index.name
DataFrame是由一组数据和一对索引(行索引和列索引)组成的表格型数据结构。
当你将列表或数组赋值给一个列时,值的长度必须和DataFrame的长度相匹配。
如果你将Series赋值给一列时,Series的索引将会按照DataFrame的索引重新排列,并在空缺的地方填充缺失值
(1) DataFrame对象的创建df=pd.DataFrame(list/dict)
(2) DataFrame对象的属性
获得index:dataframe.index
获得columns:dataframe.columns
获取数据:dataframe.values
获取类型:dataframe.dtype
获得维度信息:dataframe.ndim
获取shape信息:dataframe.shape
获取行及列索引:dataframe.axes
转置列表:dataframe.T
第一种方法
语法:df.astype(‘type’)
功能描述:将表格数据类型转换成指定的数据类型
第二种方法
语法: df['column_name'].apply(‘type’)
功能描述:将表格数据中的一列数据类型转换成指定的数据类型
Series------》DataFrame:
Series.to_frame(['column_name']) # column_name选填参
DataFrame------》Series:
DataFrame[column_name]
2 导入与导出数据
一般导入数据会使用到pandas库中的read_x()方法,其中x代表数据文件的类型,例如:read_excel()、read_csv()、read_table()
1、excel文件(1)导入数据
语法:pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False, dtype= None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, comment=None, skipfooter=0, convert_float=None, mangle_dupe_cols=True, storage_options= None)
参数说明:
sheet_name: 指定工作表名称或索引,默认第一个工作表
index_col: 指定行索引,默认从excel数据中的第0列开始
header: 指定列索引,默认从excel数据中的第0行开始
usecols: 指定数据导入时的列
skiprows: 设置跳过的行索引
keep_default_na: 空内容是否默认为NaN
parse_dates: 读取文件时按照指定的解析成日期格式的列
date_parser: 读取数据时按照该设置解析成日期格式,{ True(解析成日期并作为结果的index),[index0,index1] 或 [‘column_name1’ ,‘column_name1’] (对指定列解析日期),[[0,1,2]] (对指定列的数据解析日期并组合成一列),{‘new_column_name’:[0,1,2] ((对指定列的数据解析日期并组合成一列,指定列名)}}
(2)导出数据
语法:DataFrame.to_excel(excel_writer, sheet_name= 'Sheet1', na_rep: = '', float_format:= None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None, storage_options= None)
参数说明:
excel_writer: 文件路径,文件后缀最好是xlsx格式
sheet_name: 要写入工作表的表名
na_rep: 表示缺失数据,不写默认为空
float_format: 浮点数据输出格式,如:%.2f
columns: 要写入的列
header: 数据的表头
index: 是否写入行索引
startrow: 写入的数据初始行
startcol: 写入的数据初始列
engine: 设置写引擎,{io.excel.xlsx.writer,io.excel.xls.writer 和 io.excel.xlsm.writer}
freeze_panes : 指定冻结窗口,整数的元组(长度2)
encoding: 编码方式
还有一种方法是采用ExcelWriter方法
with pd.ExcelWriter('output.xlsx') as writer:
df1.to_excel(writer, sheet_name='Sheet_name_1')
2、 csv文件
(1)导入数据
df=padans.read_csv("文件路径"[,sep= ,nrows= , encoding=utf8/gbk , engine=None])
# sep 定义分隔符,根据分隔符分隔csv中的数据返回结果给df,默认逗号分割(如csv数据不是用逗号分隔时会整行返回)
# nrows 指定返回csv数据中的行数
# encoding 指定编码方式
# engine 设置解析语言,参数值有python和c,所以路径中存在中文时会抛出OSError异常
当数据量很大时,可以修改engine参数,修改为pyarrow(仅限pandas1.4版本之后),也可以使用Parquet 数据格式
import pandas as pd
df = pd.read_csv("001.csv")
df.to_parquet("001.parquet", compression=None)
df = pd.read_parquet("001.parquet", engine="fastparquet")
(2)导出数据
df.to_csv(path,sep=',',na_rep='',columns=None,header=True,index=True,mode='w',encoding=None)
# mode:模式,'w'写入模式,'a'追加写入模式
3、 txt文件
(1)导入数据
语法:padans.read_table(path,sep='\t',delimiter='None',header='infer',na_filter=True)
参数说明:
sep: 定义分隔符,根据分隔符分隔文件中的数据返回结果给df
delimiter: 分隔符别名
header: 标题行,默认infer(自动推导)
usecols: 需要导入的列
nrows: 需要导入的行数
na_filter: 是否检查缺失值
read_table()
方法是利用分隔符来分开文件并将分隔后的文件导入,它不仅可以导入.txt文件,还可以导入.csv文件。
语法:pymysql.connect(host='',user='',password='',db='',charset='')
参数说明:
host: 用户名
user: 密码
password: 数据库地址/本机使用localhost
db: 数据库名
语法:padas.read_aql(sql,con [, index_col])
参数说明:
sql: 是需要执行的sql语句
con: 第一步链接数据库的实例对象
index_col: 设置行索引
数据格式 | 读取函数 | 写入函数 |
---|---|---|
excel | read_excel | to_excel |
csv | read_csv / read_table | to_csv |
txt | raad_table | to_table |
json | read_json | to_json |
sql | read_sql | to_sql |
html | read_html | to_html |
剪贴板 | read_clipboard | to_clipboard |
pkl | read_pickle | to_pickle |
pkl文件的读取速度比csv文件读取速度快2倍 ,相比excel读取同样的容量的数据快379倍,object类型很占内存,可以将其转换为category类型,再转换成plk文件可以大大提高数据导入和处理效率。
s[5]
切片的形式显示指定行数据
df.head( [ size ] )
显示前N行,默认前5行
df.tail( [ size ] )
显示后N行,默认后5行
df.sample( [ size ] )
随机显示N行,默认1行
len(s)
获取多少个数据
df.shape
以元组形式返回数据表的总行数和列数
df.count()
获取每列的有效个数,不包含无效值(Nan)
第一种方法:df.info()
返回整个数据表中所有列的数据类型,返回的结果包含行索引和列数
第二种方法:df [ 列名 ].dtype
返回指定列的数据类型
第三种方法:df.dtypes
返回每一列的数据类型
df.describe()
将数据表中数值类型中数据的均值、最值、方差和分位数返回
第一种方法:
语法:data.columns=list
功能描述:重新赋值列索引名
返回情况:无返回,直接修改原值
注意: 此方法会直接全部列名都被修改
第二种方法:
语法:data.rename(columns={"columns_name":'new_columns_name'},inplace=True)
功能描述:根据传入的参数,直接修改列索引名
返回情况:根据inplace的参数值判断返回情况
第一种方法:
语法:df.set_index('columns_name'[,append=False,drop=True,inplace=False,verify_integrity=False])
功能描述: 将传入的列名设置为行索引
返回情况: 返回一个设置索引后的DataFrame
参数说明:
append: 是否保留原索引
drop: 该列被指定为索引后,是否删除该列
verify_integrity: 检查新索引是否存在重复项
第二种方法:
语法:df.reset_index((level=None,name=None,inplace=False,drop=True)
功能描述: 重置索引,重置的索引值为默认索引range(0,end)
返回情况: 根据inplace的参数值判断返回情况
注意:
1、当drop=True时,直接丢弃原来的索引;若为Fales时,原索引被并入新的一列。
2、当Series转换成DataFrame时,但inplace的参数值必须是False,否则抛出TypeError异常
第三种方法:
语法:df.rename({’index_name‘:'new_index_name'},inplace=True)
没有指明columns时会直接默认为index
功能描述: 根据传入的参数,直接修改索引名
返回情况: 根据inplace的参数值判断返回情况
第一种方法: 直接赋值添加
第二种方法: 通过ass
第三种方法: 通过insert函数
4、多重索引(1)多重索引的建立
使用set_index方法:df.set_index(['index_name1','index_name2'])
(2)获取多重索引值
获取所有索引:df.index/columns.levels
获取指定层级的索引:df.index/columns.get_level_values(N)
N一般为层级数
获取指定层级的索引值:df.index/columns.get_level_values(N).values
N一般为层级数
(1)通过列索引名访问:df[ column_name]
(2)通过切片访问 :df[ start_index : end_index ]
(3)调用values属性:df.values
(以ndarray的类型返回数据)
语法: df[df[条件]]
功能描述: 筛选出符合条件的并返回符合条件的数据
注意:
多个条件筛选时:df[(df[条件])|(df[条件])]
/ df[(df[条件])&(df[条件])]
当条件筛选返回的bool结果为DataFrame时,无法筛选行,必须是series类型的bool才能通过df[]直接过滤False的行
语法:DataFrame.where(cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=
功能描述: 返回整个数据,但不符合条件的值为nan
参数说明: cond代表条件;other代表填充的数据
语法:DataFrame.mask(cond, other=nan, inplace=False, axis=None, level=None, errors='raise', try_cast=
功能描述: 返回整个数据,但符合条件的值为nan
参数说明: cond代表条件;other代表填充的数据
针对数据的修改直接定位出位置再赋新的值即可修改数据,若定位的index不在原数据会创建新的index再赋值。
df['columns_name']=value
data1.loc['index_name','columns_name']=value
data1.iloc[index,columns]=value
2、数据替换
df.replace(to_replace='查找的字符', value='替换后的字符', regex=False, inplace = False,limit=None,method='pad')
# 查找的字符:当使用正则时,要求查找的字符是字符串类型
# method : 填充方式,pad,ffill,bfill分别是向前、向前、向后填充
df.replace(['abc', '-'], ['aa', np.nan]) #将字符abc替换成aa,’-‘替换成NAN
df.replace({'aa': r'^C.$','bb':r'(a)'}, {'aa': 'unkonwn','bb':'CCC'}, regex=True) #将aa列长度为2以C开头非换行符结尾的字符都替换为‘unkonwn’,将bb列含有字母a的字符串中‘a’替换成‘CCC’
3、append()方法
语法: df.append(other, ignore_index= False, verify_integrity= False, sort= False)
功能描述: 将一个或多个DataFrame或Series添加到DataFrame中
参数说明:
other: 追加的数据
ignore_index : 是否忽略原索引,为 True 则重新进行自然索引
verify_integrity: 检查新索引是否存在重复项
sort: 是否排序
语法: pd.concat(objs, axis=0, join='outer', ignore_index= False, keys=None, levels=None, names=None, verify_integrity= False, sort= False, copy= True)
功能描述: 数据合并
参数说明:
axis: 连接轴方向(1–水平,0–垂直)
join: 连接方式(‘inner’内连接交集,‘outer’外连接并集)
ignore_index: 是否省略原索引重新分配索引
keys: 连接的键
levels: 索引级别
verify_integrity: 是否允许列名重复
sort: 是否排序
语法: df.insert(loc, column, value, allow_duplicates= False)
功能描述: 向指定的列插入数据
参数说明:
loc: 索引位置
column: 新列的列名
value: 新列的值
allow_duplicates: 是否允许列名重复
语法:df.assign(**kwargs)
功能描述: 添加列并返回修改后的数据
df=pd.DataFrame([1,2,3,4])
df=df.assign(number1=[x for x in range(4)],s=[55,44,33,22])
print(df)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)