利用Python的pandas数据结构来读取excel表格的数据,部分代码如下:
#-- coding:utf-8 --
import pandas as pd
import matplotlibpyplot as plt
catering_data="catering_salexls"
data=pdread_excel(catering_data,index_col=u'日期')
#读取数据,指定"日期"列为索引列;
大多数书上都是这样写的,但是在Python27上运行时出现错误。(没有在Python3x版本试过)
出现了如下问题:
这里写描述
使用help(pdread_excel)发现参数中有必选参数sheetname,加入到函数中,代码如下:
#-- coding:utf-8 --
import pandas as pd
import matplotlibpyplot as plt
catering_data="catering_salexls"
data=pdread_excel(catering_data,sheetname=0,index_col=u'日期')
运行成功。
sheetname=0 的意思是:读取xls文件中的第一个表格。(假设文件中有很多个表格)
另外,也可以将文件转换成csv格式,就不需要这个参数了。代码如下:
catering_data="catering_salecsv"
data=pdread_csv(catering_data)
1、读取txt数据
In [1]: import pandas as pd
In [2]: mydata_txt = pdread_csv('C:\\test_codetxt',sep = '\t',encoding = 'utf-8')
对于中文的文本文件常容易因为编码的问题而读取失败,正如上图所示。遇到这样的编码问题该如何处置呢?解决办法有两种情况:
1)当原始文件txt或csv的数据不是uft8格式时,需要另存为utf8格式编码;
2)如果原始的数据文件就是uft8格式,为了正常读入,需要将read_csv函数的参数encoding设置为utf-8
将原始数据另存为utf8格式的数据,重新读入txt数据
In [3]: mydata_txt = pdread_csv('C:\\testtxt',sep = '\t',encoding = 'utf-8')
In [4]: mydata_txt
很顺利,txt文本文件数据就这样进入了Python的口袋里了。
2、读取csv数据
csv文本文件是非常常用的一种数据存储格式,而且其存储量要比Excel电子表格大很多,下面我们就来看看如何利用Python读取csv格式的数据文件:
In [5]: mydata_csv = pdread_csv('C:\\testcsv',sep = ',',encoding = 'utf-8')
In [6]: mydata_csv
如果你善于总结的话,你会发现,txt文件和csv文件均可以通过pandas模块中的read_csv函数进行读取。该函数有20多个参数,类似于R中的readtable函数,如果需要查看具体的参数详情,可以查看帮助文档:help(pandasread_csv)
当大家谈论到数据分析时,提及最多的工具就是Excel和SQL。随着大数据时代的到来,数据量、数据处理速度成为数据分析师需要考量的重要因素。此时Python中很多强大的第三方库成为协助分析师处理数据、分析数据的有力助手,其中Numpy、Pandas、Matplot共同构成了python数据分析的基础工具包,享有数分三剑客之名。
Pandas的主要功能:
具备对应其功能的数据结构DataFrame,
Series集成时间序列功
能提供丰富的数学运算和 *** 作灵活处理缺失数据
推荐练习网址(附数据集):>
输入:
import pandas as pd
data0 = [0,1,2,0,1,0,2,0]
pdvalue_counts(data0)
输出每个数出现的频数:
0 4
2 2
1 2
(0出现4次,2出现2次,1出现两次)
引入pandas
使用pandas下的read_csv方法,读取csv文件,参数是文件的路径,这是一个相对路径,是相对于当前工作目录的,那么如何知道当前的工作目录呢?
使用osgetcwd()方法获取当前工作目录
读取前三后数据,查看一下是否读取正确,显然都是乱码,这是什么问题呢?
我们需要设定参数encoding,也就是编码方式,如果你不设定编码方式,默认是utf8,现在csv文件是gbk编码的,所以需要使用encoding='gbk'
我用的编辑器是eric4,注意,eric4默认是不支持中文的,如果你想要显示中文,前提是设置正确的编码,在preferences中
设置成utf8即可
回到pandas,我们可以有更多选项来设置打开数据时的 *** 作:
第一行。
_andas [1] 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。
_andas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
以上就是关于Pandas数据类型 *** 作全部的内容,包括:Pandas数据类型 *** 作、pandas常用函数汇总、请问在Pandas用read_excel函数读取数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)