Pandas数据类型 *** 作

Pandas数据类型 *** 作,第1张

利用Python的pandas数据结构来读取excel表格的数据,部分代码如下:

#-- coding:utf-8 --

import pandas as pd

import matplotlibpyplot as plt

catering_data="catering_salexls"

data=pdread_excel(catering_data,index_col=u'日期')

#读取数据,指定"日期"列为索引列;

大多数书上都是这样写的,但是在Python27上运行时出现错误。(没有在Python3x版本试过)

出现了如下问题:

这里写描述

使用help(pdread_excel)发现参数中有必选参数sheetname,加入到函数中,代码如下:

#-- coding:utf-8 --

import pandas as pd

import matplotlibpyplot as plt

catering_data="catering_salexls"

data=pdread_excel(catering_data,sheetname=0,index_col=u'日期')

运行成功。

sheetname=0 的意思是:读取xls文件中的第一个表格。(假设文件中有很多个表格)

另外,也可以将文件转换成csv格式,就不需要这个参数了。代码如下:

catering_data="catering_salecsv"

data=pdread_csv(catering_data)

1、读取txt数据

In [1]: import pandas as pd

In [2]: mydata_txt = pdread_csv('C:\\test_codetxt',sep = '\t',encoding = 'utf-8')

对于中文的文本文件常容易因为编码的问题而读取失败,正如上图所示。遇到这样的编码问题该如何处置呢?解决办法有两种情况:

1)当原始文件txt或csv的数据不是uft8格式时,需要另存为utf8格式编码;

2)如果原始的数据文件就是uft8格式,为了正常读入,需要将read_csv函数的参数encoding设置为utf-8

将原始数据另存为utf8格式的数据,重新读入txt数据

In [3]: mydata_txt = pdread_csv('C:\\testtxt',sep = '\t',encoding = 'utf-8')

In [4]: mydata_txt

很顺利,txt文本文件数据就这样进入了Python的口袋里了。

2、读取csv数据

csv文本文件是非常常用的一种数据存储格式,而且其存储量要比Excel电子表格大很多,下面我们就来看看如何利用Python读取csv格式的数据文件:

In [5]: mydata_csv = pdread_csv('C:\\testcsv',sep = ',',encoding = 'utf-8')

In [6]: mydata_csv

如果你善于总结的话,你会发现,txt文件和csv文件均可以通过pandas模块中的read_csv函数进行读取。该函数有20多个参数,类似于R中的readtable函数,如果需要查看具体的参数详情,可以查看帮助文档:help(pandasread_csv)

当大家谈论到数据分析时,提及最多的工具就是Excel和SQL。随着大数据时代的到来,数据量、数据处理速度成为数据分析师需要考量的重要因素。此时Python中很多强大的第三方库成为协助分析师处理数据、分析数据的有力助手,其中Numpy、Pandas、Matplot共同构成了python数据分析的基础工具包,享有数分三剑客之名。

Pandas的主要功能:

具备对应其功能的数据结构DataFrame,

Series集成时间序列功

能提供丰富的数学运算和 *** 作灵活处理缺失数据

推荐练习网址(附数据集):>

输入:

import pandas as pd

data0 = [0,1,2,0,1,0,2,0]

pdvalue_counts(data0)

输出每个数出现的频数:

0 4

2 2

1 2

(0出现4次,2出现2次,1出现两次)

引入pandas

使用pandas下的read_csv方法,读取csv文件,参数是文件的路径,这是一个相对路径,是相对于当前工作目录的,那么如何知道当前的工作目录呢?

使用osgetcwd()方法获取当前工作目录

读取前三后数据,查看一下是否读取正确,显然都是乱码,这是什么问题呢?

我们需要设定参数encoding,也就是编码方式,如果你不设定编码方式,默认是utf8,现在csv文件是gbk编码的,所以需要使用encoding='gbk'

我用的编辑器是eric4,注意,eric4默认是不支持中文的,如果你想要显示中文,前提是设置正确的编码,在preferences中

设置成utf8即可

回到pandas,我们可以有更多选项来设置打开数据时的 *** 作:

第一行。

_andas [1] 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。

_andas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。

以上就是关于Pandas数据类型 *** 作全部的内容,包括:Pandas数据类型 *** 作、pandas常用函数汇总、请问在Pandas用read_excel函数读取数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/9534586.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存