Pandas数据类型 *** 作_框架

利用Python的pandas数据结构来读取excel表格的数据，部分代码如下：

#-- coding:utf-8 --

import pandas as pd

import matplotlibpyplot as plt

catering_data="catering_salexls"

data=pdread_excel(catering_data,index_col=u'日期')

#读取数据，指定"日期"列为索引列；

大多数书上都是这样写的，但是在Python27上运行时出现错误。（没有在Python3x版本试过）

出现了如下问题：

这里写描述

使用help（pdread_excel）发现参数中有必选参数sheetname,加入到函数中，代码如下：

#-- coding:utf-8 --

import pandas as pd

import matplotlibpyplot as plt

catering_data="catering_salexls"

data=pdread_excel(catering_data,sheetname=0,index_col=u'日期')

运行成功。

sheetname=0 的意思是：读取xls文件中的第一个表格。（假设文件中有很多个表格）

另外，也可以将文件转换成csv格式，就不需要这个参数了。代码如下：

catering_data="catering_salecsv"

data=pdread_csv(catering_data)

1、读取txt数据

In [1]: import pandas as pd

In [2]: mydata_txt = pdread_csv('C:\\test_codetxt',sep = '\t',encoding = 'utf-8')

对于中文的文本文件常容易因为编码的问题而读取失败，正如上图所示。遇到这样的编码问题该如何处置呢？解决办法有两种情况：

1）当原始文件txt或csv的数据不是uft8格式时，需要另存为utf8格式编码；

2）如果原始的数据文件就是uft8格式，为了正常读入，需要将read_csv函数的参数encoding设置为utf-8

将原始数据另存为utf8格式的数据，重新读入txt数据

In [3]: mydata_txt = pdread_csv('C:\\testtxt',sep = '\t',encoding = 'utf-8')

In [4]: mydata_txt

很顺利，txt文本文件数据就这样进入了Python的口袋里了。

2、读取csv数据

csv文本文件是非常常用的一种数据存储格式，而且其存储量要比Excel电子表格大很多，下面我们就来看看如何利用Python读取csv格式的数据文件：

In [5]: mydata_csv = pdread_csv('C:\\testcsv',sep = ',',encoding = 'utf-8')

In [6]: mydata_csv

如果你善于总结的话，你会发现，txt文件和csv文件均可以通过pandas模块中的read_csv函数进行读取。该函数有20多个参数，类似于R中的readtable函数，如果需要查看具体的参数详情，可以查看帮助文档：help(pandasread_csv)

当大家谈论到数据分析时，提及最多的工具就是Excel和SQL。随着大数据时代的到来，数据量、数据处理速度成为数据分析师需要考量的重要因素。此时Python中很多强大的第三方库成为协助分析师处理数据、分析数据的有力助手，其中Numpy、Pandas、Matplot共同构成了python数据分析的基础工具包，享有数分三剑客之名。

Pandas的主要功能：

具备对应其功能的数据结构DataFrame，

Series集成时间序列功

能提供丰富的数学运算和 *** 作灵活处理缺失数据

推荐练习网址(附数据集)：>

输入：

import pandas as pd

data0 = [0,1,2,0,1,0,2,0]

pdvalue_counts(data0)

输出每个数出现的频数：

0 4

2 2

1 2

（0出现4次，2出现2次，1出现两次）

引入pandas

使用pandas下的read_csv方法，读取csv文件，参数是文件的路径，这是一个相对路径，是相对于当前工作目录的，那么如何知道当前的工作目录呢？

使用osgetcwd()方法获取当前工作目录

读取前三后数据，查看一下是否读取正确，显然都是乱码，这是什么问题呢？

我们需要设定参数encoding，也就是编码方式，如果你不设定编码方式，默认是utf8，现在csv文件是gbk编码的，所以需要使用encoding='gbk'

我用的编辑器是eric4，注意，eric4默认是不支持中文的，如果你想要显示中文，前提是设置正确的编码，在preferences中

设置成utf8即可

回到pandas，我们可以有更多选项来设置打开数据时的 *** 作：

第一行。

_andas [1] 是python的一个数据分析包，最初由AQR Capital Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发team继续开发和维护，属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来，因此，pandas为时间序列分析提供了很好的支持。

_andas的名称来自于面板数据（panel data）和python数据分析（data analysis）。panel data是经济学中关于多维数据集的一个术语，在Pandas中也提供了panel的数据类型。

以上就是关于Pandas数据类型 *** 作全部的内容，包括:Pandas数据类型 *** 作、pandas常用函数汇总、请问在Pandas用read_excel函数读取数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/web/9534586.html

Pandas数据类型 *** 作

发表评论

评论列表（0条）