pandas中查看数据类型的几种方式

pandas中查看数据类型的几种方式,第1张

您好,datavalues包含特定字段,是指将特定字段的值收集到一个数据集中,以便进行更深入的分析。这些特定字段可以是任何类型的数据,如日期、数字、文本或结构化数据。通过收集这些特定字段的值,可以更好地了解数据集中的数据,并可以更有效地进行分析。

创建数据

通过Python的zip构造出一元组组成的列表作为DataFrame的输入数据rec。

In [3]: import pandas as pd

In [4]: import random

In [5]: num = randomsample(xrange(10000, 1000000), 5)

In [6]: num

Out[6]: [244937, 132008, 278446, 613409, 799201]

In [8]: names = "hello the cruel world en"split()

In [9]: names

Out[9]: ['hello', 'the', 'cruel', 'world', 'en']

In [10]: rec = zip(names, num)

In [15]: data = pdDataFrame(rec, columns = [u"姓名",u"业绩" ])

In [16]: data

Out[16]:

姓名 业绩

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

DataFrame方法函数的第一个参数是数据源,第二个参数columns是输出数据表的表头,或者说是表格的字段名。

导出数据csv

Windows平台上的编码问题,我们可以先做个简单处理,是ipython-notebook支持utf8

import sys

reload(sys)

syssetdefaultencoding("utf8")

接下来可以数据导出了。

In [31]: data

Out[31]:

姓名 业绩

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

#在ipython-note里后加问号可查帮助,q退出帮助

In [32]: datato_csv

In [33]: datato_csv("c:\\outcsv", index = True, header = [u"雇员", u"销售业绩"])

将data导出到outcsv文件里,index参数是指是否有主索引,header如果不指定则是以data里columns为头,如果指定则是以后边列表里的字符串为表头,但要注意的是header后的字符串列表的个数要和data里的columns字段个数相同。

可到c盘用Notepad++打开outcsv看看。

简单的数据分析

In [43]: data

Out[43]:

姓名 业绩

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

select bug_type,bug_severity,count(bug_type),ft_id from tm_bug group by ft_id,bug_type,bug_severity

查找表 tm_bug ,字段1名称为(bug_type),字段2名称为(bug_severity),字段3名称为(ft_id),行数,,以为具有相同字段的ft_id,bug_type,bug_severity进行分组,

我只能帮你翻译一下这个 sql语句了,你其他我不知道不全

要统计 DataFrame 中布尔值的次数,可以使用 `value_counts()` 方法。具体地,如果要统计某一列中每个布尔值出现的次数,可以像这样使用:

```

df['column_name']value_counts()

```

这将返回一个 Series 对象,其中每个唯一的布尔值作为索引,其对应的出现次数作为值。

原因是,使用 `value_counts()` 方法可以方便地计算某个 DataFrame 列中各个元素出现的次数,从而更直观地了解该列中各个元素的分布情况。对于布尔值类型的数据,使用 `value_counts()` 也是很常见的 *** 作之一。

值得注意的是,对于 DataFrame 中的布尔值,Python 中的 True 和 False 实际上是数字 1 和 0 的别名,因此在某些情况下,可以直接使用 `sum()` 方法来计算某一列中 True 的个数,例如:

```

(df['column_name'] == True)sum()

```

这将返回该列中 True 的个数。

除了以上介绍的方法,还有许多其他方法可以用于统计和处理 DataFrame 中的布尔值,例如使用逻辑运算符、使用条件表达式等等。掌握这些技巧可以更加高效地处理 DataFrame 数据,提高数据分析的效率。

假设有这么一个DataFrame数据:有两列,name列为姓名,age列为年龄,其中年龄为随机生成,如下图:

我们可以使用loc来得到age>20的行:

dataloc[条件]

其中条件为data['age']>20

即:dataloc[data['age']>20]

这样就会得到age>20的所有行数据(包括所有列)。

如果我们并不需要所有所有列,那可以再指定要保留的列:

dataloc[data['age']>20,'age']

这样就会得到age>20的所有行的数据(只包括age列)。

如果此时我们再在后面加一个values,这样也就得到了如提问所示的某一列的部分数字的值的数组了:

DataFrame的单元格可以存放数值、字符串等,这和excel表很像。同时DataFrame可以设置列名columns与行名index,可以通过像matlab一样通过位置获取数据也可以通过列名和行名定位,比较像matlab里面的table格式。

下面将对DataFrame的基本 *** 作进行梳理和介绍:(下文中用df代指DataFrame格式)

方法1:直接生成df

方法2:字典转化为df

方法3:读取txt/excel文件时,输出的就是df格式

方法4:从矩阵A转化为df

注:pdDataFrame和pdSeries是两个不同的函数

取单行后是一个Series,Series有index而无columns

'Series' object has no attribute 'columns'

去除nan值:

1pandas dataframe删除一行或一列:drop函数 >

以上就是关于pandas中查看数据类型的几种方式全部的内容,包括:pandas中查看数据类型的几种方式、Python其实很简单 第十九章 Pandas之Series与DataFrame、查询datavalues包含特定字段等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/9680652.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-30
下一篇 2023-04-30

发表评论

登录后才能评论

评论列表(0条)

保存