python panda怎么提取列数据_sql

创建数据

通过Python的zip构造出一元组组成的列表作为DataFrame的输入数据rec。

In [3]: import pandas as pd

In [4]: import random

In [5]: num = random.sample(xrange(10000, 1000000), 5)

In [6]: num

Out[6]: [244937, 132008, 278446, 613409, 799201]

In [8]: names = "hello the cruel world en".split()

In [9]: names

Out[9]: ['hello', 'the', 'cruel', 'world', 'en']

In [10]: rec = zip(names, num)

In [15]: data = pd.DataFrame(rec, columns = [u"姓名",u"业绩" ])

In [16]: data

Out[16]:

姓名业绩

0hello 244937

1the 132008

2cruel 278446

3world 613409

4en 799201

DataFrame方法函数的第一个参数是数据源，第二个参数columns是输出数据表的表头，或者说是表格的字段名。

导出数据csv

Windows平台上的编码问题，我们可以先做个简单处理，是ipython-notebook支持utf8.

import sys

reload(sys)

sys.setdefaultencoding("utf8")

接下来可以数据导出了。

In [31]: data

Out[31]:

姓名业绩

0hello 244937

1the 132008

2cruel 278446

3world 613409

4en 799201

#在ipython-note里后加问号可查帮助，q退出帮助

In [32]: data.to_csv?

In [33]: data.to_csv("c:\\out.csv", index = True, header = [u"雇员", u"销售业绩"])

将data导出到out.csv文件里，index参数是指是否有主索引，header如果不指定则是以data里columns为头，如果指定则是以后边列表里的字符串为表头，但要注意的是header后的字符串列表的个数要和data里的columns字段个数相同。

可到c盘用Notepad++打开out.csv看看。

简单的数据分析

In [43]: data

Out[43]:

姓名业绩

0hello 244937

1the 132008

2cruel 278446

3world 613409

4en 799201

#排序并取前三名

In [46]: Sorted = data.sort([u"业绩"], ascending=False)

Sorted.head(3)

Out[46]:

姓名业绩

4en 799201

3world 613409

2cruel 278446

图形输出

In [71]: import matplotlib.pyplot as plt

#使ipython-notebook支持matplotlib绘图

%matplotlib inline

In [74]: df = data

#绘图

df[u"业绩"].plot()

MaxValue = df[u"业绩"].max()

MaxName = df[u"姓名"][df[u"业绩"] == df[u"业绩"].max()].values

Text = str(MaxValue) + " - " + MaxName

#给图添加文本标注

plt.annotate(Text, xy=(1, MaxValue), xytext=(8, 0), xycoords=('axes fraction', 'data'), textcoords='offset points')

如果注释掉plt.annotate这行

data[ 列名 ]：取单列或多列，不能用连续方式取，也不能用于取行。

data[ i:j ]：用起始行下标(i)和终止行下标(j)取单行或者连续多行，不能用于列的选取。

data.列名：只用于取单列，不能用于行。

data.loc[行名,列名]：用对象的.loc[]方法实现各种取数据方式。

data.iloc[行下标,列下标]：用对象的.iloc[]方法实现各种取数据方式。

……待添加……

首先生成一个DataFrame对象：

小结：

（1）用数据直接加名称的方式只能获取完整的列（data[ 列名 ] √），不能企图用行名来获取一整行（data[ 行名 ] ×）。

（2）用data[ 列名 ] 方式只能明确指定待选取的列名，不能用连续取值方式。

小节：

（1）用数据直接加矩阵索引的方式只能获取完整的行（data[ 行索引 ]√），不能企图用列索引来获取一整列（data[ 列索引 ]×）。

（2）用data[ 列索引 ] 的方式只能取得单行，或者连续多行，而没法跳跃式指定抽取。

小结：

通过“data.列名”的方式只能取单独一列，无法连续取，用同样的方式取单独一行。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9891454.html

python panda怎么提取列数据

发表评论

评论列表（0条）