通过Python的zip构造出一元组组成的列表作为DataFrame的输入数据rec。
In [3]: import pandas as pd
In [4]: import random
In [5]: num = random.sample(xrange(10000, 1000000), 5)
In [6]: num
Out[6]: [244937, 132008, 278446, 613409, 799201]
In [8]: names = "hello the cruel world en".split()
In [9]: names
Out[9]: ['hello', 'the', 'cruel', 'world', 'en']
In [10]: rec = zip(names, num)
In [15]: data = pd.DataFrame(rec, columns = [u"姓名",u"业绩" ])
In [16]: data
Out[16]:
姓名 业绩
0hello 244937
1the 132008
2cruel 278446
3world 613409
4en 799201
DataFrame方法函数的第一个参数是数据源,第二个参数columns是输出数据表的表头,或者说是表格的字段名。
导出数据csv
Windows平台上的编码问题,我们可以先做个简单处理,是ipython-notebook支持utf8.
import sys
reload(sys)
sys.setdefaultencoding("utf8")
接下来可以数据导出了。
In [31]: data
Out[31]:
姓名 业绩
0hello 244937
1the 132008
2cruel 278446
3world 613409
4en 799201
#在ipython-note里后加问号可查帮助,q退出帮助
In [32]: data.to_csv?
In [33]: data.to_csv("c:\\out.csv", index = True, header = [u"雇员", u"销售业绩"])
将data导出到out.csv文件里,index参数是指是否有主索引,header如果不指定则是以data里columns为头,如果指定则是以后边列表里的字符串为表头,但要注意的是header后的字符串列表的个数要和data里的columns字段个数相同。
可到c盘用Notepad++打开out.csv看看。
简单的数据分析
In [43]: data
Out[43]:
姓名 业绩
0hello 244937
1the 132008
2cruel 278446
3world 613409
4en 799201
#排序并取前三名
In [46]: Sorted = data.sort([u"业绩"], ascending=False)
Sorted.head(3)
Out[46]:
姓名 业绩
4en 799201
3world 613409
2cruel 278446
图形输出
In [71]: import matplotlib.pyplot as plt
#使ipython-notebook支持matplotlib绘图
%matplotlib inline
In [74]: df = data
#绘图
df[u"业绩"].plot()
MaxValue = df[u"业绩"].max()
MaxName = df[u"姓名"][df[u"业绩"] == df[u"业绩"].max()].values
Text = str(MaxValue) + " - " + MaxName
#给图添加文本标注
plt.annotate(Text, xy=(1, MaxValue), xytext=(8, 0), xycoords=('axes fraction', 'data'), textcoords='offset points')
如果注释掉plt.annotate这行
data[ 列名 ]:取单列或多列,不能用连续方式取,也不能用于取行。
data[ i:j ]:用起始行下标(i)和终止行下标(j)取单行或者连续多行,不能用于列的选取。
data.列名:只用于取单列,不能用于行。
data.loc[行名,列名]:用对象的.loc[]方法实现各种取数据方式。
data.iloc[行下标,列下标]:用对象的.iloc[]方法实现各种取数据方式。
……待添加……
首先生成一个DataFrame对象:
小结:
(1)用数据直接加名称的方式只能获取完整的列(data[ 列名 ] √),不能企图用行名来获取一整行(data[ 行名 ] ×)。
(2)用data[ 列名 ] 方式只能明确指定待选取的列名,不能用连续取值方式。
小节:
(1)用数据直接加矩阵索引的方式只能获取完整的行(data[ 行索引 ]√),不能企图用列索引来获取一整列(data[ 列索引 ]×)。
(2)用data[ 列索引 ] 的方式只能取得单行,或者连续多行,而没法跳跃式指定抽取。
小结:
通过“data.列名”的方式只能取单独一列,无法连续取,用同样的方式取单独一行。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)