python panda怎么提取列数据

python panda怎么提取列数据,第1张

创建数据

通过Python的zip构造出一元组组成的列表作为DataFrame的输入数据rec。

In [3]: import pandas as pd

In [4]: import random

In [5]: num = randomsample(xrange(10000, 1000000), 5)

In [6]: num

Out[6]: [244937, 132008, 278446, 613409, 799201]

In [8]: names = "hello the cruel world en"split()

In [9]: names

Out[9]: ['hello', 'the', 'cruel', 'world', 'en']

In [10]: rec = zip(names, num)

In [15]: data = pdDataFrame(rec, columns = [u"姓名",u"业绩" ])

In [16]: data

Out[16]:

姓名 业绩

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

DataFrame方法函数的第一个参数是数据源,第二个参数columns是输出数据表的表头,或者说是表格的字段名。

导出数据csv

Windows平台上的编码问题,我们可以先做个简单处理,是ipython-notebook支持utf8

import sys

reload(sys)

syssetdefaultencoding("utf8")

接下来可以数据导出了。

In [31]: data

Out[31]:

姓名 业绩

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

#在ipython-note里后加问号可查帮助,q退出帮助

In [32]: datato_csv

In [33]: datato_csv("c:\\outcsv", index = True, header = [u"雇员", u"销售业绩"])

将data导出到outcsv文件里,index参数是指是否有主索引,header如果不指定则是以data里columns为头,如果指定则是以后边列表里的字符串为表头,但要注意的是header后的字符串列表的个数要和data里的columns字段个数相同。

可到c盘用Notepad++打开outcsv看看。

简单的数据分析

In [43]: data

Out[43]:

姓名 业绩

0 hello 244937

1 the 132008

2 cruel 278446

3 world 613409

4 en 799201

#排序并取前三名

In [46]: Sorted = datasort([u"业绩"], ascending=False)

Sortedhead(3)

Out[46]:

姓名 业绩

4 en 799201

3 world 613409

2 cruel 278446

图形输出

In [71]: import matplotlibpyplot as plt

#使ipython-notebook支持matplotlib绘图

%matplotlib inline

In [74]: df = data

#绘图

df[u"业绩"]plot()

MaxValue = df[u"业绩"]max()

MaxName = df[u"姓名"][df[u"业绩"] == df[u"业绩"]max()]values

Text = str(MaxValue) + " - " + MaxName

#给图添加文本标注

pltannotate(Text, xy=(1, MaxValue), xytext=(8, 0), xycoords=('axes fraction', 'data'), textcoords='offset points')

如果注释掉pltannotate这行

cvs其实等于有固定分隔格式的txt。读取后可以用,分隔成list,这样就很方便的循环读取特定列了。

你可以用sublime 或notepad++打开cvs文件就一目了然了

 with open('D:\\testcsv', 'r') as f:

        cvs_data = freadlines()

    for i in cvs_data:

        cvs_list = istrip()split(',')

既然数据在EXCEL里面,用VBA来写是顺理成章的,VBA的好处是代码在EXCEL文件里面,比较友好的开发和调试环境,可以单步一行一行的执行代码,中途可以查看变量的值,便于更正程序,我初步写了一个VBA代码,方法是把文件另存为XLAM格式(带脚本的文件),按ALT+F11进入VBA环境,按CTRL+R打开工程管理器,插入模块,粘贴代码,如下图:

代码文件如下(有可能浏览器会偷吃特殊字符,一定结合上图):

Option Explicit

Sub 宏1()

Dim arr, i, j, p, f

arr = ActiveSheetUsedRange

For i = 2 To UBound(arr)

'文件改名

p = "f:\downloads\1\" & arr(i, 1)

f = Dir(p & "jpg")

j = 1

While f <> ""

Name p & f As p & arr(i, 2) & arr(i, 3) & j & "jpg"

f = Dir

j = j + 1

Wend

'文件夹改名

Name p As p & arr(i, 2)

Next i

End Sub

select bug_type,bug_severity,count(bug_type),ft_id from tm_bug group by ft_id,bug_type,bug_severity

查找表 tm_bug ,字段1名称为(bug_type),字段2名称为(bug_severity),字段3名称为(ft_id),行数,,以为具有相同字段的ft_id,bug_type,bug_severity进行分组,

我只能帮你翻译一下这个 sql语句了,你其他我不知道不全

以上就是关于python panda怎么提取列数据全部的内容,包括:python panda怎么提取列数据、Python怎么依次读取CVS文件里的列名和对应的数据、求帮用python写从excel提取名字,改文件夹名称的代码等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9459089.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存