python pandas 怎样高效地添加一行数据

python pandas 怎样高效地添加一行数据,第1张

That's probably as efficient as any, but Pandas/numpy
structures are fundamentally not suited for efficiently growing They
work best when they are created with a fixed size and stay that way – BrenBarnDec 6 '12 at 20:43
append
is a wrapper for concat, so concat would be marginally more efficient,
but as @BrenBarn says Pandas is probably not appropriate for updating a
HDF5 file every second If you absolutely need Pandas for some reason, could you collect a list of Series and update the file periodically instead – Matti JohnDec 6 '12 at 20:54
Bren is right about numpy/pandas working best when preallocated If memory is no constraint just preallocate a huge zeros array and append at the end of the program removing any excess zeros Which I suppose is a bit of what Matti is saying – arynaqDec 6 '12 at 21:16Intro to Data Structures
DataFrame is a 2-dimensional labeled data structure with columns of potentially different types

以一般说来dataframe就是a set of columns, each column is an array of values In
pandas, the array is one way or another a (maybe variant of) numpy
ndarray 而ndarray本身不存在一种in place
append的 *** 作。。。因为它实际上是一段连续内存。。。任何需要改变ndarray长度的 *** 作都涉及分配一段长度合适的新的内存,然后copy。。。
这是这类 *** 作慢的原因。。。如果pandas dataframe没有用其他设计减少copy的话,我相信Bren说的"That's probably
as efficient as any"是很对的。。。
所以in general, 正如Bren说的。。。Pandas/numpy structures are fundamentally not suited for efficiently growing
Matti 和 arynaq说的是两种常见的对付这个问题的方法。。。我想Matti实际的意思是把要加的rows收集成起来然后concatenate, 这样只copy一次。arynaq的方法就是预先分配内存比较好理解。。。
如果你真的需要incrementally build a dataframe的话,估计你需要实际测试一下两种方法。。。
我的建议是,如有可能,尽力避免incrementally build a dataframe, 比如用其他data structure 收集齐所有data然后转变成dataframe做分析。。。
顺便。。。这类问题上stackoverflow好得多。。

在pandas中创建一个bai空DataFrame的方法,类似于du创建zhi了一个空字典(daodict)。
例如:zhuanempty = pandasDataFrame({"name":"","age":"","sex":""})
想要向empty中插入一行数据,shu可以用同样的方法。
(1)首先,要创建一个DataFrame。要注意,在这里需加入index属性,new = pandasDataFrame({"name":"","age":"","sex":""},index=["0"])。
(2)然后,开始插值。ignore_index=True,可以帮助忽略index,自动递增。
emptyappend(new,ignore_index=True)
(3)最重要的,赋值给empty
empty = emptyappend(new,ignore_index=True)
否则,数据始终没有写入。

你学习过数据库吗?

方法是多种的,这里以mysql为例!

1、用phpmyadmin,登录进去,然后查看你的数据库,插入数值,很快你就会录入完成了

2、用python *** 作数据库,这里也是mysql, 首先要安装pymsql模块,这样你就可以读取数据库了

连接数据库,查看,插入,确认完成

具体

conn=pymysqlConnect(user=username,passwd=password,database=database,charset=charset)
cur=conncursor()
curexecute('select  from table')
curexecutemany()
conncommit()
##username,password,dtabase,都是你自己数据库的设置,命令自己去学下,5分钟就会,特别是executemany可以批量执行插入,其实execute也可以

1234567891011121314151617def readFile(): outputData = [] f = open(r"you file path") for i in freadlines(): outputDataappend(istrip('\n')split(' ')[::-1]) fclose() return outputData def writeFile(): allData = readFile() dataToStr = '\n'join(['\n'join([i for i in j]) for j in allData]) f = open(r"new file path","w") fwritelines(dataToStr) fclose() if __name__ == '__main__': writeFile()
其中open函数后面的两个路径需要你自己修正。

毫不夸张地说,大数据已经成为任何商业交流中不可或缺的一部分。桌面和移动搜索向全世界的营销人员和公司以空前的规模提供着数据,并且随着物联网的到来,大量用以消费的数据还会呈指数级增长。这种消费数据对于想要更好地定位目标客户、弄懂人们怎样使用他们的产品或服务,并且通过收集信息来提高利润的公司来说无疑是个金矿。
筛查数据并找到企业真正可以使用的结果的角色落到了软件开发者、数据科学家和统计学家身上。现在有很多工具辅助大数据分析,但最受欢迎的就是Python。
为什么选择Python
Python最大的优点就是简单易用。这个语言有着直观的语法并且还是个强大的多用途语言。这一点在大数据分析环境中很重要,并且许多企业内部已经在使用Python了,比如Google,YouTube,迪士尼,和索尼梦工厂。还有,Python是开源的,并且有很多用于数据科学的类库。所以,大数据市场急需Python开发者,不是Python开发者的专家也可以以相当块速度学习这门语言,从而最大化用在分析数据上的时间,最小化学习这门语言的时间。
用Python进行数据分析之前,你需要从Continuumio下载Anaconda。这个包有着在Python中研究数据科学时你可能需要的一切东西。它的缺点是下载和更新都是以一个单元进行的,所以更新单个库很耗时。但这很值得,毕竟它给了你所需的所有工具,所以你不需要纠结。
现在,如果你真的要用Python进行大数据分析的话,毫无疑问你需要成为一个Python开发者。这并不意味着你需要成为这门语言的大师,但你需要了解Python的语法,理解正则表达式,知道什么是元组、字符串、字典、字典推导式、列表和列表推导式——这只是开始。
各种类库
当你掌握了Python的基本知识点后,你需要了解它的有关数据科学的类库是怎样工作的以及哪些是你需要的。其中的要点包括NumPy,一个提供高级数学运算功能的基础类库,SciPy,一个专注于工具和算法的可靠类库,Sci-kit-learn,面向机器学习,还有Pandas,一套提供 *** 作DataFrame功能的工具。
除了类库之外,你也有必要知道Python是没有公认的最好的集成开发环境(IDE)的,R语言也一样。所以说,你需要亲手试试不同的IDE再看看哪个更能满足你的要求。开始时建议使用IPython Notebook,Rodeo和Spyder。和各种各样的IDE一样,Python也提供各种各样的数据可视化库,比如说Pygal,Bokeh和Seaborn。这些数据可视化工具中最必不可少的就是Matplotlib,一个简单且有效的数值绘图类库。
所有的这些库都包括在了Anaconda里面,所以下载了之后,你就可以研究一下看看哪些工具组合更能满足你的需要。用Python进行数据分析时你会犯很多错误,所以得小心一点。一旦你熟悉了安装设置和每种工具后,你会发现Python是目前市面上用于大数据分析的最棒的平台之一。
希望能帮到你!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13049982.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-29
下一篇 2023-05-29

发表评论

登录后才能评论

评论列表(0条)

保存