当第一列是字符串而其余列是数字时,如何使用numpy.genfromtxt?

当第一列是字符串而其余列是数字时,如何使用numpy.genfromtxt?,第1张

当第一列是字符串而其余列是数字时,如何使用numpy.genfromtxt?

默认情况下,

np.genfromtxt
使用
dtype=float
:这就是将字符串列转换为NaN的原因,因为毕竟它们不是数字…

您可以使用以下方法

np.genfromtxt
尝试猜测列的实际类型
dtype=None

>>> from StringIO import StringIO>>> test = "a,1,2nb,3,4">>> a = np.genfromtxt(StringIO(test), delimiter=",", dtype=None)>>> print aarray([('a',1,2),('b',3,4)], dtype=[('f0', '|S1'),('f1', '<i8'),('f2', '<i8')])

您可以使用它们的名称访问列,例如

a['f0']

dtype=None
如果您不知道列应该是什么,那么使用是一个好技巧。如果您已经知道它们应具有的类型,则可以给出一个明确的
dtype
。例如,在测试中,我们知道第一列是字符串,第二列是int,我们希望第三列是浮点数。然后,我们将使用

>>> np.genfromtxt(StringIO(test), delimiter=",", dtype=("|S10", int, float))array([('a', 1, 2.0), ('b', 3, 4.0)],       dtype=[('f0', '|S10'), ('f1', '<i8'), ('f2', '<f8')])

建议使用显式

dtype
方式,比使用显式方式有效得多
dtype=None

在这两种情况下(

dtype=None
或显式,非均质
dtype
),您最终都会得到结构化数组。

[注意:使用

dtype=None
,第二次解析输入,并且更新各列的类型以匹配可能的更大类型:首先我们尝试使用bool,然后是int,然后是浮点数,然后是复数,然后保留字符串如果其他所有方法都失败了。实际上,该实现相当笨拙。已经进行了一些尝试来使类型猜测更有效(使用regexp),但到目前为止还没有任何问题]



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5652564.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存