默认情况下,
np.genfromtxt使用
dtype=float:这就是将字符串列转换为NaN的原因,因为毕竟它们不是数字…
您可以使用以下方法
np.genfromtxt来尝试猜测列的实际类型
dtype=None:
>>> from StringIO import StringIO>>> test = "a,1,2nb,3,4">>> a = np.genfromtxt(StringIO(test), delimiter=",", dtype=None)>>> print aarray([('a',1,2),('b',3,4)], dtype=[('f0', '|S1'),('f1', '<i8'),('f2', '<i8')])
您可以使用它们的名称访问列,例如
a['f0']…
dtype=None如果您不知道列应该是什么,那么使用是一个好技巧。如果您已经知道它们应具有的类型,则可以给出一个明确的
dtype。例如,在测试中,我们知道第一列是字符串,第二列是int,我们希望第三列是浮点数。然后,我们将使用
>>> np.genfromtxt(StringIO(test), delimiter=",", dtype=("|S10", int, float))array([('a', 1, 2.0), ('b', 3, 4.0)], dtype=[('f0', '|S10'), ('f1', '<i8'), ('f2', '<f8')])
建议使用显式
dtype方式,比使用显式方式有效得多
dtype=None。
在这两种情况下(
dtype=None或显式,非均质
dtype),您最终都会得到结构化数组。
[注意:使用
dtype=None,第二次解析输入,并且更新各列的类型以匹配可能的更大类型:首先我们尝试使用bool,然后是int,然后是浮点数,然后是复数,然后保留字符串如果其他所有方法都失败了。实际上,该实现相当笨拙。已经进行了一些尝试来使类型猜测更有效(使用regexp),但到目前为止还没有任何问题]
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)