您可以使用参数
keep_default_na和
na_values手动设置所有的NA值文档:
import pandas as pdfrom io import StringIOdata = """PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG SP_END5d8b N P60490 1 146 1 146 1 1465d8b NA P80377 _ 126 1 126 1 1265d8b O P60491 1 118 1 118 1 118"""df = pd.read_csv(StringIO(data), sep=' ', keep_default_na=False, na_values=['_'])In [130]: dfOut[130]: PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG SP_END0 5d8b N P60490 1 146 1 146 1 1461 5d8b NA P80377 NaN 126 1 126 1 1262 5d8b O P60491 1 118 1 118 1 118In [144]: df.CHAIN.apply(type)Out[144]:0 <class 'str'>1 <class 'str'>2 <class 'str'>Name: CHAIN, dtype: object
编辑
na值中的所有默认
NA值(自1.0.0起):
pandas
NaN识别的默认值是[‘-1。#IND’,‘1.#QNAN’,‘1.#IND’,’-1.#QNAN’,’#N / AN / A’,’#N / A’,’N
/ A’,’n / a’,’NA’,’,’#NA’,’NULL’,’null’,’NaN’,’-NaN’,’nan’,’- nan’,’‘]。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)