并非所有的Nan都是相同的:
In [182]: np.nan is np.nanOut[182]: TrueIn [183]: float('nan') is float('nan')Out[183]: FalseIn [184]: np.float64('nan') is np.float64('nan')Out[184]: False
因此,
In [178]: set([np.nan, np.nan])Out[178]: {nan}In [179]: set([float('nan'), float('nan')])Out[179]: {nan, nan}In [180]: set([np.float64('nan'), np.float64('nan')])Out[180]: {nan, nan}
l包含
np.nan,它们是相同的,所以
In [158]: set(l)Out[158]: {nan, 0, 1}
但
pd.Series(l).tolist()包含
np.float64('nan')不相同的:
In [160]: [type(item) for item in pd.Series(l).tolist()]Out[160]: [numpy.float64, numpy.float64, numpy.float64, numpy.float64]
因此set不会将它们视为相等:
In [157]: set(pd.Series(l).tolist())Out[157]: {nan, 0.0, nan, 1.0}
如果您有熊猫系列,请使用它的
unique方法而不是
set查找唯一值:
>>> s = pd.Series(l)>>> s.unique()array([ nan, 0., 1.])
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)