pandas之多级索引MultiIndex

pandas之多级索引MultiIndex,第1张

创建多级索引(MultiIndex/hierarchical index)

多级index对于处理和分析复杂的数据非常有帮助,尤其是高维数据。
你可以把多级索引看作是一个数组,而数组的元素是一个个的元组,每一个元组都是独一无二的。

一个创建二级索引的例子

#先创建索引
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]
tuples = list(zip(*arrays))
print(tuples)

可以从数组创建,数组中的元素是元组,元组中即二级索引,元组是独一无二的。

[('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')]

创建索引,并分别给一级索引和二级索引命名为 first second

index = pd.MultiIndex.from_tuples(tuples, names=["first", "second"])

随机生成一些数据,用numpy的正态分布,并指定索引

s = pd.Series(np.random.randn(8), index=index)

结果如下

first  second
bar    one      -0.004825
       two      -1.656229
baz    one      -0.258218
       two      -1.198343
foo    one      -1.878870
       two       1.162679
qux    one       0.866090
       two      -1.093855
dtype: float64

还有其他创建多级索引的方式,请自行查阅官方文档.

另外,多级索引还可以应用到列上,例如:

df = pd.DataFrame(np.random.randn(3, 8), index=["A", "B", "C"], columns=index)
print(df)
first        bar                 baz                 foo                 qux  \
second       one       two       one       two       one       two       one   
A       0.700638 -0.091181 -0.517774  0.480500  1.279019 -0.667225  0.496205   
B      -0.192886 -0.208424 -0.446351  0.803740  0.872769 -2.380293 -1.027106   
C      -1.275571 -0.399260  0.301129 -0.522744  0.232086  1.234962  0.261646   

first             
second       two  
A       0.378018  
B       1.503583  
C       0.321506 
使用多级索引

例如上面的列是多级索引的情况中选择某一列可以这么写:

df['bar','one']
A    0.700638
B   -0.192886
C   -1.275571
Name: one, dtype: float64

或者可以这么写

df['bar']['one']
A    0.700638
B   -0.192886
C   -1.275571
Name: one, dtype: float64

选择某个标量可以这么写

df.loc['A',('bar','one')]

0.7006379620994561

对于行是多级索引的情况也是类似的

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/867526.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-12
下一篇 2022-05-12

发表评论

登录后才能评论

评论列表(0条)

保存