多级index对于处理和分析复杂的数据非常有帮助,尤其是高维数据。
你可以把多级索引看作是一个数组,而数组的元素是一个个的元组,每一个元组都是独一无二的。
一个创建二级索引的例子
#先创建索引
arrays = [
["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
["one", "two", "one", "two", "one", "two", "one", "two"],
]
tuples = list(zip(*arrays))
print(tuples)
可以从数组创建,数组中的元素是元组,元组中即二级索引,元组是独一无二的。
[('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')]
创建索引,并分别给一级索引和二级索引命名为 first
second
index = pd.MultiIndex.from_tuples(tuples, names=["first", "second"])
随机生成一些数据,用numpy的正态分布,并指定索引
s = pd.Series(np.random.randn(8), index=index)
结果如下
first second
bar one -0.004825
two -1.656229
baz one -0.258218
two -1.198343
foo one -1.878870
two 1.162679
qux one 0.866090
two -1.093855
dtype: float64
还有其他创建多级索引的方式,请自行查阅官方文档.
另外,多级索引还可以应用到列上,例如:
df = pd.DataFrame(np.random.randn(3, 8), index=["A", "B", "C"], columns=index)
print(df)
first bar baz foo qux \
second one two one two one two one
A 0.700638 -0.091181 -0.517774 0.480500 1.279019 -0.667225 0.496205
B -0.192886 -0.208424 -0.446351 0.803740 0.872769 -2.380293 -1.027106
C -1.275571 -0.399260 0.301129 -0.522744 0.232086 1.234962 0.261646
first
second two
A 0.378018
B 1.503583
C 0.321506
使用多级索引
例如上面的列是多级索引的情况中选择某一列可以这么写:
df['bar','one']
A 0.700638
B -0.192886
C -1.275571
Name: one, dtype: float64
或者可以这么写
df['bar']['one']
A 0.700638
B -0.192886
C -1.275571
Name: one, dtype: float64
选择某个标量可以这么写
df.loc['A',('bar','one')]
0.7006379620994561
对于行是多级索引的情况也是类似的
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)