เลือกจากแพนด้าหลายดัชนี


92

ฉันมีกรอบข้อมูลแบบหลายดัชนีที่มีคอลัมน์ 'A' และ 'B'

มีวิธีเลือกแถวโดยการกรองในคอลัมน์เดียวของดัชนีหลายดัชนีโดยไม่ต้องรีเซ็ตดัชนีเป็นดัชนีคอลัมน์เดียวหรือไม่?

ตัวอย่างเช่น.

# has multi-index (A,B)
df
#can I do this? I know this doesn't work because the index is multi-index so I need to     specify a tuple

df.ix[df.A ==1]


ที่เกี่ยวข้อง: เลือกแถวในแพนด้า MultiIndex DataFrame (การอภิปรายกว้าง ๆ ในหัวข้อเดียวกันโดยฉัน)
cs95

คำตอบ:


138

วิธีหนึ่งคือใช้get_level_valuesวิธี Index:

In [11]: df
Out[11]:
     0
A B
1 4  1
2 5  2
3 6  3

In [12]: df.iloc[df.index.get_level_values('A') == 1]
Out[12]:
     0
A B
1 4  1

ใน 0.13 คุณจะสามารถใช้xsกับdrop_levelอาร์กิวเมนต์ :

df.xs(1, level='A', drop_level=False) # axis=1 if columns

หมายเหตุ: หากนี่เป็นคอลัมน์ MultiIndex แทนที่จะเป็นดัชนีคุณสามารถใช้เทคนิคเดียวกันนี้:

In [21]: df1 = df.T

In [22]: df1.iloc[:, df1.columns.get_level_values('A') == 1]
Out[22]:
A  1
B  4
0  1

54

คุณยังสามารถใช้queryซึ่งอ่านได้ง่ายมากในความคิดของฉันและใช้งานง่าย:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [10, 20, 50, 80], 'C': [6, 7, 8, 9]})
df = df.set_index(['A', 'B'])

      C
A B    
1 10  6
2 20  7
3 50  8
4 80  9

สำหรับสิ่งที่คุณคิดไว้ตอนนี้คุณสามารถทำได้:

df.query('A == 1')

      C
A B    
1 10  6

คุณยังสามารถมีแบบสอบถามที่ซับซ้อนมากขึ้นโดยใช้ and

df.query('A >= 1 and B >= 50')

      C
A B    
3 50  8
4 80  9

และ or

df.query('A == 1 or B >= 50')

      C
A B    
1 10  6
3 50  8
4 80  9

คุณยังสามารถสอบถามเกี่ยวกับระดับดัชนีต่างๆได้เช่น

df.query('A == 1 or C >= 8')

จะกลับมา

      C
A B    
1 10  6
3 50  8
4 80  9

หากคุณต้องการใช้ตัวแปรในแบบสอบถามของคุณคุณสามารถใช้@ :

b_threshold = 20
c_threshold = 8

df.query('B >= @b_threshold and C <= @c_threshold')

      C
A B    
2 20  7
3 50  8

1
คำตอบที่ดีวิธีการอ่านมากขึ้นแน่นอน คุณรู้หรือไม่ว่าเป็นไปได้ที่จะค้นหาสองฟิลด์ในระดับดัชนีที่ต่างกันเช่นdf.query('A == 1 or C >= 8')
obchardon

@obchardon: ดูเหมือนว่าจะทำงานได้ดี ฉันแก้ไขคำตอบโดยใช้ตัวอย่างของคุณ
Cleb

1
ฉันมีเวลาและสตริงเป็นหลายดัชนีซึ่งทำให้เกิดปัญหาในนิพจน์สตริง อย่างไรก็ตามใช้df.query()งานได้ดีกับตัวแปรหากมีการอ้างถึงด้วย "@" ภายในนิพจน์ในแบบสอบถามเช่นdf.query('A == @var) สำหรับตัวแปรvarในสภาพแวดล้อม
Solly

@ ซอลลี่: ขอบคุณฉันเพิ่มสิ่งนี้ในคำตอบ
Cleb

การจัดทำดัชนีหลายรายการอยู่ที่ไหนที่นี่?
Lamma

33

คุณสามารถใช้DataFrame.xs():

In [36]: df = DataFrame(np.random.randn(10, 4))

In [37]: df.columns = [np.random.choice(['a', 'b'], size=4).tolist(), np.random.choice(['c', 'd'], size=4)]

In [38]: df.columns.names = ['A', 'B']

In [39]: df
Out[39]:
A      b             a
B      d      d      d      d
0 -1.406  0.548 -0.635  0.576
1 -0.212 -0.583  1.012 -1.377
2  0.951 -0.349 -0.477 -1.230
3  0.451 -0.168  0.949  0.545
4 -0.362 -0.855  1.676 -2.881
5  1.283  1.027  0.085 -1.282
6  0.583 -1.406  0.327 -0.146
7 -0.518 -0.480  0.139  0.851
8 -0.030 -0.630 -1.534  0.534
9  0.246 -1.558 -1.885 -1.543

In [40]: df.xs('a', level='A', axis=1)
Out[40]:
B      d      d
0 -0.635  0.576
1  1.012 -1.377
2 -0.477 -1.230
3  0.949  0.545
4  1.676 -2.881
5  0.085 -1.282
6  0.327 -0.146
7  0.139  0.851
8 -1.534  0.534
9 -1.885 -1.543

หากคุณต้องการรักษาAระดับไว้ ( drop_levelอาร์กิวเมนต์คำหลักสามารถใช้ได้ตั้งแต่ v0.13.0):

In [42]: df.xs('a', level='A', axis=1, drop_level=False)
Out[42]:
A      a
B      d      d
0 -0.635  0.576
1  1.012 -1.377
2 -0.477 -1.230
3  0.949  0.545
4  1.676 -2.881
5  0.085 -1.282
6  0.327 -0.146
7  0.139  0.851
8 -1.534  0.534
9 -1.885 -1.543

1
ฮ่าฉันเพิ่งอัปเดตคำตอบของฉันด้วยหมายเหตุ: มีเฉพาะใน 0.13
Andy Hayden

โอ้น่ารู้ ฉันจำไม่ได้ว่ามีการเพิ่มสิ่งอำนวยความสะดวกเล็กน้อยในแต่ละเวอร์ชัน
Phillip Cloud

ฮ่า ๆ อันที่จริงคำถามนี้เป็นการหลอกล่อของคำถามที่เป็นแรงบันดาลใจให้กับความสะดวกนั้น! :)
Andy Hayden

15

การทำความเข้าใจเกี่ยวกับวิธีเข้าถึง DataFrame ของแพนด้าที่ทำดัชนีหลายตัวสามารถช่วยคุณได้ในทุกงานเช่นนั้น

คัดลอกวางสิ่งนี้ในโค้ดของคุณเพื่อสร้างตัวอย่าง:

# hierarchical indices and columns
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                   names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                     names=['subject', 'type'])

# mock some data
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# create the DataFrame
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

จะให้ตารางดังนี้:

ป้อนคำอธิบายภาพที่นี่

การเข้าถึงมาตรฐานตามคอลัมน์

health_data['Bob']
type       HR   Temp
year visit      
2013    1   22.0    38.6
        2   52.0    38.3
2014    1   30.0    38.9
        2   31.0    37.3


health_data['Bob']['HR']
year  visit
2013  1        22.0
      2        52.0
2014  1        30.0
      2        31.0
Name: HR, dtype: float64

# filtering by column/subcolumn - your case:
health_data['Bob']['HR']==22
year  visit
2013  1         True
      2        False
2014  1        False
      2        False

health_data['Bob']['HR'][2013]    
visit
1    22.0
2    52.0
Name: HR, dtype: float64

health_data['Bob']['HR'][2013][1]
22.0

เข้าถึงตามแถว

health_data.loc[2013]
subject Bob Guido   Sue
type    HR  Temp    HR  Temp    HR  Temp
visit                       
1   22.0    38.6    40.0    38.9    53.0    37.5
2   52.0    38.3    42.0    34.6    30.0    37.7

health_data.loc[2013,1] 
subject  type
Bob      HR      22.0
         Temp    38.6
Guido    HR      40.0
         Temp    38.9
Sue      HR      53.0
         Temp    37.5
Name: (2013, 1), dtype: float64

health_data.loc[2013,1]['Bob']
type
HR      22.0
Temp    38.6
Name: (2013, 1), dtype: float64

health_data.loc[2013,1]['Bob']['HR']
22.0

การหั่นหลายดัชนี

idx=pd.IndexSlice
health_data.loc[idx[:,1], idx[:,'HR']]
    subject Bob Guido   Sue
type    HR  HR  HR
year    visit           
2013    1   22.0    40.0    53.0
2014    1   30.0    52.0    45.0

สิ่งนี้ทำให้เกิดValueError: cannot handle a non-unique multi-index!ข้อผิดพลาด
Coddy

5

คุณสามารถใช้DataFrame.loc:

>>> df.loc[1]

ตัวอย่าง

>>> print(df)
       result
A B C        
1 1 1       6
    2       9
  2 1       8
    2      11
2 1 1       7
    2      10
  2 1       9
    2      12

>>> print(df.loc[1])
     result
B C        
1 1       6
  2       9
2 1       8
  2      11

>>> print(df.loc[2, 1])
   result
C        
1       7
2      10

นี่คือวิธีที่ดีที่สุดของ IMO ที่ทันสมัยโดยที่ df.loc [2, 1] ['result'] จะจัดการกับหลายคอลัมน์
M__

สิ่งนี้ใช้ได้กับจำนวนเต็มจำนวนเท่าใดก็ได้ด้วยเหตุผลบางประการ เช่นdf.loc[0], df.loc[1]....df.loc[n]
Coddy

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.