การเลือกด้วยเกณฑ์ที่ซับซ้อนจาก pandas.DataFrame


235

ตัวอย่างเช่นฉันมี DF ง่าย

import pandas as pd
from random import randint

df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)],
                   'B': [randint(1, 9)*10 for x in xrange(10)],
                   'C': [randint(1, 9)*100 for x in xrange(10)]})

ฉันสามารถเลือกค่าจาก 'A' ซึ่งค่าที่สอดคล้องกันสำหรับ 'B' จะมากกว่า 50 และสำหรับ 'C' - ไม่เท่ากับ 900 โดยใช้วิธีการและสำนวนของ Pandas?


df.queryและpd.evalดูเหมือนจะเหมาะสำหรับกรณีการใช้งานนี้ สำหรับข้อมูลเกี่ยวกับpd.eval()ครอบครัวของฟังก์ชั่นคุณสมบัติของพวกเขาและกรณีการใช้งานกรุณาเยี่ยมแบบไดนามิกการแสดงออกในการประเมินผลโดยใช้หมีแพนด้า pd.eval ()
cs95

อาจตรวจสอบคำตอบของ @Gecko ใน: stackoverflow.com/questions/13611065/…
Nicholas Humphrey

คำตอบ:


391

แน่นอน! ติดตั้ง:

>>> import pandas as pd
>>> from random import randint
>>> df = pd.DataFrame({'A': [randint(1, 9) for x in range(10)],
                   'B': [randint(1, 9)*10 for x in range(10)],
                   'C': [randint(1, 9)*100 for x in range(10)]})
>>> df
   A   B    C
0  9  40  300
1  9  70  700
2  5  70  900
3  8  80  900
4  7  50  200
5  9  30  900
6  2  80  700
7  2  80  400
8  5  80  300
9  7  70  800

เราสามารถใช้การทำงานของคอลัมน์และรับชุดวัตถุบูลีน:

>>> df["B"] > 50
0    False
1     True
2     True
3     True
4    False
5    False
6     True
7     True
8     True
9     True
Name: B
>>> (df["B"] > 50) & (df["C"] == 900)
0    False
1    False
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False

[อัปเดตเพื่อเปลี่ยนเป็นรูปแบบใหม่.loc]:

จากนั้นเราสามารถใช้สิ่งเหล่านี้เพื่อจัดทำดัชนีลงในวัตถุ สำหรับการเข้าถึงแบบอ่านคุณสามารถโยงดัชนี:

>>> df["A"][(df["B"] > 50) & (df["C"] == 900)]
2    5
3    8
Name: A, dtype: int64

แต่คุณสามารถมีปัญหาเนื่องจากความแตกต่างระหว่างมุมมองและสำเนาที่ทำเช่นนี้เพื่อเข้าถึงการเขียน คุณสามารถใช้.locแทน:

>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"]
2    5
3    8
Name: A, dtype: int64
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"].values
array([5, 8], dtype=int64)
>>> df.loc[(df["B"] > 50) & (df["C"] == 900), "A"] *= 1000
>>> df
      A   B    C
0     9  40  300
1     9  70  700
2  5000  70  900
3  8000  80  900
4     7  50  200
5     9  30  900
6     2  80  700
7     2  80  400
8     5  80  300
9     7  70  800

โปรดทราบว่าฉันพิมพ์โดยไม่ตั้งใจ== 900และไม่ใช่!= 900หรือ~(df["C"] == 900)แต่ฉันขี้เกียจเกินไปที่จะแก้ไข การออกกำลังกายสำหรับผู้อ่าน : ^)


5
เกี่ยวกับการ.locอัปเดต - มันจะดีถ้าคุณชี้แจงให้ชัดเจนว่าเรารับสำเนาที่ไหน
Gates Bates

3
เป็นไปได้ไหมที่จะกรองดาต้าดาต้าแพนด้าและใช้ตัวดำเนินการ OR ตัวอย่างเช่นหากมีเดือนคอลัมน์คุณสามารถพูด df = data ['เดือน' == JAN หรือ 'เดือน' == FEB] ได้ไหม และอาจรวมคอลัมน์ที่สองที่ทำให้ข้อความค้นหาซับซ้อนขึ้น newdf โดยที่ col_month = jan หรือ feb AND col_day = วันจันทร์หรือวันพุธ
yoshiserry

7
@yoshiserry: โปรดถามเป็นคำถามแยกต่างหาก ไม่มีใครจะเห็นได้ที่นี่ในความคิดเห็นเกี่ยวกับคำตอบเก่า
DSM

2
อย่าลืมวงเล็บ - คุณจะได้รับข้อผิดพลาดแปลก ๆ เช่น{TypeError}cannot compare a dtyped [int64] array with a scalar of type [bool]
Mr_and_Mrs_D

การใช้วงเล็บนี้ไม่ได้นำไปสู่การคำนวณทั้งชุดหรือไม่ ถ้าเราต้องการเซตย่อยซ้ำ ๆ เพื่อประสิทธิภาพ?
ifly6

56

อีกวิธีคือใช้วิธีการสืบค้น :

import pandas as pd

from random import randint
df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)],
                   'B': [randint(1, 9) * 10 for x in xrange(10)],
                   'C': [randint(1, 9) * 100 for x in xrange(10)]})
print df

   A   B    C
0  7  20  300
1  7  80  700
2  4  90  100
3  4  30  900
4  7  80  200
5  7  60  800
6  3  80  900
7  9  40  100
8  6  40  100
9  3  10  600

print df.query('B > 50 and C != 900')

   A   B    C
1  7  80  700
2  4  90  100
4  7  80  200
5  7  60  800

ตอนนี้ถ้าคุณต้องการเปลี่ยนค่าที่ส่งคืนในคอลัมน์ A คุณสามารถบันทึกดัชนีได้:

my_query_index = df.query('B > 50 & C != 900').index

.... และใช้.ilocในการเปลี่ยนแปลงเช่น:

df.iloc[my_query_index, 0] = 5000

print df

      A   B    C
0     7  20  300
1  5000  80  700
2  5000  90  100
3     4  30  900
4  5000  80  200
5  5000  60  800
6     3  80  900
7     9  40  100
8     6  40  100
9     3  10  600

12

และอย่าลืมใช้วงเล็บ!

โปรดทราบว่า&ตัวดำเนินการมีความสำคัญมากกว่าตัวดำเนินการเช่น>หรือ<อื่น ๆ นั่นคือเหตุผล

4 < 5 & 6 > 4

Falseประเมิน ดังนั้นหากคุณกำลังใช้pd.locงานอยู่คุณต้องใส่เครื่องหมายวงเล็บไว้รอบ ๆ ข้อความสั่งแบบโลจิคัลของคุณมิฉะนั้นคุณจะได้รับข้อผิดพลาด นั่นเป็นเหตุผลที่ทำ:

df.loc[(df['A'] > 10) & (df['B'] < 15)]

แทน

df.loc[df['A'] > 10 & df['B'] < 15]

ซึ่งจะส่งผลให้

TypeError: ไม่สามารถเปรียบเทียบอาเรย์ dtyped [float64] กับสเกลาร์ประเภท [บูล]


3

คุณสามารถใช้นุ่นมันมีฟังก์ชั่นบางอย่างสำหรับการเปรียบเทียบ ดังนั้นหากคุณต้องการเลือกค่าของ "A" ที่ตรงตามเงื่อนไขของ "B" และ "C" (สมมติว่าคุณต้องการกลับไปเป็นวัตถุ DataFrame pandas)

df[['A']][df.B.gt(50) & df.C.ne(900)]

df[['A']] จะให้คอลัมน์กลับในรูปแบบ DataFrame

ฟังก์ชัน pandas 'gt' จะส่งคืนตำแหน่งของคอลัมน์ B ที่มากกว่า 50 และ 'ne' จะส่งคืนตำแหน่งที่ไม่เท่ากับ 900

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.