วางแถวด้วยเลขศูนย์ทั้งหมดในกรอบข้อมูลแพนด้า


110

ฉันสามารถใช้pandas dropna()ฟังก์ชันเพื่อลบแถวที่มีคอลัมน์บางคอลัมน์หรือทั้งหมดตั้งค่าเป็นNA's มีฟังก์ชันเทียบเท่าสำหรับการวางแถวที่คอลัมน์ทั้งหมดมีค่า 0 หรือไม่

P   kt  b   tt  mky depth
1   0   0   0   0   0
2   0   0   0   0   0
3   0   0   0   0   0
4   0   0   0   0   0
5   1.1 3   4.5 2.3 9.0

ในตัวอย่างนี้เราต้องการวาง 4 แถวแรกจากกรอบข้อมูล

ขอบคุณ!


เพื่อชี้แจงนี่คือสองคำถาม หนึ่งที่จะลดลงคอลัมน์ที่มีทุกค่าเป็น 0 แต่ยังสำหรับฟังก์ชั่นเทียบเท่าเพื่อ dropna () ซึ่งจะลดลงคอลัมน์ที่มีใด ๆค่าเป็น 0
ขลัง

คำตอบ:


120

ปรากฎว่าสิ่งนี้สามารถแสดงออกได้อย่างสวยงามในรูปแบบเวกเตอร์:

> df = pd.DataFrame({'a':[0,0,1,1], 'b':[0,1,0,1]})
> df = df[(df.T != 0).any()]
> df
   a  b
1  0  1
2  1  0
3  1  1

7
ดี แต่ฉันคิดว่าคุณสามารถหลีกเลี่ยงการปฏิเสธได้ด้วยdf = df[(df.T != 0).any()]
Akavall

1
@Akavall ดีกว่าเยอะ!
U2EF1

1
หมายเหตุ: OP ต้องการที่จะลดลงrows with all columns having value 0แต่สามารถอนุมานallวิธีการได้
paulochf

1
คำตอบทั้งหมดนี้อธิบายว่าเราจะวางแถวด้วยศูนย์ทั้งหมดได้อย่างไรอย่างไรก็ตามฉันต้องการวางแถวโดยมี 0 ในคอลัมน์แรก ด้วยความช่วยเหลือของการสนทนาและคำตอบทั้งหมดในโพสต์นี้ฉันจึงทำสิ่งนี้โดยทำ df.loc [df.iloc [:, 0]! = 0] แค่อยากแชร์เพราะปัญหานี้เกี่ยวข้องกับคำถามนี้ !!
hemanta

2
ไม่จำเป็นต้องใช้ทรานสโพสใด ๆ () สามารถใช้แกนเป็นพารามิเตอร์ได้ จึงได้ผล: df = df [df.any (axis = 1)]
Rahul Jha

138

หนึ่งในสายการบิน. ไม่จำเป็นต้องมีการเปลี่ยนภาพ:

df.loc[~(df==0).all(axis=1)]

และสำหรับผู้ที่ชอบความสมมาตรก็ใช้ได้เช่นกัน ...

df.loc[(df!=0).any(axis=1)]

1
เพื่อความกระชับ (และในความคิดของฉันความชัดเจนของวัตถุประสงค์) รวมนี้และแสดงความคิดเห็นของ df.loc[(df != 0).any(1)]Akavall: ทีมเวิร์ค!
Dan Allan

1
+1 เร็วขึ้น 30% ที่เปลี่ยน - 491 ถึง 614 ไมโครวินาทีและฉันชอบaxis=1ความชัดเจน pythonic มากขึ้นในความคิดของฉัน
gt6989b

การกล่าวถึงบางส่วนควรสร้างความแตกต่างระหว่างการใช้. all และ. เนื่องจากคำถามเดิมกล่าวถึงความเท่าเทียมกันของ dropna หากคุณต้องการวางแถวทั้งหมดที่มีคอลัมน์ใด ๆ ที่มีศูนย์คุณต้องย้อนกลับ. all และ. any ในคำตอบข้างต้น ฉันต้องใช้เวลาสักพักเพื่อตระหนักถึงสิ่งนี้ในขณะที่ฉันกำลังมองหาฟังก์ชันนั้น
Zak Keirn

สิ่งนี้ไม่ได้ผลสำหรับฉัน แต่ส่งdf
คืนให้

มีเวอร์ชัน 'inplace' หรือไม่? ฉันเห็นว่าในการวางแถวใน df ตามที่ OP ร้องขอสิ่งนี้จะต้องเป็นdf = df.loc[(df!=0).all(axis=1)]และdf = df.loc[(df!=0).any(axis=1)]วางแถวที่มีศูนย์ใด ๆ ซึ่งจะเทียบเท่ากับ dropna () จริง
alchemy

20

ฉันค้นหาคำถามนี้ประมาณเดือนละครั้งและมักจะต้องหาคำตอบที่ดีที่สุดจากความคิดเห็น:

df.loc[(df!=0).any(1)]

ขอบคุณ Dan Allan!


2
ไม่จำเป็นต้องขุด @ 8one6 ได้รวมสิ่งนี้ไว้ในคำตอบของเขาในปี 2014 ซึ่งเป็นส่วนที่ระบุว่า: "และสำหรับผู้ที่ชอบความสมมาตร ... "
Rahul Murmuria

17

แทนที่ศูนย์ด้วยแล้ววางแถวที่มีรายการทั้งหมดเป็นnan nanหลังจากนั้นแทนที่nanด้วยศูนย์

import numpy as np
df = df.replace(0, np.nan)
df = df.dropna(how='all', axis=0)
df = df.replace(np.nan, 0)

6
สิ่งนี้จะล้มเหลวหากคุณมี NaN-s ที่มีอยู่แล้วในข้อมูล
OmerB

15

ฉันคิดว่าวิธีนี้สั้นที่สุด:

df= df[df['ColName'] != 0]

2
และของมันด้วย!
Max Kleiner

1
@MaxKleiner แทนที่ด้วยการกำหนดตัวแปรใหม่
lukas

7

สองวิธีแก้ปัญหาที่ฉันพบว่ามีประโยชน์ในขณะที่ค้นหาโดยเฉพาะอย่างยิ่งสำหรับชุดข้อมูลขนาดใหญ่:

df[(df.sum(axis=1) != 0)]       # 30% faster 
df[df.values.sum(axis=1) != 0]  # 3X faster 

ต่อด้วยตัวอย่างจาก @ U2EF1:

In [88]: df = pd.DataFrame({'a':[0,0,1,1], 'b':[0,1,0,1]})

In [91]: %timeit df[(df.T != 0).any()]
1000 loops, best of 3: 686 µs per loop

In [92]: df[(df.sum(axis=1) != 0)]
Out[92]: 
   a  b
1  0  1
2  1  0
3  1  1

In [95]: %timeit df[(df.sum(axis=1) != 0)]
1000 loops, best of 3: 495 µs per loop

In [96]: %timeit df[df.values.sum(axis=1) != 0]
1000 loops, best of 3: 217 µs per loop

บนชุดข้อมูลขนาดใหญ่:

In [119]: bdf = pd.DataFrame(np.random.randint(0,2,size=(10000,4)))

In [120]: %timeit bdf[(bdf.T != 0).any()]
1000 loops, best of 3: 1.63 ms per loop

In [121]: %timeit bdf[(bdf.sum(axis=1) != 0)]
1000 loops, best of 3: 1.09 ms per loop

In [122]: %timeit bdf[bdf.values.sum(axis=1) != 0]
1000 loops, best of 3: 517 µs per loop

จะเกิดสิ่งเลวร้ายหรือไม่ถ้าแถวของคุณมี -1 และ 1?
Rhys Ulerich

แน่นอนว่าผลรวมจะไม่ได้ผลหากคุณมีแถวที่เท่ากันรวมกันได้ถึง 0 นี่เป็นวิธีแก้ปัญหาอย่างรวดเร็วสำหรับสิ่งที่ช้ากว่าเล็กน้อยเท่านั้น: df[~(df.values.prod(axis=1) == 0) | ~(df.values.sum(axis=1)==0)]
clocker

ฟังก์ชัน prod () ไม่ได้แก้ปัญหาอะไรเลย หากคุณมี 0 ในแถวที่จะคืนค่า 0 หากคุณต้องจัดการแถวเช่นนี้: [-1, -0.5, 0, 0.5, 1] ​​วิธีแก้ปัญหาของคุณทั้งสองจะไม่ได้ผล
Rahul Murmuria

นี่คือเวอร์ชันที่ถูกต้องซึ่งทำงานได้เร็วกว่าคำตอบที่ยอมรับ 3 เท่า:bdf[np.square(bdf.values).sum(axis=1) != 0]
Rahul Murmuria

5
import pandas as pd

df = pd.DataFrame({'a' : [0,0,1], 'b' : [0,0,-1]})

temp = df.abs().sum(axis=1) == 0      
df = df.drop(temp)

ผลลัพธ์:

>>> df
   a  b
2  1 -1

ใช้กับดาต้าเฟรม 1 คอลัมน์ไม่ได้สำหรับฉัน GotValueError: labels [True ... ] not contained in matrix
The Unfun Cat

แทนที่จะdf = df.drop(temp)ใช้df = df.drop(df[temp].index)
Douglas Ferreira

3

คุณสามารถใช้lambdaฟังก์ชันด่วนเพื่อตรวจสอบว่าค่าทั้งหมดในแถวที่กำหนดเป็น0หรือไม่ จากนั้นคุณสามารถใช้ผลลัพธ์ของการใช้lambdaเป็นวิธีเลือกเฉพาะแถวที่ตรงหรือไม่ตรงกับเงื่อนไขนั้น:

import pandas as pd
import numpy as np

np.random.seed(0)

df = pd.DataFrame(np.random.randn(5,3), 
                  index=['one', 'two', 'three', 'four', 'five'],
                  columns=list('abc'))

df.loc[['one', 'three']] = 0

print df
print df.loc[~df.apply(lambda row: (row==0).all(), axis=1)]

ผลตอบแทน:

              a         b         c
one    0.000000  0.000000  0.000000
two    2.240893  1.867558 -0.977278
three  0.000000  0.000000  0.000000
four   0.410599  0.144044  1.454274
five   0.761038  0.121675  0.443863

[5 rows x 3 columns]
             a         b         c
two   2.240893  1.867558 -0.977278
four  0.410599  0.144044  1.454274
five  0.761038  0.121675  0.443863

[3 rows x 3 columns]

1

ทางเลือกอื่น:

# Is there anything in this row non-zero?
# df != 0 --> which entries are non-zero? T/F
# (df != 0).any(axis=1) --> are there 'any' entries non-zero row-wise? T/F of rows that return true to this statement.
# df.loc[all_zero_mask,:] --> mask your rows to only show the rows which contained a non-zero entry.
# df.shape to confirm a subset.

all_zero_mask=(df != 0).any(axis=1) # Is there anything in this row non-zero?
df.loc[all_zero_mask,:].shape


0

สำหรับฉันรหัสนี้: ใช้df.loc[(df!=0).any(axis=0)] ไม่ได้ มันส่งคืนชุดข้อมูลที่แน่นอน

แต่ฉันใช้df.loc[:, (df!=0).any(axis=0)]และทิ้งคอลัมน์ทั้งหมดที่มีค่า 0 ในชุดข้อมูลแทน

ฟังก์ชัน.all()ดร็อปคอลัมน์ทั้งหมดซึ่งเป็นค่าศูนย์ในชุดข้อมูลของฉัน


-1
df = df [~( df [ ['kt'  'b'   'tt'  'mky' 'depth', ] ] == 0).all(axis=1) ]

ลองใช้คำสั่งนี้ทำงานได้อย่างสมบูรณ์แบบ


-2

หากต้องการวางคอลัมน์ทั้งหมดที่มีค่า 0 ในแถวใด ๆ :

new_df = df[df.loc[:]!=0].dropna()
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.