คำถามติดแท็ก pandas

Pandas เป็นห้องสมุด Python สำหรับการจัดการและวิเคราะห์ข้อมูลเช่น dataframes, อนุกรมเวลาหลายมิติและชุดข้อมูลแบบตัดขวางซึ่งมักพบในสถิติ, ผลการทดลองทางวิทยาศาสตร์, เศรษฐมิติหรือการเงิน Pandas เป็นหนึ่งในห้องสมุดวิทยาศาสตร์ข้อมูลที่สำคัญใน Python

6
AttributeError: วัตถุ 'DataFrame' ไม่มีแอตทริบิวต์ 'ix'
ฉันได้รับข้อผิดพลาดด้านบนเมื่อฉันพยายามใช้แอตทริบิวต์. ix ของดาต้าดาต้าแพนด้าเพื่อดึงคอลัมน์ออกมาเช่น df.ix [:, 'col_header'] สคริปต์ทำงานเมื่อเช้านี้ แต่บ่ายนี้ฉันวิ่งไปในสภาพแวดล้อม linux ใหม่พร้อม Pandas ใหม่ มีคนอื่นเห็นข้อผิดพลาดนี้มาก่อนหรือไม่ ฉันค้นหาที่นี่และที่อื่น ๆ แต่หาไม่เจอ

3
ไม่รู้สึกเฉพาะส่วนของคอลัมน์จาก pandas dataframe
ฉันมีตัวอย่าง dataframe ต่อไปนี้: df = pd.DataFrame(data = {'RecordID' : [1,1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5], 'DisplayLabel' : ['Source','Test','Value 1','Value 2','Value3','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2','Source','Test','Value 1','Value 2'], 'Value' : ['Web','Logic','S','I','Complete','Person','Voice','>20','P','Mail','OCR','A','I','Dictation','Understandable','S','I','Web','Logic','R','S']}) ซึ่งสร้าง DataFrame นี้: +-------+----------+---------------+----------------+ | Index | RecordID | Display Label | Value | +-------+----------+---------------+----------------+ | 0 | 1 | Source | Web | …

1
Setter คุณสมบัติสำหรับคลาสย่อยของ Pandas DataFrame
ฉันกำลังพยายามตั้งค่าคลาสย่อยของpd.DataFrameที่มีสองข้อโต้แย้งที่จำเป็นเมื่อเริ่มต้น ( groupและtimestamp_col) ฉันต้องการเรียกใช้การตรวจสอบความถูกต้องของข้อโต้แย้งเหล่านั้นgroupและtimestamp_colดังนั้นฉันจึงมีเมธอด setter สำหรับแต่ละคุณสมบัติ งานนี้ทั้งหมดจนกว่าฉันพยายามที่จะและได้รับset_index() TypeError: 'NoneType' object is not iterableแต่ดูเหมือนว่ามันไม่มีค่าจะถูกส่งผ่านไปยังฟังก์ชั่นตั้งค่าของฉันในและtest_set_index test_assignment_with_indexed_objถ้าฉันเพิ่มif g == None: returnฟังก์ชัน setter ของฉันฉันสามารถผ่านกรณีทดสอบ แต่ไม่คิดว่าเป็นทางออกที่เหมาะสม ฉันจะใช้การตรวจสอบคุณสมบัติสำหรับอาร์กิวเมนต์ที่ต้องการเหล่านี้ได้อย่างไร ด้านล่างเป็นชั้นเรียนของฉัน: import pandas as pd import numpy as np class HistDollarGains(pd.DataFrame): @property def _constructor(self): return HistDollarGains._internal_ctor _metadata = ["group", "timestamp_col", "_group", "_timestamp_col"] @classmethod def _internal_ctor(cls, *args, **kwargs): kwargs["group"] …

2
วิธีค้นหาค่าต่ำสุด N อันดับแรกจาก DataFrame, Python-3
ฉันมี Dataframe ด้านล่างด้วยฟิลด์ 'อายุ' ต้องการค้นหาอายุขั้นต่ำ 3 อันดับแรกจาก DataFrame DF = pd.DataFrame.from_dict({'Name':['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], 'Age':[18, 45, 35, 70, 23, 24, 50, 65, 18, 23]}) DF['Age'].min() ต้องการอันดับสองอายุเช่น 18, 23 ในรายการวิธีการบรรลุเป้าหมายนี้ หมายเหตุ: DataFrame - DF มีข้อมูลซ้ำอายุเช่น 18 และ 23 ซ้ำสองครั้งต้องการค่าที่ไม่ซ้ำ

3
ย้ายทุกแถวที่สองไปยังแถวด้านบนในดาต้าดาต้าแพนด้า
ฉันมี dataframe ในรูปนี้: A B C D E 213-1 XL NaN NaN NaN 21 22.0 12 232.0 101.32 23-0 L NaN NaN NaN 12 23 12 232.2 NaN 31-0 LS NaN NaN NaN 70 70 23 NaN 21.22 ฉันต้องการย้ายทุกแถวที่สองของ dataframe ไปยังแถวด้านบนเพื่อให้มีเพียงแถวที่รวมกันเท่านั้นที่เหลือตามที่เห็นในผลลัพธ์ที่คาดไว้: ID Name A B C D E 213-1 XL …
9 python  pandas 

1
ผสานสอง dataframes และเพิ่มระดับคอลัมน์ด้วยชื่อ
สวัสดีฉันขุดมาด้วยการลงประชามติเข้าร่วมและผสานวิธีการกับแพนด้าและดูเหมือนจะไม่พบสิ่งที่ฉันต้องการ สมมติว่าฉันมีสอง dataframes A = pd.DataFrame("A",index=[0,1,2,3,4],columns=['Col 1','Col 2','Col 3']) B = pd.DataFrame("B",index=[0,1,2,3,4],columns=['Col 1','Col 2','Col 3']) >>> A Col 1 Col 2 Col 3 0 A A A 1 A A A 2 A A A 3 A A A 4 A A A >>> B Col 1 Col 2 Col …

2
dtypes muck เกิดขึ้นเมื่อขยับแกนหนึ่ง (คอลัมน์)
พิจารณา DataFrame df df = pd.DataFrame(dict(A=[1, 2], B=['X', 'Y'])) df A B 0 1 X 1 2 Y ถ้าฉันเลื่อนตามaxis=0(ค่าเริ่มต้น) df.shift() A B 0 NaN NaN 1 1.0 X มันดันแถวทั้งหมดลงไปหนึ่งแถวตามที่คาดไว้ แต่เมื่อฉันเปลี่ยนไป axis=1 df.shift(axis=1) A B 0 NaN NaN 1 NaN NaN ทุกอย่างเป็นโมฆะเมื่อฉันคาดหวัง A B 0 NaN 1 1 NaN 2 ฉันเข้าใจว่าทำไมสิ่งนี้จึงเกิดขึ้น …
9 python  pandas 


1
วิธีที่ดีกว่าในการตรวจสอบหลายคอลัมน์ด้วยเงื่อนไขเดียวกันในนุ่น?
ฉันได้รับผลลัพธ์ แต่พยายามหาวิธีที่มีประสิทธิภาพมากขึ้นในการทำสิ่งนี้: (df['budget'] == 0).sum(), (df['revenue'] == 0).sum(),(df['budget_adj'] == 0).sum(), (df['revenue_adj'] == 0).sum() ผลผลิตคือ (5674, 5993, 5676, 5993)
9 python  pandas 

3
การใช้ฟังก์ชั่น Python กับ Pandas จัดกลุ่ม DataFrame - วิธีที่มีประสิทธิภาพมากที่สุดในการคำนวณความเร็วคืออะไร?
ฉันกำลังจัดการกับ Pandas DataFrame ขนาดใหญ่ - ชุดข้อมูลของฉันคล้ายกับการdfตั้งค่าต่อไปนี้: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( repeats = [ R3, R4 ] ) R4 = …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.