คำถามติดแท็ก pandas

Pandas เป็นห้องสมุด Python สำหรับการจัดการและวิเคราะห์ข้อมูลเช่น dataframes, อนุกรมเวลาหลายมิติและชุดข้อมูลแบบตัดขวางซึ่งมักพบในสถิติ, ผลการทดลองทางวิทยาศาสตร์, เศรษฐมิติหรือการเงิน Pandas เป็นหนึ่งในห้องสมุดวิทยาศาสตร์ข้อมูลที่สำคัญใน Python

6
Pandas: ฉันจะใช้ฟังก์ชัน Apply () สำหรับคอลัมน์เดียวได้อย่างไร
ฉันมีกรอบข้อมูลแพนด้าสองคอลัมน์ ฉันต้องการเปลี่ยนค่าของคอลัมน์แรกโดยไม่ส่งผลกระทบต่อค่าที่สองและกลับกรอบข้อมูลทั้งหมดโดยมีการเปลี่ยนแปลงค่าของคอลัมน์แรก ฉันจะทำเช่นนั้นโดยใช้การสมัครในแพนด้าได้อย่างไร?

3
วิธีการเรียงลำดับ dataFrame ใน python pandas โดยคอลัมน์สองคอลัมน์ขึ้นไป
สมมติว่าฉันมี dataframe กับคอลัมน์a, bและcผมต้องการที่จะจัดเรียง dataframe จากคอลัมน์bใน Ascending Order และคอลัมน์cในลำดับถัดลงฉันจะทำเช่นนี้?

9
ชื่อหรือชื่อคอลัมน์ดัชนีหมีแพนด้า
ฉันจะรับชื่อคอลัมน์ดัชนีใน python python ได้อย่างไร นี่คือตัวอย่างดาต้าเฟรม: Column 1 Index Title Apples 1 Oranges 2 Puppies 3 Ducks 4 สิ่งที่ฉันพยายามทำคือรับ / ตั้งค่าชื่อดัชนีของไฟล์ข้อมูล นี่คือสิ่งที่ฉันพยายาม: import pandas as pd data = {'Column 1' : [1., 2., 3., 4.], 'Index Title' : ["Apples", "Oranges", "Puppies", "Ducks"]} df = pd.DataFrame(data) df.index = df["Index Title"] del df["Index …

9
`ValueError: ไม่สามารถทำดัชนีซ้ำจากแกนที่ซ้ำกัน 'หมายถึงอะไร
ฉันได้รับValueError: cannot reindex from a duplicate axisเมื่อฉันพยายามตั้งค่าดัชนีให้เป็นค่าที่แน่นอน ฉันพยายามทำซ้ำโดยใช้ตัวอย่างง่ายๆ แต่ไม่สามารถทำได้ นี่คือเซสชั่นของฉันอยู่ในการipdbติดตาม ฉันมี DataFrame พร้อมกับดัชนีสตริงและคอลัมน์จำนวนเต็ม, ค่าทศนิยม อย่างไรก็ตามเมื่อฉันพยายามสร้างsumดัชนีสำหรับผลรวมของคอลัมน์ทั้งหมดที่ฉันได้รับValueError: cannot reindex from a duplicate axisข้อผิดพลาด ฉันสร้าง DataFrame ขนาดเล็กที่มีคุณสมบัติเหมือนกัน แต่ไม่สามารถสร้างปัญหาขึ้นมาใหม่ได้ฉันควรพลาดอะไรบ้าง ฉันไม่เข้าใจความValueError: cannot reindex from a duplicate axisหมายของข้อความข้อผิดพลาดนี้หมายความว่าอย่างไร บางทีนี่อาจช่วยฉันวิเคราะห์ปัญหาและนี่เป็นส่วนที่ตอบได้มากที่สุดสำหรับคำถามของฉัน ipdb> type(affinity_matrix) <class 'pandas.core.frame.DataFrame'> ipdb> affinity_matrix.shape (333, 10) ipdb> affinity_matrix.columns Int64Index([9315684, 9315597, 9316591, 9320520, 9321163, 9320615, 9321187, …
254 python  pandas 

6
ลบแถวที่มีดัชนีซ้ำกัน (Pandas DataFrame และ TimeSeries)
ฉันกำลังอ่านข้อมูลสภาพอากาศอัตโนมัติจากเว็บ การสังเกตเกิดขึ้นทุก 5 นาทีและรวบรวมเป็นไฟล์รายเดือนสำหรับแต่ละสถานีตรวจอากาศ เมื่อฉันแยกไฟล์เสร็จแล้ว DataFrame จะมีลักษณะดังนี้: Sta Precip1hr Precip5min Temp DewPnt WindSpd WindDir AtmPress Date 2001-01-01 00:00:00 KPDX 0 0 4 3 0 0 30.31 2001-01-01 00:05:00 KPDX 0 0 4 3 0 0 30.30 2001-01-01 00:10:00 KPDX 0 0 4 3 4 80 30.30 2001-01-01 00:15:00 KPDX 0 …
252 python  pandas 


7
แสดง DataFrame เป็นตารางใน iPython Notebook
ฉันใช้สมุดบันทึก iPython เมื่อฉันทำสิ่งนี้: df ฉันได้โต๊ะที่สวยงามพร้อมเซลล์ อย่างไรก็ตามถ้าฉันทำสิ่งนี้: df1 df2 มันไม่ได้พิมพ์ตารางที่สวยงามเป็นครั้งแรก ถ้าฉันลองทำสิ่งนี้: print df1 print df2 มันพิมพ์ตารางในรูปแบบที่แตกต่างกันซึ่งจะล้นคอลัมน์และทำให้ผลผลิตสูงมาก มีวิธีบังคับให้พิมพ์ตารางที่สวยงามสำหรับชุดข้อมูลทั้งสองหรือไม่

11
รับแถวที่มีจำนวนสูงสุดในกลุ่มโดยใช้ groupby
ฉันจะค้นหาแถวทั้งหมดใน dataframe แพนด้าซึ่งมีค่าสูงสุดได้อย่างไร countคอลัมน์หลังจากจัดกลุ่มตาม['Sp','Mt']คอลัมน์ได้อย่างไร ตัวอย่างที่ 1: dataFrame ต่อไปนี้ซึ่งฉันจัดกลุ่มตาม['Sp','Mt']: Sp Mt Value count 0 MM1 S1 a **3** 1 MM1 S1 n 2 2 MM1 S3 cb 5 3 MM2 S3 mk **8** 4 MM2 S4 bg **10** 5 MM2 S4 dgd 1 6 MM4 S2 rd 2 7 MM4 S2 …

7
Pandas: ปล่อยระดับจากดัชนีคอลัมน์หลายระดับ?
หากฉันมีดัชนีคอลัมน์หลายระดับ: >>> cols = pd.MultiIndex.from_tuples([("a", "b"), ("a", "c")]) >>> pd.DataFrame([[1,2], [3,4]], columns=cols) --- + - b | ค - + --- + - 0 | 1 | 2 1 | 3 | 4 ฉันจะวางระดับ "a" ของดัชนีนั้นได้อย่างไรดังนั้นฉันจึงจบลงด้วย: b | ค - + --- + - 0 | 1 | 2 1 …
242 python  pandas 

5
แปลงคอลัมน์ Pandas เป็น DateTime
ฉันมีหนึ่งฟิลด์ใน DataFrame แพนด้าที่ถูกอิมพอร์ตเป็นรูปแบบสตริง มันควรจะเป็นตัวแปร datetime ฉันจะแปลงเป็นคอลัมน์วันที่และเวลาแล้วกรองตามวันที่ ตัวอย่าง: ชื่อDataFrame : raw_data ชื่อคอลัมน์: Mycol รูปแบบค่าในคอลัมน์: '05SEP2014: 00: 00: 00.000'
241 python  datetime  pandas 

6
ทำไมฟังก์ชั่น 'ใช้' ของนุ่นถึงการอ้างอิงหลายคอลัมน์ทำงานไม่ได้ [ปิด]
ปิด. คำถามนี้เป็นคำถามที่ไม่สามารถทำซ้ำหรือเกิดจากความผิดพลาด ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดเมื่อปีที่แล้ว ปรับปรุงคำถามนี้ ฉันมีปัญหาบางอย่างเกี่ยวกับฟังก์ชั่นการใช้หมีแพนด้าเมื่อใช้หลายคอลัมน์ด้วยดาต้าเฟรมต่อไปนี้ df = DataFrame ({'a' : np.random.randn(6), 'b' : ['foo', 'bar'] * 3, 'c' : np.random.randn(6)}) และฟังก์ชั่นดังต่อไปนี้ def my_test(a, b): return a % b เมื่อฉันพยายามใช้ฟังก์ชั่นนี้กับ: df['Value'] = df.apply(lambda row: my_test(row[a], row[c]), axis=1) ฉันได้รับข้อความแสดงข้อผิดพลาด: NameError: ("global name 'a' is not defined", u'occurred …

3
นุ่นอ่านในตารางโดยไม่มีส่วนหัว
ฉันจะอ่านในไฟล์. csv (โดยไม่มีส่วนหัว) ได้อย่างไรและเมื่อฉันต้องการเพียงชุดย่อยของคอลัมน์ (พูดที่ 4 และ 7 จากทั้งหมด 20 คอลัมน์) โดยใช้แพนด้า ฉันดูเหมือนจะทำไม่ได้usecols
239 python  pandas 


4
การเลือกด้วยเกณฑ์ที่ซับซ้อนจาก pandas.DataFrame
ตัวอย่างเช่นฉันมี DF ง่าย import pandas as pd from random import randint df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) ฉันสามารถเลือกค่าจาก 'A' ซึ่งค่าที่สอดคล้องกันสำหรับ 'B' จะมากกว่า 50 และสำหรับ 'C' - ไม่เท่ากับ 900 โดยใช้วิธีการและสำนวนของ Pandas?
235 python  pandas 

3
วิธีการเลือกแถวที่มีค่า Null ตั้งแต่หนึ่งตัวขึ้นไปจาก DataFrame ของแพนด้าโดยไม่แสดงรายการคอลัมน์อย่างชัดเจน
ฉันมีชื่อไฟล์ที่มีแถว ~ 300K และ ~ 40 คอลัมน์ ฉันต้องการตรวจสอบว่าแถวใด ๆ มีค่า Null หรือไม่และใส่ 'Null'-Row เหล่านี้ลงใน dataframe ที่แยกต่างหากเพื่อให้ฉันสามารถสำรวจได้อย่างง่ายดาย ฉันสามารถสร้างหน้ากากได้อย่างชัดเจน: mask = False for col in df.columns: mask = mask | df[col].isnull() dfnulls = df[mask] หรือฉันสามารถทำสิ่งที่ชอบ: df.ix[df.index[(df.T == np.nan).sum() > 1]] มีวิธีที่สง่างามกว่าในการทำ (ระบุแถวที่มีค่า Null) หรือไม่?
233 python  pandas  null  nan 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.