คำถามติดแท็ก pandas

Pandas เป็นห้องสมุด Python สำหรับการจัดการและวิเคราะห์ข้อมูลเช่น dataframes, อนุกรมเวลาหลายมิติและชุดข้อมูลแบบตัดขวางซึ่งมักพบในสถิติ, ผลการทดลองทางวิทยาศาสตร์, เศรษฐมิติหรือการเงิน Pandas เป็นหนึ่งในห้องสมุดวิทยาศาสตร์ข้อมูลที่สำคัญใน Python

6
วิธีการส่งคอลัมน์อื่นทั้งหมดเป็นอาร์กิวเมนต์ให้กับ pandas fillna ()
ฉันต้องการเติมค่าที่ขาดหายไปในคอลัมน์หนึ่งด้วยค่าจากคอลัมน์อื่นโดยใช้fillnaวิธีการ (ฉันอ่านมาว่าการวนซ้ำในแต่ละแถวจะเป็นการฝึกที่ไม่ดีมากและการทำทุกอย่างในคราวเดียวจะดีกว่า แต่ฉันไม่สามารถหาคำตอบได้fillna) ข้อมูลก่อน: Day Cat1 Cat2 1 cat mouse 2 dog elephant 3 cat giraf 4 NaN ant ข้อมูลหลังจาก: Day Cat1 Cat2 1 cat mouse 2 dog elephant 3 cat giraf 4 ant ant
95 python  pandas  fillna 

2
การอ่านไฟล์ที่คั่นด้วยแท็บด้วย Pandas - ทำงานบน Windows แต่ใช้ไม่ได้กับ Mac
ฉันอ่านไฟล์ข้อมูลที่คั่นด้วยแท็บใน Windows ด้วย Pandas / Python โดยไม่มีปัญหาใด ๆ ไฟล์ข้อมูลมีบันทึกย่อในสามบรรทัดแรกและตามด้วยส่วนหัว df = pd.read_csv(myfile,sep='\t',skiprows=(0,1,2),header=(0)) ตอนนี้ฉันกำลังพยายามอ่านไฟล์นี้ด้วย Mac ของฉัน (ครั้งแรกของฉันที่ใช้ Python บน Mac) ฉันได้รับข้อผิดพลาดต่อไปนี้ pandas.parser.CParserError: Error tokenizing data. C error: Expected 1 fields in line 8, saw 39 หากตั้งค่าอาร์กิวเมนต์error_bad_linesสำหรับread_csvเป็นFalseฉันจะได้รับข้อมูลต่อไปนี้ซึ่งจะดำเนินต่อไปจนจบแถวสุดท้าย Skipping line 8: expected 1 fields, saw 39 Skipping line 9: expected 1 fields, saw …

1
อะไรคือความแตกต่างระหว่างขนนกและไม้ปาร์เก้?
ทั้งสองเป็นรูปแบบการจัดเก็บคอลัมน์ (ดิสก์ -)สำหรับใช้ในระบบวิเคราะห์ข้อมูล ทั้งสองอย่างรวมอยู่ในApache Arrow ( แพ็คเกจpyarrowสำหรับ python) และได้รับการออกแบบให้สอดคล้องกับArrowเป็นเลเยอร์การวิเคราะห์ในหน่วยความจำแบบคอลัมน์ ทั้งสองรูปแบบแตกต่างกันอย่างไร? คุณควรชอบขนนกเมื่อทำงานกับหมีแพนด้าเมื่อเป็นไปได้หรือไม่? อะไรคือกรณีการใช้งานที่ขนนกเหมาะสมกว่าไม้ปาร์เก้และในทางกลับกัน? ภาคผนวก ฉันพบคำแนะนำบางอย่างที่นี่https://github.com/wesm/feather/issues/188แต่เนื่องจากโครงการนี้อายุยังน้อยอาจล้าสมัยไปบ้าง ไม่ใช่การทดสอบความเร็วที่จริงจังเพราะฉันแค่ทิ้งและโหลด Dataframe ทั้งหมด แต่เพื่อให้คุณประทับใจหากคุณไม่เคยได้ยินเกี่ยวกับรูปแบบมาก่อน: # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], …

5
การพล็อตข้อมูลเชิงหมวดหมู่ด้วยแพนด้าและ matplotlib
ฉันมีกรอบข้อมูลที่มีข้อมูลหมวดหมู่: colour direction 1 red up 2 blue up 3 green down 4 red left 5 red right 6 yellow down 7 blue down ฉันต้องการสร้างกราฟบางอย่างเช่นแผนภูมิวงกลมและฮิสโตแกรมตามหมวดหมู่ เป็นไปได้หรือไม่โดยไม่ต้องสร้างตัวแปรตัวเลขจำลอง สิ่งที่ต้องการ df.plot(kind='hist')
94 python  pandas 

7
Pandas วิธีกรองซีรีส์
ฉันมีซีรี่ส์แบบนี้หลังจากทำ groupby ('name') และใช้ฟังก์ชัน mean () ในคอลัมน์อื่น name 383 3.000000 663 1.000000 726 1.000000 737 9.000000 833 8.166667 ใครช่วยแสดงวิธีกรองแถวที่มีค่าเฉลี่ย 1.000000 หน่อยได้ไหม ขอขอบคุณและขอขอบคุณอย่างยิ่งในความช่วยเหลือของคุณ
94 python  pandas 

6
มีวิธีใน Pandas ที่จะใช้ค่าแถวก่อนหน้าใน dataframe.apply เมื่อคำนวณค่าก่อนหน้าในการนำไปใช้ด้วยหรือไม่
ฉันมี dataframe ต่อไปนี้: Index_Date A B C D =============================== 2015-01-31 10 10 Nan 10 2015-02-01 2 3 Nan 22 2015-02-02 10 60 Nan 280 2015-02-03 10 100 Nan 250 จำเป็นต้อง: Index_Date A B C D =============================== 2015-01-31 10 10 10 10 2015-02-01 2 3 23 22 2015-02-02 10 60 290 …

6
กลุ่มหมีแพนด้าโดยผลรวมสะสม
ฉันต้องการเพิ่มคอลัมน์ผลรวมสะสมในดาต้าเฟรม Pandas ของฉันเพื่อให้: name | day | no -----|-----------|---- Jack | Monday | 10 Jack | Tuesday | 20 Jack | Tuesday | 10 Jack | Wednesday | 50 Jill | Monday | 40 Jill | Wednesday | 110 กลายเป็น: Jack | Monday | 10 | 10 Jack | Tuesday …
94 python  pandas 

4
จัดเรียง Pandas Dataframe ตามวันที่
ฉันมีดาต้าเฟรมของแพนด้าดังนี้: Symbol Date A 02/20/2015 A 01/15/2016 A 08/21/2015 ฉันต้องการจัดเรียงตามDateแต่คอลัมน์เป็นเพียงobjectไฟล์. ฉันพยายามทำให้คอลัมน์เป็นวัตถุวันที่ แต่พบปัญหาที่รูปแบบนั้นไม่ใช่รูปแบบที่ต้องการ รูปแบบที่ต้องการ2015-02-20,เป็นต้น ตอนนี้ฉันกำลังพยายามหาวิธีทำให้ numpy แปลงวันที่ 'American' เป็นมาตรฐาน ISO เพื่อที่ฉันจะได้สร้างเป็นวันที่เป็นวัตถุเพื่อที่ฉันจะได้เรียงลำดับตามพวกมัน ฉันจะแปลงวันที่อเมริกันเหล่านี้เป็นมาตรฐาน ISO ได้อย่างไรหรือมีวิธีการที่ตรงไปตรงมามากกว่านี้ที่ฉันพลาดไปในแพนด้า
94 python  pandas 

4
การโหลดไฟล์ที่มี JSON มากกว่าหนึ่งบรรทัดลงใน Pandas
ฉันพยายามอ่านไฟล์ JSON ในกรอบข้อมูล Python pandas (0.14.0) บรรทัดบรรทัดแรกของไฟล์ JSON มีดังนี้ {"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "P_Mk0ygOilLJo4_WEvabAA", "review_id": "OeT5kgUOe3vcN7H6ImVmZQ", "stars": 3, "date": "2005-08-26", "text": "This is a pretty typical cafe. The sandwiches and wraps are good but a little overpriced and the food items are the same. The chicken …

3
คอลัมน์ดาต้าเฟรมของ python pandas แปลงเป็นคีย์และค่า dict
ฉันมีกรอบข้อมูลแพนด้าที่มีหลายคอลัมน์และฉันต้องการสร้าง dict จากสองคอลัมน์: อันหนึ่งเป็นคีย์ของ dict และอีกอันเป็นค่าของ dict ฉันจะทำเช่นนั้นได้อย่างไร? ดาต้าเฟรม: area count co tp DE Lake 10 7 Forest 20 5 FR Lake 30 2 Forest 40 3 ฉันต้องการกำหนดพื้นที่เป็นคีย์นับเป็นค่าในคำสั่ง ขอบคุณล่วงหน้า.

3
ใส่คำอธิบายประกอบแท่งที่มีค่าบนแผนภาพของ Pandas
ฉันกำลังมองหาวิธีใส่คำอธิบายประกอบแท่งของฉันในพล็อตแท่ง Pandas ด้วยค่าตัวเลขที่โค้งมนจาก DataFrame ของฉัน >>> df=pd.DataFrame({'A':np.random.rand(2),'B':np.random.rand(2)},index=['value1','value2'] ) >>> df A B value1 0.440922 0.911800 value2 0.588242 0.797366 ฉันต้องการได้รับสิ่งนี้: ฉันลองใช้ตัวอย่างโค้ดนี้แล้ว แต่คำอธิบายประกอบจะอยู่กึ่งกลางของขีด x: >>> ax = df.plot(kind='bar') >>> for idx, label in enumerate(list(df.index)): for acc in df.columns: value = np.round(df.ix[idx][acc],decimals=2) ax.annotate(value, (idx, value), xytext=(0, 15), textcoords='offset points')

3
Python: รับการนับความถี่ตามสองคอลัมน์ (ตัวแปร) ในแพนด้าดาต้าเฟรมบางแถว
สวัสดีฉันมี dataframe ต่อไปนี้ Group Size Short Small Short Small Moderate Medium Moderate Small Tall Large ฉันต้องการนับความถี่ของจำนวนครั้งที่แถวเดียวกันปรากฏในดาต้าเฟรม Group Size Time Short Small 2 Moderate Medium 1 Moderate Small 1 Tall Large 1

4
Pandas Merge - วิธีหลีกเลี่ยงการทำซ้ำคอลัมน์
ฉันกำลังพยายามผสานระหว่างสองกรอบข้อมูล แต่ละกรอบข้อมูลมีดัชนีสองระดับ (วันที่, cusip) ในคอลัมน์บางคอลัมน์จะจับคู่ระหว่างสอง (currency, adj date) เช่น วิธีใดเป็นวิธีที่ดีที่สุดในการรวมสิ่งเหล่านี้ด้วยดัชนี แต่อย่าใช้สำเนาสกุลเงินสองชุดและวันที่แก้ไข แต่ละเฟรมข้อมูลมี 90 คอลัมน์ดังนั้นฉันจึงพยายามหลีกเลี่ยงการเขียนทุกอย่างด้วยมือ df: currency adj_date data_col1 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... df2: currency adj_date data_col2 ... date cusip 2012-01-01 XSDP USD 2012-01-03 0.45 ... ถ้าฉันทำ: dfNew = merge(df, df2, left_index=True, right_index=True, how='outer') ฉันเข้าใจ dfNew: …
93 python  pandas 

1
Python Pandas: วิธีอ่านเฉพาะไฟล์ CSV n แถวแรกใน?
ฉันมีชุดข้อมูลขนาดใหญ่มากและฉันไม่สามารถอ่านชุดข้อมูลทั้งหมดได้ฉันจึงคิดว่าจะอ่านข้อมูลเพียงชุดเดียวเพื่อฝึก แต่ฉันไม่รู้ว่าจะทำอย่างไร ความคิดใด ๆ จะได้รับการชื่นชม
93 python  pandas  csv  file-io 

6
DataFrame ขนาดใหญ่และถาวรในแพนด้า
ฉันกำลังสำรวจการเปลี่ยนไปใช้ python และ pandas ในฐานะผู้ใช้ SAS เป็นเวลานาน อย่างไรก็ตามเมื่อทำการทดสอบในวันนี้ฉันรู้สึกประหลาดใจที่ python มีหน่วยความจำpandas.read_csv()ไม่เพียงพอเมื่อพยายามใช้ไฟล์ csv ขนาด 128mb มีข้อมูลตัวเลขประมาณ 200,000 แถวและ 200 คอลัมน์ ด้วย SAS ฉันสามารถนำเข้าไฟล์ csv ไปยังชุดข้อมูล SAS และมีขนาดใหญ่พอ ๆ กับฮาร์ดไดรฟ์ของฉัน มีบางอย่างที่คล้ายคลึงกันpandasหรือไม่? ฉันทำงานกับไฟล์ขนาดใหญ่เป็นประจำและไม่มีสิทธิ์เข้าถึงเครือข่ายคอมพิวเตอร์แบบกระจาย
93 python  pandas  sas 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.