คำถามติดแท็ก pandas

Pandas เป็นห้องสมุด Python สำหรับการจัดการและวิเคราะห์ข้อมูลเช่น dataframes, อนุกรมเวลาหลายมิติและชุดข้อมูลแบบตัดขวางซึ่งมักพบในสถิติ, ผลการทดลองทางวิทยาศาสตร์, เศรษฐมิติหรือการเงิน Pandas เป็นหนึ่งในห้องสมุดวิทยาศาสตร์ข้อมูลที่สำคัญใน Python

11
พล็อตเมทริกซ์สหสัมพันธ์พล็อตโดยใช้แพนด้า
ฉันมีชุดข้อมูลที่มีคุณสมบัติจำนวนมากดังนั้นการวิเคราะห์เมทริกซ์ความสัมพันธ์จึงเป็นเรื่องยากมาก ฉันต้องการพล็อตเมทริกซ์สหสัมพันธ์ที่เราใช้dataframe.corr()ฟังก์ชั่นจากห้องสมุดแพนด้า มีฟังก์ชันในตัวที่จัดทำโดยห้องสมุดแพนด้าเพื่อพล็อตเมทริกซ์นี้หรือไม่?

7
ค้นหาแถวที่มีค่าสำหรับคอลัมน์สูงสุดใน pandas DataFrame
ฉันจะค้นหาแถวที่ค่าของคอลัมน์ใดคอลัมน์หนึ่งมีค่าสูงสุดได้อย่างไร df.max() จะให้ค่าสูงสุดแก่ฉันสำหรับแต่ละคอลัมน์ฉันไม่ทราบวิธีรับแถวที่เกี่ยวข้อง
208 python  pandas  argmax 

7
อะไรคือความแตกต่างระหว่างการเข้าร่วมและรวมใน Pandas?
สมมติว่าฉันมี DataFrames สองตัวดังนี้: left = pd.DataFrame({'key1': ['foo', 'bar'], 'lval': [1, 2]}) right = pd.DataFrame({'key2': ['foo', 'bar'], 'rval': [4, 5]}) ฉันต้องการรวมพวกเขาดังนั้นฉันลองแบบนี้: pd.merge(left, right, left_on='key1', right_on='key2') และฉันมีความสุข key1 lval key2 rval 0 foo 1 foo 4 1 bar 2 bar 5 แต่ฉันพยายามใช้วิธีการเข้าร่วมซึ่งฉันเชื่อว่ามันคล้ายกันมาก left.join(right, on=['key1', 'key2']) และฉันได้รับสิ่งนี้: //anaconda/lib/python2.7/site-packages/pandas/tools/merge.pyc in _validate_specification(self) 406 if self.right_index: …
208 python  pandas  dataframe  join 

7
นุ่นกลุ่มและผลรวม
ฉันใช้เฟรมข้อมูลนี้: Fruit Date Name Number Apples 10/6/2016 Bob 7 Apples 10/6/2016 Bob 8 Apples 10/6/2016 Mike 9 Apples 10/7/2016 Steve 10 Apples 10/7/2016 Bob 1 Oranges 10/7/2016 Bob 2 Oranges 10/6/2016 Tom 15 Oranges 10/6/2016 Mike 57 Oranges 10/6/2016 Bob 65 Oranges 10/7/2016 Tony 1 Grapes 10/7/2016 Bob 1 Grapes …

9
เก็บเฉพาะส่วนวันที่เมื่อใช้ pandas.to_datetime
ฉันใช้pandas.to_datetimeเพื่อแยกวิเคราะห์วันที่ในข้อมูลของฉัน หมีแพนด้าโดยค่าเริ่มต้นจะแสดงวันที่ด้วยdatetime64[ns]แม้ว่าวันที่จะเป็นทุกวันเท่านั้น ฉันสงสัยว่ามีวิธีที่สง่างาม / ฉลาดในการแปลงวันที่ไปdatetime.dateหรือdatetime64[D]เพื่อให้เมื่อฉันเขียนข้อมูลไปยัง CSV 00:00:00วันที่ไม่ได้รับการผนวกเข้ากับ ฉันรู้ว่าฉันสามารถแปลงประเภทองค์ประกอบด้วยตนเองโดยองค์ประกอบ: [dt.to_datetime().date() for dt in df.dates] pandas.to_datetimeแต่นี้เป็นช้าจริงๆเพราะผมมีหลายแถวและการเรียงลำดับของความปราชัยวัตถุประสงค์ของการใช้ มีวิธีการแปลงdtypeคอลัมน์ทั้งหมดในครั้งเดียวหรือไม่? หรือมิฉะนั้นpandas.to_datetimeสนับสนุนข้อกำหนดความแม่นยำเพื่อให้ฉันสามารถกำจัดส่วนเวลาในขณะที่ทำงานกับข้อมูลรายวัน?
206 python  pandas  csv  datetime  series 

20
แบ่งสตริงสตริง (explode) pandas dataframe เป็นแถวแยก
ฉันมีpandas dataframeสตริงข้อความหนึ่งคอลัมน์ที่มีค่าที่คั่นด้วยเครื่องหมายจุลภาค ฉันต้องการแยกแต่ละฟิลด์ CSV และสร้างแถวใหม่ต่อรายการ (สมมติว่า CSV สะอาดและต้องการแบ่งเพียง ',') ตัวอย่างเช่นaควรเป็นb: In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 จนถึงตอนนี้ฉันได้ลองใช้ฟังก์ชั่นง่าย ๆ หลายอย่าง แต่.applyวิธีการดูเหมือนจะยอมรับเพียงหนึ่งแถวเป็นค่าตอบแทนเมื่อมันถูกใช้กับแกนและฉันไม่สามารถ.transformทำงานได้ …

17
ตรวจจับและแยกค่าผิดปกติในกรอบข้อมูล Pandas
ฉันมีกรอบข้อมูลแพนด้ากับคอลัมน์ไม่กี่ ตอนนี้ฉันรู้แล้วว่าแถวบางเส้นเป็นค่าผิดปกติซึ่งขึ้นอยู่กับค่าคอลัมน์ที่แน่นอน ตัวอย่างเช่น คอลัมน์ 'Vol' มีค่าทั้งหมดโดยรอบ12xxและหนึ่งค่าคือ4000(ค่าที่มากกว่า) ตอนนี้ฉันต้องการยกเว้นแถวเหล่านั้นที่มีVolคอลัมน์แบบนี้ โดยพื้นฐานแล้วฉันต้องใส่ตัวกรองลงในกรอบข้อมูลเพื่อให้เราเลือกแถวทั้งหมดที่ค่าของคอลัมน์หนึ่งอยู่ภายในกล่าวคือค่าเบี่ยงเบนมาตรฐาน 3 ค่าจากค่าเฉลี่ย อะไรคือวิธีที่สวยงามในการบรรลุเป้าหมายนี้?

8
เลือก DataFrame แถวระหว่างวันที่สองวัน
ฉันกำลังสร้าง DataFrame จาก csv ดังต่อไปนี้: stock = pd.read_csv('data_in/' + filename + '.csv', skipinitialspace=True) DataFrame มีคอลัมน์วันที่ มีวิธีการสร้าง DataFrame ใหม่ (หรือเพียงแค่เขียนทับที่มีอยู่เดิม) ซึ่งประกอบด้วยแถวที่มีค่าวันที่ที่อยู่ในช่วงวันที่ที่ระบุหรือระหว่างค่าวันที่ที่ระบุสองค่าหรือไม่
198 python  pandas 

11
จะแบ่งคอลัมน์ออกเป็นสองคอลัมน์ได้อย่างไร?
ฉันมีกรอบข้อมูลที่มีหนึ่งคอลัมน์และฉันต้องการแยกออกเป็นสองคอลัมน์โดยมีส่วนหัวคอลัมน์หนึ่งเป็น ' fips'และอีกคอลัมน์หนึ่ง'row' dataframe ของฉันdfมีลักษณะเช่นนี้: row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL ฉันไม่ทราบวิธีใช้df.row.str[:]เพื่อให้บรรลุเป้าหมายในการแบ่งเซลล์แถว ฉันสามารถใช้เพื่อเพิ่มคอลัมน์ใหม่และเติมมันมีdf['fips'] = hello helloความคิดใด ๆ fips row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 …
197 python  dataframe  pandas 

7
เพิ่มป้าย x และ y ลงในพล็อตแพนด้า
สมมติว่าฉันมีรหัสต่อไปนี้ที่พล็อตเรื่องง่าย ๆ โดยใช้นุ่น: import pandas as pd values = [[1, 2], [2, 5]] df2 = pd.DataFrame(values, columns=['Type A', 'Type B'], index=['Index 1', 'Index 2']) df2.plot(lw=2, colormap='jet', marker='.', markersize=10, title='Video streaming dropout by category') ฉันจะตั้งค่า x และ y-label ได้อย่างง่ายดายในขณะที่รักษาความสามารถในการใช้ colormaps ที่เฉพาะเจาะจงได้อย่างไร ฉันสังเกตเห็นว่าplot()wrapper สำหรับ pandas DataFrames ไม่ได้ใช้พารามิเตอร์เฉพาะสำหรับสิ่งนั้น

9
การเปลี่ยนชื่อคอลัมน์เฉพาะใน pandas DataFrame
DataFrameผมกำลังมองหาวิธีที่สง่างามที่จะเปลี่ยนชื่อคอลัมน์ที่ระบุใน เล่นข้อมูล ... import pandas as pd d = { 'one': [1, 2, 3, 4, 5], 'two': [9, 8, 7, 6, 5], 'three': ['a', 'b', 'c', 'd', 'e'] } df = pd.DataFrame(d) ทางออกที่ดีที่สุดที่ฉันได้พบ ... names = df.columns.tolist() names[names.index('two')] = 'new_name' df.columns = names ฉันหวังว่าจะเป็นหนึ่งซับง่าย ... ความพยายามนี้ล้มเหลว ... df.columns[df.columns.tolist().index('one')] = 'another_name' …
195 python  pandas 

3
Pandas กับ NumPy + SciPy ใน Python แตกต่างกันอย่างไร [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ปรับปรุงคำถามนี้ พวกเขาทั้งคู่ดูคล้ายกันมากและฉันอยากรู้ว่าแพคเกจใดจะเป็นประโยชน์สำหรับการวิเคราะห์ข้อมูลทางการเงินมากกว่า
195 python  numpy  scipy  pandas 

15
ฉันจะอ่านไฟล์ csv ขนาดใหญ่ที่มีนุ่นได้อย่างไร
ฉันพยายามอ่านไฟล์ csv ขนาดใหญ่ (aprox. 6 GB) ในนุ่นและฉันได้รับข้อผิดพลาดของหน่วยความจำ: MemoryError Traceback (most recent call last) <ipython-input-58-67a72687871b> in <module>() ----> 1 data=pd.read_csv('aphro.csv',sep=';') ... MemoryError: ความช่วยเหลือเกี่ยวกับเรื่องนี้?
194 python  pandas  csv  memory  chunks 

10
pandas สามทางเข้าร่วมหลาย dataframes ในคอลัมน์
ฉันมีไฟล์ CSV 3 ไฟล์ แต่ละคนมีคอลัมน์แรกเป็นชื่อ (สตริง) ของคนในขณะที่คอลัมน์อื่น ๆ ทั้งหมดในแต่ละ dataframe เป็นคุณลักษณะของบุคคลนั้น ฉันจะ "เข้าร่วม" ร่วมกันทั้งสามเอกสาร CSV เพื่อสร้าง CSV เดียวกับแต่ละแถวที่มีแอตทริบิวต์ทั้งหมดสำหรับแต่ละค่าที่ไม่ซ้ำกันของชื่อสตริงของบุคคลได้อย่างไร join()ฟังก์ชั่นในหมีแพนด้าระบุว่าฉันต้อง multiindex แต่ฉันสับสนเกี่ยวกับสิ่งที่เป็นโครงการที่จัดทำดัชนีลำดับชั้นจะทำอย่างไรกับการทำเข้าร่วมอยู่บนพื้นฐานของดัชนีเดียว
191 python  pandas  join  merge 

4
Python python กรองน่านจากการเลือกข้อมูลของคอลัมน์ของสตริง
โดยไม่ใช้groupbyฉันจะกรองข้อมูลโดยไม่ได้NaNอย่างไร สมมติว่าฉันมีเมทริกซ์ที่ลูกค้าจะเติมใน 'N / A', 'n / a' หรือรูปแบบใด ๆ ของมันและอื่น ๆ ปล่อยให้มันว่างเปล่า: import pandas as pd import numpy as np df = pd.DataFrame({'movie': ['thg', 'thg', 'mol', 'mol', 'lob', 'lob'], 'rating': [3., 4., 5., np.nan, np.nan, np.nan], 'name': ['John', np.nan, 'N/A', 'Graham', np.nan, np.nan]}) nbs = df['name'].str.extract('^(N/A|NA|na|n/a)') nms=df[(df['name'] != nbs) …
190 python  pandas  dataframe 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.