การเขียนโปรแกรม pandas

4

พิจารณา dataframe ต่อไปนี้: A B C D 0 foo one 0.162003 0.087469 1 bar one -1.156319 -1.526272 2 foo two 0.833892 -1.666304 3 bar three -2.026673 -0.322057 4 foo two 0.411452 -0.954371 5 bar two 0.765878 -0.095968 6 foo one -0.654890 0.678091 7 foo three -1.789842 -1.130922 คำสั่งต่อไปนี้ใช้งานได้: > df.groupby('A').apply(lambda …

174 python pandas

10

วิธีบันทึกพล็อตของ Seaborn ลงในไฟล์

ฉันลองรหัสต่อไปนี้ ( test_seaborn.py): import matplotlib matplotlib.use('Agg') import matplotlib.pyplot as plt matplotlib.style.use('ggplot') import seaborn as sns sns.set() df = sns.load_dataset('iris') sns_plot = sns.pairplot(df, hue='species', size=2.5) fig = sns_plot.get_figure() fig.savefig("output.png") #sns.plt.show() แต่ฉันได้รับข้อผิดพลาดนี้: Traceback (most recent call last): File "test_searborn.py", line 11, in <module> fig = sns_plot.get_figure() AttributeError: 'PairGrid' object has no attribute …

172 python pandas matplotlib seaborn

5

นุ่น loc กับ vs. ioc เทียบกับ ix เทียบกับกับ iat?

เมื่อเร็ว ๆ นี้เริ่มแยกออกจากสถานที่ที่ปลอดภัยของฉัน (R) เป็น python และและ am บิตสับสนโดยเซลล์แปล / Pandasเลือกใน ฉันได้อ่านเอกสารแล้ว แต่ฉันพยายามดิ้นรนที่จะเข้าใจถึงผลกระทบที่เกิดขึ้นจริงของตัวเลือกการโลคัลไลเซชั่น / ตัวเลือกต่างๆ มีเหตุผลที่ฉันควรใช้.locหรือ.ilocมากกว่าตัวเลือกทั่วไปมากที่สุด.ixหรือไม่? ผมเข้าใจว่า.loc, iloc, atและiatอาจให้บางส่วนถูกต้องรับประกันได้ว่า.ixไม่สามารถให้ แต่ฉันยังอ่านที่.ixมีแนวโน้มที่จะเป็นทางออกที่เร็วที่สุดทั่วกระดาน โปรดอธิบายเหตุผลการปฏิบัติที่ดีที่สุดในโลกแห่งความเป็นจริงและการใช้ประโยชน์อย่างอื่นนอกเหนือจากนี้.ixหรือไม่?

171 python pandas performance indexing lookup

8

วิธีการพิมพ์ DataFrame นุ่นโดยไม่มีดัชนี

ฉันต้องการพิมพ์ดาต้าเฟรมทั้งหมด แต่ไม่ต้องการพิมพ์ดัชนี นอกจากนี้หนึ่งคอลัมน์คือประเภทวันที่และเวลาฉันต้องการพิมพ์เวลาไม่ใช่วันที่ ชื่อไฟล์ดูเหมือนว่า: User ID Enter Time Activity Number 0 123 2014-07-08 00:09:00 1411 1 123 2014-07-08 00:18:00 893 2 123 2014-07-08 00:49:00 1041 ฉันต้องการพิมพ์เป็น User ID Enter Time Activity Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

170 python datetime pandas dataframe

7

วิธีกรองแถวในแพนด้าโดย regex

ฉันต้องการกรองดาต้าเฟรมอย่างละเอียดโดยใช้ regex ในหนึ่งในคอลัมน์ สำหรับตัวอย่างที่วางแผนไว้: In [210]: foo = pd.DataFrame({'a' : [1,2,3,4], 'b' : ['hi', 'foo', 'fat', 'cat']}) In [211]: foo Out[211]: a b 0 1 hi 1 2 foo 2 3 fat 3 4 cat ฉันต้องการกรองแถวเป็นแถวที่ขึ้นต้นด้วยการfใช้ regex ไปก่อน: In [213]: foo.b.str.match('f.*') Out[213]: 0 [] 1 () 2 () 3 [] …

169 python regex pandas

3

pandas: ผสาน (เข้าร่วม) สองเฟรมข้อมูลในหลายคอลัมน์

ฉันพยายามเข้าร่วมสองเฟรมข้อมูลแพนด้าโดยใช้สองคอลัมน์: new_df = pd.merge(A_df, B_df, how='left', left_on='[A_c1,c2]', right_on = '[B_c1,c2]') แต่ได้รับข้อผิดพลาดต่อไปนี้: pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4164)() pandas/index.pyx in pandas.index.IndexEngine.get_loc (pandas/index.c:4028)() pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13166)() pandas/src/hashtable_class_helper.pxi in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13120)() KeyError: '[B_1, c2]' ความคิดใดที่ควรเป็นวิธีที่ถูกต้องในการทำเช่นนี้? ขอบคุณ!

169 python python-3.x pandas join

5

อะไรคือความแตกต่างระหว่างซีรีย์แพนด้าและ DataFrame คอลัมน์เดี่ยว

ทำไมนุ่นถึงทำให้ความแตกต่างระหว่างSeriesและคอลัมน์เดียวDataFrame? กล่าวอีกนัยหนึ่ง: อะไรคือเหตุผลของการดำรงอยู่ของSeriesชั้นเรียน? ฉันใช้อนุกรมเวลากับดัชนีวันที่และเวลาเป็นหลักซึ่งอาจช่วยในการกำหนดบริบท

168 python pandas

7

แปลง Panda DataFrame เป็นพจนานุกรม

ฉันมี DataFrame สี่คอลัมน์ ฉันต้องการแปลง DataFrame นี้เป็นพจนานุกรมหลาม ฉันต้องการองค์ประกอบของคอลัมน์แรกจะเป็นkeysและองค์ประกอบของคอลัมน์อื่น ๆ ในปี valuesพ.ศ. DataFrame: ID A B C 0 p 1 3 2 1 q 4 3 2 2 r 4 0 9 ผลลัพธ์ควรเป็นดังนี้: พจนานุกรม: {'p': [1,3,2], 'q': [4,3,2], 'r': [4,0,9]}

168 python pandas dictionary dataframe

7

ใช้ Pandas เพื่อ pd.read_excel () สำหรับหลายแผ่นงานของสมุดงานเดียวกัน

ฉันมีไฟล์สเปรดชีตขนาดใหญ่ (.xlsx) ที่ฉันกำลังประมวลผลโดยใช้ python python มันเกิดขึ้นที่ฉันต้องการข้อมูลจากสองแท็บในไฟล์ขนาดใหญ่นั้น หนึ่งในแท็บมีข้อมูลมากมายและอีกแท็บหนึ่งมีเพียงไม่กี่ตารางเซลล์ เมื่อฉันใช้pd.read_excel ()บนแผ่นงานใด ๆฉันรู้สึกว่าไฟล์ทั้งหมดถูกโหลด (ไม่ใช่แค่แผ่นงานที่ฉันสนใจ) ดังนั้นเมื่อฉันใช้วิธีสองครั้ง (หนึ่งครั้งสำหรับแต่ละแผ่นงาน) ฉันต้องประสบกับเวิร์กบุ๊กทั้งเล่มที่อ่านเป็นสองเท่า (แม้ว่าเราจะใช้แผ่นงานที่ระบุเท่านั้น) ฉันใช้มันผิดหรือถูก จำกัด ด้วยวิธีนี้หรือไม่? ขอบคุณ!

167 python excel pandas dataframe

6

Pandas DataFrame Group โดยสองคอลัมน์และรับการนับ

ฉันมี dataframe นุ่นในรูปแบบต่อไปนี้: df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.columns = ['col1','col2','col3','col4','col5'] DF: col1 col2 col3 col4 col5 0 1.1 A 1.1 x/y/z 1 1 1.1 A 1.7 x/y 3 2 1.1 A 2.5 x/y/z/n 3 3 2.6 B 2.6 …

166 python pandas dataframe

4

วิธีการเพิ่มแถวส่วนหัวเพื่อหมีแพนด้า DataFrame

ฉันกำลังอ่านไฟล์ CSV pandasเข้า ไฟล์ csv นี้ยังคงอยู่ในสี่คอลัมน์และบางแถว แต่ไม่มีแถวส่วนหัวซึ่งฉันต้องการเพิ่ม ฉันได้ลองทำสิ่งต่อไปนี้: Cov = pd.read_csv("path/to/file.txt", sep='\t') Frame=pd.DataFrame([Cov], columns = ["Sequence", "Start", "End", "Coverage"]) Frame.to_csv("path/to/file.txt", sep='\t') แต่เมื่อฉันใช้รหัสฉันได้รับข้อผิดพลาดต่อไปนี้: ValueError: Shape of passed values is (1, 1), indices imply (4, 1) ข้อผิดพลาดหมายถึงอะไร และอะไรจะเป็นวิธีที่สะอาดในหลามเพื่อเพิ่มแถวส่วนหัวในไฟล์ csv ของฉัน / pandas df?

166 python csv pandas header

7

วิธีการแสดง DataFrame ของแพนด้าลอยโดยใช้สตริงรูปแบบสำหรับคอลัมน์?

ผมอยากจะแสดง dataframe หมีแพนด้าที่มีรูปแบบที่กำหนดโดยใช้print()และ display()IPython ตัวอย่างเช่น: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux 456.7890 ฉันต้องการบีบบังคับสิ่งนี้ในการพิมพ์ cost foo $123.46 bar $234.57 baz $345.68 quux $456.79 โดยไม่ต้องแก้ไขข้อมูลเองหรือสร้างสำเนาเพียงแค่เปลี่ยนวิธีการแสดงข้อมูล ฉันจะทำสิ่งนี้ได้อย่างไร

166 python python-2.7 pandas ipython dataframe

5

pandas groupby เรียงลำดับภายในกลุ่ม

ฉันต้องการจัดกลุ่ม dataframe ของฉันด้วยสองคอลัมน์จากนั้นเรียงลำดับผลลัพธ์รวมภายในกลุ่ม In [167]: df Out[167]: count job source 0 2 sales A 1 4 sales B 2 6 sales C 3 3 sales D 4 7 sales E 5 5 market A 6 3 market B 7 2 market C 8 4 market D 9 1 market E …

166 python sorting pandas group-by

7

นุ่น: ค้นหารายการชีตในไฟล์ excel

Pandas เวอร์ชันใหม่ใช้อินเทอร์เฟซต่อไปนี้เพื่อโหลดไฟล์ Excel: read_excel('path_to_file.xls', 'Sheet1', index_col=None, na_values=['NA']) แต่ถ้าฉันไม่รู้ว่ามีแผ่นงานอยู่ล่ะ? ตัวอย่างเช่นฉันกำลังทำงานกับไฟล์ excel ที่ชีตต่อไปนี้ ข้อมูล 1, ข้อมูล 2 ... , ข้อมูล N, foo, บาร์ แต่ฉันไม่รู้จักNเบื้องต้น มีวิธีใดบ้างในการรับรายการชีตจากเอกสาร excel ใน Pandas

166 python excel pandas openpyxl xlrd

12

การแยกพจนานุกรม / รายการภายในคอลัมน์แพนด้าเป็นคอลัมน์แยก

ฉันมีข้อมูลที่บันทึกไว้ในpostgreSQLฐานข้อมูล ฉันกำลังค้นหาข้อมูลนี้โดยใช้ Python2.7 และเปลี่ยนเป็น Pandas DataFrame อย่างไรก็ตามคอลัมน์สุดท้ายของดาต้าเฟรมนี้มีพจนานุกรม (หรือรายการ?) ของค่าอยู่ภายใน DataFrame มีลักษณะดังนี้: [1] df Station ID Pollutants 8809 {"a": "46", "b": "3", "c": "12"} 8810 {"a": "36", "b": "5", "c": "8"} 8811 {"b": "2", "c": "7"} 8812 {"c": "11"} 8813 {"a": "82", "c": "15"} ฉันต้องการแยกคอลัมน์นี้ออกเป็นคอลัมน์แยกกันเพื่อให้ DataFrame มีลักษณะดังนี้: [2] df2 Station ID …

166 python pandas dictionary dataframe

คำถามติดแท็ก pandas