คำถามติดแท็ก dataframe

กรอบข้อมูลเป็นโครงสร้างข้อมูลแบบตาราง โดยทั่วไปจะมีข้อมูลที่แถวคือการสังเกตและคอลัมน์เป็นตัวแปรประเภทต่างๆ ในขณะที่ "data frame" หรือ "dataframe" เป็นคำที่ใช้สำหรับแนวคิดนี้ในหลายภาษา (R, Apache Spark, deedle, Maple, pandas library ใน Python และ DataFrames library ใน Julia) "table" เป็นคำที่ใช้ใน MATLAB และ SQL

6
การเปลี่ยนชื่อคอลัมน์ของ DataFrame ใน Spark Scala
ฉันกำลังพยายามแปลงชื่อส่วนหัว / คอลัมน์ทั้งหมดของDataFrameใน Spark-Scala ณ ตอนนี้ฉันมาพร้อมกับรหัสต่อไปนี้ซึ่งแทนที่ชื่อคอลัมน์เดียวเท่านั้น for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

6
ความคลุมเครือในนิยาม "แกน" ของ Pandas Dataframe / Numpy Array
ฉันสับสนมากเกี่ยวกับวิธีกำหนดแกน python และอ้างถึงแถวหรือคอลัมน์ของ DataFrame หรือไม่ พิจารณารหัสด้านล่าง: >>> df = pd.DataFrame([[1, 1, 1, 1], [2, 2, 2, 2], [3, 3, 3, 3]], columns=["col1", "col2", "col3", "col4"]) >>> df col1 col2 col3 col4 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 ดังนั้นถ้าเราเรียกdf.mean(axis=1)เราจะได้ค่าเฉลี่ยในแถว: >>> df.mean(axis=1) 0 …

11
การแยก dataframe เป็นหลาย ๆ dataframes
ฉันมีดาต้าเฟรมขนาดใหญ่มาก (ประมาณ 1 ล้านแถว) พร้อมข้อมูลจากการทดสอบ (ผู้ตอบ 60 คน) ฉันต้องการแบ่ง dataframe ออกเป็น 60 dataframes (dataframe สำหรับผู้เข้าร่วมแต่ละคน) ในดาต้าเฟรมdataมีตัวแปรที่เรียกว่า'name'ซึ่งเป็นรหัสเฉพาะสำหรับผู้เข้าร่วมแต่ละคน ฉันได้ลองทำสิ่งต่อไปนี้แล้ว แต่ไม่มีอะไรเกิดขึ้น (หรือการดำเนินการไม่หยุดภายในหนึ่งชั่วโมง) สิ่งที่ฉันตั้งใจจะทำคือการแบ่งออกdataเป็นดาต้าเฟรมที่เล็กลงและต่อท้ายรายการ ( datalist): import pandas as pd def splitframe(data, name='name'): n = data[name][0] df = pd.DataFrame(columns=data.columns) datalist = [] for i in range(len(data)): if data[name][i] == n: df = df.append(data.iloc[i]) else: …

6
แปลงชุดหมีแพนด้าเป็น DataFrame
ฉันมีซีรีส์ Pandas sf: email email1@email.com [1.0, 0.0, 0.0] email2@email.com [2.0, 0.0, 0.0] email3@email.com [1.0, 0.0, 0.0] email4@email.com [4.0, 0.0, 0.0] email5@email.com [1.0, 0.0, 3.0] email6@email.com [1.0, 5.0, 0.0] และฉันต้องการแปลงเป็น DataFrame ต่อไปนี้: index | email | list _____________________________________________ 0 | email1@email.com | [1.0, 0.0, 0.0] 1 | email2@email.com | [2.0, 0.0, …

6
เลือกจากแพนด้าหลายดัชนี
ฉันมีกรอบข้อมูลแบบหลายดัชนีที่มีคอลัมน์ 'A' และ 'B' มีวิธีเลือกแถวโดยการกรองในคอลัมน์เดียวของดัชนีหลายดัชนีโดยไม่ต้องรีเซ็ตดัชนีเป็นดัชนีคอลัมน์เดียวหรือไม่? ตัวอย่างเช่น. # has multi-index (A,B) df #can I do this? I know this doesn't work because the index is multi-index so I need to specify a tuple df.ix[df.A ==1]

7
การแทนที่ค่าสองสามค่าในคอลัมน์ดาต้าเฟรมของแพนด้าด้วยค่าอื่น
ฉันมี dataframe หมีแพนด้าตามภาพประกอบด้านล่าง: BrandName Specialty A H B I ABC J D K AB L ฉันต้องการแทนที่ 'ABC' และ 'AB' ในคอลัมน์ BrandName โดย A. มีใครช่วยได้ไหม

5
วิธีการแบ่งคอลัมน์ของทูเปิลในดาต้าเฟรมแพนด้า
ฉันมีดาต้าเฟรมแพนด้า (นี่เป็นเพียงชิ้นส่วนเล็ก ๆ น้อย ๆ ) >>> d1 y norm test y norm train len(y_train) len(y_test) \ 0 64.904368 116.151232 1645 549 1 70.852681 112.639876 1645 549 SVR RBF \ 0 (35.652207342877873, 22.95533537448393) 1 (39.563683797747622, 27.382483096332511) LCV \ 0 (19.365430594452338, 13.880062435173587) 1 (19.099614489458364, 14.018867136617146) RIDGE CV \ 0 (4.2907610988480362, 12.416745648065584) …

5
สร้าง DataFrame แพนด้าจากรายการในพจนานุกรมที่ซ้อนกัน
สมมติว่าฉันมีพจนานุกรม 'user_dict' ที่ซ้อนกันพร้อมโครงสร้าง: ระดับ 1: UserId (จำนวนเต็มยาว) ระดับ 2:หมวดหมู่ (สตริง) ระดับ 3:แอตทริบิวต์สารพัน (ลอย ints ฯลฯ .. ) ตัวอย่างเช่นรายการของพจนานุกรมนี้จะเป็น: user_dict[12] = { "Category 1": {"att_1": 1, "att_2": "whatever"}, "Category 2": {"att_1": 23, "att_2": "another"}} แต่ละรายการในuser_dictมีโครงสร้างที่เหมือนกันและuser_dictมีรายการจำนวนมากที่ฉันต้องการป้อนให้กับ DataFrame แพนด้าโดยสร้างชุดจากแอตทริบิวต์ ในกรณีนี้ดัชนีลำดับชั้นจะเป็นประโยชน์สำหรับวัตถุประสงค์ โดยเฉพาะอย่างยิ่งคำถามของฉันคือมีวิธีที่จะช่วยให้ตัวสร้าง DataFrame เข้าใจหรือไม่ว่าชุดข้อมูลควรสร้างจากค่าของ "ระดับ 3" ในพจนานุกรม ถ้าฉันลองทำสิ่งที่ชอบ: df = pandas.DataFrame(users_summary) รายการใน "ระดับ 1" …

5
เลื่อนคอลัมน์ในดาต้าเฟรมของแพนด้าขึ้นทีละคอลัมน์?
ฉันมีดาต้าเฟรมแพนด้า ฉันต้องการ 'ล่าช้า' หนึ่งในคอลัมน์ของฉัน ความหมายตัวอย่างเช่นการเลื่อนทั้งคอลัมน์ 'gdp' ขึ้นทีละคอลัมน์จากนั้นลบข้อมูลส่วนเกินทั้งหมดที่ด้านล่างของแถวที่เหลือเพื่อให้คอลัมน์ทั้งหมดมีความยาวเท่ากันอีกครั้ง df = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4 7 4 6 7 7 df_lag = y gdp cap 0 1 3 5 1 2 7 9 2 8 4 2 3 …

5
Spark DataFrame group โดยและเรียงลำดับจากมากไปหาน้อย (pyspark)
ฉันใช้ pyspark (Python 2.7.9 / Spark 1.3.1) และมี dataframe GroupObject ซึ่งฉันต้องการกรองและเรียงลำดับจากมากไปหาน้อย พยายามที่จะบรรลุผ่านโค้ดชิ้นนี้ group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) แต่มันแสดงข้อผิดพลาดต่อไปนี้ sort() got an unexpected keyword argument 'ascending'

13
การเปรียบเทียบสองดาต้าเฟรมและรับความแตกต่าง
ฉันมีสองดาต้าเฟรม ตัวอย่าง: df1: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green df2: Date Fruit Num Color 2013-11-24 Banana 22.1 Yellow 2013-11-24 Orange 8.6 Orange 2013-11-24 Apple 7.6 Green 2013-11-24 Celery 10.2 Green 2013-11-25 Apple 22.1 Red 2013-11-25 Orange …

17
เพิ่ม (แทรก) คอลัมน์ระหว่างสองคอลัมน์ใน data.frame
ฉันมีกรอบข้อมูลที่มีคอลัมน์ a, b และ c ฉันต้องการเพิ่มคอลัมน์ใหม่ d ระหว่าง b และ c ฉันรู้ว่าฉันสามารถเพิ่ม d ต่อท้ายโดยใช้cbindแต่ฉันจะแทรกระหว่างสองคอลัมน์ได้อย่างไร
89 r  dataframe  insert 

6
จะเพิ่มคำต่อท้าย (หรือคำนำหน้า) ให้กับชื่อคอลัมน์แต่ละคอลัมน์ได้อย่างไร?
ฉันต้องการเพิ่ม_xคำต่อท้ายให้กับชื่อคอลัมน์แต่ละคอลัมน์ดังนี้: featuresA = myPandasDataFrame.columns.values + '_x' ฉันต้องทำอย่างไร นอกจากนี้หากฉันต้องการเพิ่มx_เป็นคำต่อท้ายวิธีแก้ไขจะเปลี่ยนไปอย่างไร

1
ใช้ฟังก์ชันกับแต่ละเซลล์ใน DataFrame
ฉันมี dataframe ที่อาจมีลักษณะดังนี้: A B C foo bar foo bar bar foo foo bar ฉันต้องการดูทุกองค์ประกอบของแต่ละแถว (หรือทุกองค์ประกอบของแต่ละคอลัมน์) และใช้ฟังก์ชันต่อไปนี้เพื่อรับ DF ที่ตามมา: def foo_bar(x): return x.replace('foo', 'wow') A B C wow bar wow bar bar wow wow bar มีหนึ่งซับง่ายๆที่สามารถใช้ฟังก์ชันกับแต่ละเซลล์ได้หรือไม่? นี่เป็นตัวอย่างที่เรียบง่ายดังนั้นอาจมีวิธีที่ง่ายกว่าในการดำเนินการตัวอย่างนี้นอกเหนือจากการใช้ฟังก์ชัน แต่สิ่งที่ฉันถามจริงๆคือวิธีการใช้ฟังก์ชันในทุกเซลล์ภายในดาต้าเฟรม

3
แบ่งดาต้าเฟรมขนาดใหญ่เป็นรายการของเฟรมข้อมูลตามค่าทั่วไปในคอลัมน์
ฉันมีกรอบข้อมูลที่มี 10 คอลัมน์ซึ่งรวบรวมการกระทำของ "ผู้ใช้" โดยที่คอลัมน์ใดคอลัมน์หนึ่งมี ID (ไม่ใช่เฉพาะระบุผู้ใช้) (คอลัมน์ 10) ความยาวของกรอบข้อมูลประมาณ 750000 แถว ฉันกำลังพยายามแยกเฟรมข้อมูลแต่ละรายการ (ดังนั้นการรับรายการหรือเวกเตอร์ของเฟรมข้อมูล) แยกตามคอลัมน์ที่มีตัวระบุ "ผู้ใช้" เพื่อแยกการกระทำของนักแสดงคนเดียว ID | Data1 | Data2 | ... | UserID 1 | aaa | bbb | ... | u_001 2 | aab | bb2 | ... | u_001 3 | aac | bb3 | …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.