คำถามติดแท็ก dataframe

กรอบข้อมูลเป็นโครงสร้างข้อมูลแบบตาราง โดยทั่วไปจะมีข้อมูลที่แถวคือการสังเกตและคอลัมน์เป็นตัวแปรประเภทต่างๆ ในขณะที่ "data frame" หรือ "dataframe" เป็นคำที่ใช้สำหรับแนวคิดนี้ในหลายภาษา (R, Apache Spark, deedle, Maple, pandas library ใน Python และ DataFrames library ใน Julia) "table" เป็นคำที่ใช้ใน MATLAB และ SQL

5
แปลง Nameed Character Vector เป็น data.frame
ฉันมีเวกเตอร์อักขระที่มีชื่อที่ส่งคืนจาก xmlAttrs ดังนี้: testVect <- structure(c("11.2.0.3.0", "12.89", "12.71"), .Names = c("db_version", "elapsed_time", "cpu_time")) ฉันต้องการแปลงเป็น data frame ที่มีลักษณะดังนี้: testDF <- data.frame("db_version"="11.2.0.3.0","elapsed_time"=12.89,"cpu_time"=12.71) head(testDF) db_version elapsed_time cpu_time 1 11.2.0.3.0 12.89 12.71

7
เลือกแถวแรกตามกลุ่ม
จากดาต้าเฟรมเช่นนี้ test <- data.frame('id'= rep(1:5,2), 'string'= LETTERS[1:10]) test <- test[order(test$id), ] rownames(test) <- 1:10 > test id string 1 1 A 2 1 F 3 2 B 4 2 G 5 3 C 6 3 H 7 4 D 8 4 I 9 5 E 10 5 J ฉันต้องการสร้างใหม่โดยมีแถวแรกของแต่ละคู่ id …
87 r  dataframe  sqldf 

2
การกำหนดดัชนีใหม่ในออบเจ็กต์ Pandas DataFrame
ฉันกำลังพยายามจัดทำดัชนีDataFrameวัตถุแพนด้าอีกครั้งเช่นนี้ From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 ฉันกำลังพูดถึงเรื่องนี้ดังที่แสดงด้านล่างและได้รับคำตอบที่ผิด มีเบาะแสในการทำเช่นนี้หรือไม่? >>> col = ['a','b','c'] >>> data = DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col) >>> data a b c 0 1 2 3 1 …

7
เพิ่มคอลัมน์ใหม่ไปยัง dataframe ตามพจนานุกรม
ฉันมีชื่อไฟล์และพจนานุกรม ฉันต้องการเพิ่มคอลัมน์ใหม่ไปยัง dataframe และคำนวณค่าตามพจนานุกรม การเรียนรู้ของเครื่องเพิ่มคุณสมบัติใหม่ตามตารางบางส่วน: score = {(1, 45, 1, 1) : 4, (0, 1, 2, 1) : 5} df = pd.DataFrame(data = { 'gender' : [1, 1, 0, 1, 1, 0, 0, 0, 1, 0], 'age' : [13, 45, 1, 45, 15, 16, 16, 16, 15, 15], 'cholesterol' : …

5
ยกเลิกการนับและส่งคืนค่านับสำหรับแต่ละตัวแปรหรือไม่
ฉันมีกรอบข้อมูลที่บันทึกการตอบสนองการเลือกภาษาของคนจำนวน 19717 โปรแกรมผ่านคำถามแบบปรนัย แน่นอนว่าคอลัมน์แรกนั้นเป็นเพศของผู้ตอบขณะที่ส่วนที่เหลือเป็นตัวเลือกที่พวกเขาเลือก และด้วยเหตุนี้ถ้าฉันเลือก Python การตอบสนองของฉันจะถูกบันทึกในคอลัมน์ Python ไม่ใช่การทุบตีและในทางกลับกัน ID Gender Python Bash R JavaScript C++ 0 Male Python nan nan JavaScript nan 1 Female nan nan R JavaScript C++ 2 Prefer not to say Python Bash nan nan nan 3 Male nan nan nan nan nan สิ่งที่ฉันต้องการคือตารางที่ส่งคืนจำนวนอินสแตนซ์แต่ละหมวดหมู่ภายใต้Genderระเบียน ดังนั้นหากผู้ชาย 5,000 …

4
การเปรียบเทียบรายการในสองคอลัมน์แถวอย่างชาญฉลาด
เมื่อมี Panda DataFrame เช่นนี้: import pandas as pd import numpy as np df = pd.DataFrame({'today': [['a', 'b', 'c'], ['a', 'b'], ['b']], 'yesterday': [['a', 'b'], ['a'], ['a']]}) today yesterday 0 ['a', 'b', 'c'] ['a', 'b'] 1 ['a', 'b'] ['a'] 2 ['b'] ['a'] ... etc แต่มีประมาณ 100,000 รายการฉันกำลังมองหาการเพิ่มและการลบของรายการเหล่านั้นในสองคอลัมน์ในแถวที่ชาญฉลาด มันเปรียบได้กับคำถามนี้: Pandas: วิธีเปรียบเทียบคอลัมน์ของรายการ Row-wise …

3
รับระยะทางที่ใกล้ที่สุดกับ geodataframe สองตัวในนุ่น
นี่คือโครงสร้างทางภูมิศาสตร์ครั้งแรกของฉัน: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) City1 City Country Latitude Longitude …

4
คำนวณอัตราร้อยละของค่าที่คล้ายกันในดาต้าดาต้าแพนด้า
ฉันมีหนึ่งไฟล์ข้อมูลที่dfมีสองคอลัมน์: สคริปต์ (พร้อมข้อความ) และลำโพง Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 และฉันมีรายการต่อไปนี้: L = ['a','b','c'] ด้วยรหัสต่อไปนี้ df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L)) .str.join('|') .str.get_dummies() .sum(level=0)) print (df) ฉันได้รับ dataframe นี้df2: Speaker a b c Speaker 1 2 …

3
เหตุใดการกำหนดด้วย [:] เมื่อเปรียบเทียบกับ iloc [:] ให้ผลลัพธ์ที่แตกต่างกันในรูปของแพนด้า?
ฉันสับสนกับวิธีการจัดทำดัชนีที่แตกต่างกันที่ใช้ilocในแพนด้า สมมติว่าฉันกำลังพยายามแปลงดาต้าเฟรม 1 วันเป็นดาต้าเฟลมแบบ 2 มิติ ก่อนอื่นฉันมี Dataframe 1-d ต่อไปนี้ a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T และฉันจะไปแปลงที่เป็น 2 มิติ Dataframe 2x4กับขนาดของ ฉันเริ่มต้นด้วยการตั้งค่า Dataframe 2 มิติดังต่อไปนี้: b_df = pd.DataFrame(columns=range(4),index=range(2)) จากนั้นฉันใช้ for-loop เพื่อช่วยฉันแปลงa_df(1-d) เป็นb_df(2-d) ด้วยรหัสต่อไปนี้ for i in range(2): b_df.iloc[i,:] = a_df.iloc[0,i*4:(i+1)*4] มันให้ผลลัพธ์ต่อไปนี้กับฉันเท่านั้น 0 1 2 3 0 1 2 3 4 …

3
แพนด้า DataFrame MultiIndex ที่ช้า
ฉันมี DataFrame ของแบบฟอร์มแพนด้า: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 00:51:14+00:00 114430 19 7 …

1
วิธีหมุนกาดาต้าดาต้ารูมประกอบด้วยคอลัมน์พร้อมส่วนและส่วนย่อยใน R
ฉันมีชื่อไฟล์ด้านล่าง: structure( list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7", "P-8"), Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04", "2020-03-16 06:13:55", "2020-03-16 10:03:43", "2020-03-16 12:37:09", "2020-03-16 06:40:24", "2020-03-16 09:46:45", "2020-03-16 12:07:44", "2020-03-16 14:09:51", "2020-03-16 09:19:23"), Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"), Flag …

2
สร้างผลิตภัณฑ์ไบนารีคาร์ทีเซียนที่ถูกกรอง
คำชี้แจงปัญหา ฉันกำลังมองหาวิธีที่มีประสิทธิภาพในการสร้างผลิตภัณฑ์ไบนารีคาร์ทีเซียนเต็มรูปแบบ (ตารางที่มีทั้งชุดของจริงและเท็จพร้อมคอลัมน์จำนวนหนึ่ง) กรองโดยเงื่อนไขพิเศษบางอย่าง ตัวอย่างเช่นสำหรับสามคอลัมน์ / บิตn=3เราจะได้รับตารางเต็ม df_combs = pd.DataFrame(itertools.product(*([[True, False]] * n))) 0 1 2 0 True True True 1 True True False 2 True False True 3 True False False ... สิ่งนี้ควรถูกกรองโดยพจนานุกรมที่กำหนดชุดค่าผสมพิเศษที่ไม่เกิดร่วมกันดังนี้: mutually_excl = [{0: False, 1: False, 2: True}, {0: True, 2: True}] ตำแหน่งที่คีย์แสดงถึงคอลัมน์ในตารางด้านบน ตัวอย่างจะถูกอ่านเป็น: ถ้า 0 …

5
เพิ่ม ID ที่พบในรายการในคอลัมน์ใหม่ใน pandas dataframe
สมมติว่าฉันมี dataframe ต่อไปนี้ (คอลัมน์จำนวนเต็มและคอลัมน์ที่มีรายการจำนวนเต็ม) ... ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] และยังมีรายการ ID แยกต่างหาก ... bad_ids = [15533, 876544, 36789, 11111] ระบุว่าและละเว้นdf['ID']คอลัมน์และดัชนีใด ๆ ฉันต้องการดูว่ามีรหัสใด ๆ ในbad_idsรายการที่กล่าวถึงในdf['Found_IDs']คอลัมน์ รหัสที่ฉันมีคือ: df['bad_id'] = [c in l for c, l in zip(bad_ids, df['Found_IDs'])] …

1
จะปล่อยค่า Null จาก dynamic loop ที่สร้างจาก Python ได้อย่างไร?
ฉันมี data-frame เช่นนี้: ORDER_NO 2401 2504 2600 2020020 2019-12-04 2019-12-10 2019-12-12 2020024 2019-12-25 NaN 2019-12-20 2020034 NaN NaN 2019-12-20 2020020 2019-12-12 2019-12-15 2019-12-18 ฉันกำลังสร้าง XML จากกรอบข้อมูลด้านบน ฉันต้องการลบค่า Null ที่ถูกใส่ใน XML รหัสของฉันควรวางคอลัมน์และค่าแถวนั้นจาก XML รหัสของฉัน header = """<ORD>{}</ORD>""" body =""" <osi:ORDSTSINF types:STSCDE="{}"> <DTM>{}</DTM>""" cols = df.columns for row in df.itertuples(): with open(f'{row[1]}.xml', …

6
ระบุและทำเครื่องหมายแถวที่ซ้ำกันใน r
ฉันต้องการระบุและทำเครื่องหมายแถวที่ซ้ำกันโดยยึดตาม 2 คอลัมน์ ฉันต้องการสร้างตัวระบุที่ไม่ซ้ำกันสำหรับแต่ละรายการที่ซ้ำกันดังนั้นฉันจึงรู้ว่าไม่ใช่ว่าแถวนั้นซ้ำกัน แต่แถวใดที่ซ้ำกัน ฉันมี dataframe ที่มีลักษณะเหมือนด้านล่างพร้อมคู่รายการที่ซ้ำกันบางรายการ (แบบพอดีและแบบนั่ง) และคู่อื่น ๆ ที่ไม่ได้ทำซ้ำ ในขณะที่คู่ไอเท็มมีการทำซ้ำข้อมูลที่มีอยู่จะไม่ซ้ำกัน (เช่นหนึ่งแถวจะมีค่าใน Value1 สำหรับ 1 แถว แต่ไม่ใช่ Value2 และ Value 3 แถวที่สองหรือ 'ซ้ำ' จะมีตัวเลขสำหรับ Value2 และ Value3 เพียง ไม่ใช่ค่า 1) dataframe ปัจจุบัน value1 value2 value3 fit sit [1,] "1" NA NA "it1" "it2" [2,] NA "3" "2" "it2" …
11 r  dataframe 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.