คำถามติดแท็ก dataframe

กรอบข้อมูลเป็นโครงสร้างข้อมูลแบบตาราง โดยทั่วไปจะมีข้อมูลที่แถวคือการสังเกตและคอลัมน์เป็นตัวแปรประเภทต่างๆ ในขณะที่ "data frame" หรือ "dataframe" เป็นคำที่ใช้สำหรับแนวคิดนี้ในหลายภาษา (R, Apache Spark, deedle, Maple, pandas library ใน Python และ DataFrames library ใน Julia) "table" เป็นคำที่ใช้ใน MATLAB และ SQL

9
กรอง data.frame แถวตามเงื่อนไขโลจิคัล
ฉันต้องการกรองแถวจากเงื่อนไขdata.frameตามลอจิคัล สมมุติว่าฉันมีกรอบข้อมูลเหมือนกัน expr_value cell_type 1 5.345618 bj fibroblast 2 5.195871 bj fibroblast 3 5.247274 bj fibroblast 4 5.929771 hesc 5 5.873096 hesc 6 5.665857 hesc 7 6.791656 hips 8 7.133673 hips 9 7.574058 hips 10 7.208041 hips 11 7.402100 hips 12 7.167792 hips 13 7.156971 hips 14 7.197543 hips 15 …
155 r  subset  dataframe 

8
python dataframe pandas drop column โดยใช้ int
ฉันเข้าใจว่าการวางคอลัมน์คุณใช้ df.drop ('ชื่อคอลัมน์', แกน = 1) มีวิธีการวางคอลัมน์โดยใช้ดัชนีตัวเลขแทนชื่อคอลัมน์หรือไม่
155 python  pandas  dataframe 

3
เปลี่ยน Pandas Multi-Index เป็นคอลัมน์
ฉันมีชื่อไฟล์ที่มีดัชนี 2 ระดับ: value Trial measurement 1 0 13 1 3 2 4 2 0 NaN 1 12 3 0 34 ซึ่งฉันต้องการเปลี่ยนเป็น: Trial measurement value 1 0 13 1 1 3 1 2 4 2 0 NaN 2 1 12 3 0 34 ฉันจะทำสิ่งนี้ได้อย่างไร ฉันต้องการสิ่งนี้เพราะฉันต้องการรวมข้อมูลตามคำแนะนำที่นี่แต่ฉันไม่สามารถเลือกคอลัมน์ของฉันเช่นนั้นหากพวกเขาใช้เป็นดัชนี

8
รวม / สรุปตัวแปรหลายตัวต่อกลุ่ม (เช่นผลรวม, ค่าเฉลี่ย)
จากกรอบข้อมูลจะมีวิธีที่ง่ายต่อการรวม ( sum, mean, maxet c) ตัวแปรหลายคนพร้อมกัน? ด้านล่างเป็นข้อมูลตัวอย่างบางส่วน: library(lubridate) days = 365*2 date = seq(as.Date("2000-01-01"), length = days, by = "day") year = year(date) month = month(date) x1 = cumsum(rnorm(days, 0.05)) x2 = cumsum(rnorm(days, 0.05)) df1 = data.frame(date, year, month, x1, x2) ฉันต้องการรวมx1และx2ตัวแปรจากdf2data frame ตามปีและเดือนพร้อมกัน โค้ดต่อไปนี้จะรวมx1ตัวแปร แต่ก็เป็นไปได้ที่จะรวมx2ตัวแปรพร้อมกันหรือไม่ ### aggregate variables …

5
วิธีเข้าถึง pandas groupby dataframe โดยใช้คีย์
ฉันจะเข้าถึง groupby dataframe ที่สอดคล้องกันในวัตถุ groupby โดยคีย์ได้อย่างไร ด้วย groupby ต่อไปนี้: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar'] * 3, 'B': rand.randn(6), 'C': rand.randint(0, 20, 6)}) gb = df.groupby(['A']) ฉันสามารถย้ำผ่านมันเพื่อรับกุญแจและกลุ่ม: In [11]: for k, gp in gb: print 'key=' + str(k) print gp key=bar A B C 1 bar -0.611756 18 …

3
ตัวดำเนินการเชิงตรรกะสำหรับการทำดัชนีบูลีนใน Pandas
ฉันทำงานกับดัชนีบูลีนในนุ่น คำถามคือทำไมคำสั่ง: a[(a['some_column']==some_number) & (a['some_other_column']==some_other_number)] ทำงานได้ดีในขณะที่ a[(a['some_column']==some_number) and (a['some_other_column']==some_other_number)] ออกจากข้อผิดพลาดหรือไม่ ตัวอย่าง: a=pd.DataFrame({'x':[1,1],'y':[10,20]}) In: a[(a['x']==1)&(a['y']==10)] Out: x y 0 1 10 In: a[(a['x']==1) and (a['y']==10)] Out: ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

7
แปลงชื่อแถวเป็นคอลัมน์แรก
ฉันมีกรอบข้อมูลดังนี้: df VALUE ABS_CALL DETECTION P-VALUE 1007_s_at "957.729231881542" "P" "0.00486279317241156" 1053_at "320.632701283368" "P" "0.0313356324173416" 117_at "429.842323161046" "P" "0.0170004527476119" 121_at "2395.7364289242" "P" "0.0114473584876183" 1255_g_at "116.493632746934" "A" "0.39799368200131" 1294_at "739.927122116896" "A" "0.0668649772942343" ฉันต้องการแปลงชื่อแถวเป็นคอลัมน์แรก ปัจจุบันฉันใช้สิ่งนี้เพื่อสร้างชื่อแถวเป็นคอลัมน์แรก: d <- df names <- rownames(d) rownames(d) <- NULL data <- cbind(names,d) มีบรรทัดเดียวทำเช่นนี้หรือไม่?
154 r  dataframe  col  rowname 


6
แปลงรูปแบบคอลัมน์ data.frame จากตัวละครเป็นแฟคเตอร์
ผมอยากจะเปลี่ยนรูปแบบ (ชั้น) ของบางคอลัมน์ของวัตถุ data.frame ของฉัน ( mydf) จากฟิกเกอร์เพื่อปัจจัย ฉันไม่ต้องการทำสิ่งนี้เมื่อฉันอ่านไฟล์ข้อความตามread.table()ฟังก์ชั่น ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม
153 r  dataframe  character  r-faq 

7
Pandas: รวม DataFrame แถวสำหรับคอลัมน์ที่กำหนด
ฉันมี DataFrame ต่อไปนี้: In [1]: import pandas as pd df = pd.DataFrame({'a': [1,2,3], 'b': [2,3,4], 'c':['dd','ee','ff'], 'd':[5,9,1]}) df Out [1]: a b c d 0 1 2 dd 5 1 2 3 ee 9 2 3 4 ff 1 ผมอยากจะเพิ่มคอลัมน์'e'ซึ่งเป็นผลรวมของคอลัมน์'a', และ'b''d' จะข้ามฟอรัมฉันคิดว่าสิ่งนี้จะทำงาน: df['e'] = df[['a','b','d']].map(sum) แต่มันก็ไม่ได้ ฉันต้องการทราบการดำเนินการที่เหมาะสมกับรายการของคอลัมน์['a','b','d']และdfเป็นอินพุต
153 python  pandas  dataframe  sum 

6
ฉันควรใช้ data.frame หรือ matrix หรือไม่?
เมื่อใดควรใช้ a data.frameและควรใช้ a เมื่อmatrixใด ทั้งสองเก็บข้อมูลในรูปแบบสี่เหลี่ยมดังนั้นบางครั้งก็ไม่ชัดเจน มีกฎทั่วไปของหัวแม่มือสำหรับเมื่อใช้ชนิดข้อมูลใด
152 r  matrix  dataframe  r-faq 

5
จะกำจัดคอลัมน์“ Unnamed: 0” ใน pandas DataFrame ได้อย่างไร
ฉันมีสถานการณ์ขัดแย้งบางครั้งเมื่อฉันอ่านได้csvจากที่ฉันได้รับดัชนีเหมือนคอลัมน์ชื่อที่ไม่พึงประสงค์dfunnamed:0 file.csv ,A,B,C 0,1,2,3 1,4,5,6 2,7,8,9 CSV อ่านด้วยสิ่งนี้: pd.read_csv('file.csv') Unnamed: 0 A B C 0 0 1 2 3 1 1 4 5 6 2 2 7 8 9 มันน่ารำคาญมาก! ใครบ้างมีความคิดเกี่ยวกับวิธีการกำจัดนี้
152 python  pandas  csv  dataframe 

8
แพนด้าสามารถจดจำวันที่ได้โดยอัตโนมัติหรือไม่
วันนี้ฉันรู้สึกประหลาดใจในเชิงบวกจากความจริงที่ว่าในขณะที่การอ่านข้อมูลจากไฟล์ข้อมูล (ตัวอย่าง) หมีแพนด้าสามารถรับรู้ชนิดของค่า: df = pandas.read_csv('test.dat', delimiter=r"\s+", names=['col1','col2','col3']) ตัวอย่างเช่นสามารถตรวจสอบด้วยวิธีนี้: for i, r in df.iterrows(): print type(r['col1']), type(r['col2']), type(r['col3']) โดยเฉพาะจำนวนเต็มลอยและสตริงได้รับการยอมรับอย่างถูกต้อง 2013-6-4แต่ผมมีคอลัมน์ที่มีวันที่ในรูปแบบต่อไปนี้: วันที่เหล่านี้ถูกจดจำเป็นสตริง (ไม่ใช่ python date-objects) มีวิธีที่จะ "เรียนรู้" หมีแพนด้าถึงวันที่ได้รับการยอมรับหรือไม่?
151 python  date  types  dataframe  pandas 

3
นุ่นสร้าง DataFrame ที่ว่างเปล่าด้วยชื่อคอลัมน์เท่านั้น
ฉันมี DataFrame แบบไดนามิกซึ่งทำงานได้ดี แต่เมื่อไม่มีข้อมูลที่จะเพิ่มลงใน DataFrame ฉันได้รับข้อผิดพลาด ดังนั้นฉันจึงต้องการโซลูชันในการสร้าง DataFrame ที่ว่างเปล่าที่มีเฉพาะชื่อคอลัมน์ ตอนนี้ฉันมีสิ่งนี้: df = pd.DataFrame(columns=COLUMN_NAMES) # Note that there are now row data inserted. PS: มันเป็นสิ่งสำคัญที่ชื่อคอลัมน์จะยังคงปรากฏใน DataFrame แต่เมื่อฉันใช้มันแบบนี้ฉันจะได้ผลลัพธ์ดังนี้: Index([], dtype='object') Empty DataFrame ส่วน "Data Data ว่างเปล่า" เป็นสิ่งที่ดี! แต่แทนที่จะเป็นสิ่งดัชนีฉันต้องยังคงแสดงคอลัมน์ แก้ไข: สิ่งสำคัญที่ฉันค้นพบ: ฉันกำลังแปลง DataFrame นี้เป็น PDF โดยใช้ Jinja2 ดังนั้นฉันจึงเรียกใช้เมธอดเพื่อส่งออกเป็น HTML ก่อนเช่นนั้น: df.to_html() ฉันคิดว่าคอลัมน์นี้หายไปไหน Edit2: …
151 python  pandas  dataframe 

9
เปลี่ยนชื่อ Pandas DataFrame Index
ฉันมีไฟล์ csv ที่ไม่มีส่วนหัวพร้อมดัชนี DateTime ฉันต้องการเปลี่ยนชื่อดัชนีและชื่อคอลัมน์ แต่ด้วย df.rename () จะเปลี่ยนชื่อคอลัมน์เท่านั้น เครื่องดักฟัง? ฉันใช้เวอร์ชัน 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 2002-06-30 0.093000 2002-07-04 0.098667 In [4]: df.rename(index={0:'Date'}, columns={1:'SM'}, inplace=True) In [5]: df.head() Out[5]: SM 0 2002-06-18 0.112000 …
151 python  pandas  dataframe 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.