คำถามติดแท็ก dataframe

กรอบข้อมูลเป็นโครงสร้างข้อมูลแบบตาราง โดยทั่วไปจะมีข้อมูลที่แถวคือการสังเกตและคอลัมน์เป็นตัวแปรประเภทต่างๆ ในขณะที่ "data frame" หรือ "dataframe" เป็นคำที่ใช้สำหรับแนวคิดนี้ในหลายภาษา (R, Apache Spark, deedle, Maple, pandas library ใน Python และ DataFrames library ใน Julia) "table" เป็นคำที่ใช้ใน MATLAB และ SQL

11
หนึ่งคอลัมน์ที่เรียงลำดับใหม่ใน data frame อย่างไร
เราจะเปลี่ยนอินพุตนี้อย่างไร (โดยมีลำดับ: เวลา, เข้า, ออก, ไฟล์): Time In Out Files 1 2 3 4 2 3 4 5 ไปที่เอาต์พุตนี้ (โดยมีลำดับ: time, out, in, files)? Time Out In Files 1 3 2 4 2 4 3 5 นี่คือข้อมูลจำลอง Dummy: table <- data.frame(Time=c(1,2), In=c(2,3), Out=c(3,4), Files=c(4,5)) table ## Time In Out Files …
311 r  sorting  dataframe  r-faq 

11
วิธีวางคอลัมน์ตามชื่อใน data frame
ฉันมีชุดข้อมูลขนาดใหญ่และฉันต้องการอ่านคอลัมน์ที่เฉพาะเจาะจงหรือวางอื่น ๆ ทั้งหมด data <- read.dta("file.dta") ฉันเลือกคอลัมน์ที่ฉันไม่สนใจ: var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")] และกว่าที่ฉันต้องการทำบางสิ่งเช่น: for(i in 1:length(var.out)) { paste("data$", var.out[i], sep="") <- NULL } เพื่อวางคอลัมน์ที่ไม่ต้องการทั้งหมด นี่เป็นทางออกที่ดีที่สุดหรือไม่?
304 r  dataframe  subset 

15
แปลง Pict dict เป็น dataframe
ฉันมีพจนานุกรม Python ดังนี้: {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': …
299 python  pandas  dataframe 


11
วิธีเข้าถึงค่าสุดท้ายในเวกเตอร์
สมมติว่าฉันมีเวกเตอร์ที่ซ้อนในดาต้าเฟรมหนึ่งหรือสองระดับ มีวิธีที่รวดเร็วและสกปรกในการเข้าถึงค่าสุดท้ายโดยไม่ใช้length()ฟังก์ชั่นหรือไม่? มีอะไรเป็น$#พิเศษของ PERL PER บ้าง? ดังนั้นฉันต้องการบางสิ่งเช่น: dat$vec1$vec2[$#] แทน dat$vec1$vec2[length(dat$vec1$vec2)]
290 r  dataframe  vector 


8
รวมสองซีรี่ส์เข้ากับ DataFrame ในนุ่น
ฉันมีสองซีรี่ส์s1และs2มีดัชนีเดียวกัน (ไม่ต่อเนื่องกัน) ฉันจะรวมs1และs2เป็นสองคอลัมน์ใน DataFrame และเก็บหนึ่งในดัชนีเป็นคอลัมน์ที่สามได้อย่างไร

3
วิธีตรวจสอบว่ามีคอลัมน์หนึ่งใน Pandas หรือไม่
มีวิธีการตรวจสอบว่าคอลัมน์มีอยู่ใน Pandas DataFrame หรือไม่? สมมติว่าฉันมี DataFrame ต่อไปนี้: >>> import pandas as pd >>> from random import randint >>> df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) >>> df A B C 0 3 40 100 …
274 python  pandas  dataframe 

21
แกนในแพนด้าหมายถึงอะไร
นี่คือรหัสของฉันเพื่อสร้าง dataframe: import pandas as pd import numpy as np dff = pd.DataFrame(np.random.randn(1,2),columns=list('AB')) จากนั้นฉันได้รับ dataframe: +------------+---------+--------+ | | A | B | +------------+---------+--------- | 0 | 0.626386| 1.52325| +------------+---------+--------+ เมื่อฉันพิมพ์คำสั่ง: dff.mean(axis=1) ฉันได้ : 0 1.074821 dtype: float64 ตามการอ้างอิงของแพนด้าแกน = 1 หมายถึงคอลัมน์และฉันคาดว่าผลลัพธ์ของคำสั่งจะเป็น A 0.626386 B 1.523255 dtype: float64 ดังนั้นนี่คือคำถามของฉัน: แกนในแพนด้าหมายถึงอะไร

6
ลบทั้งคอลัมน์ออกจาก data.frame ใน R
ไม่มีใครรู้วิธีลบคอลัมน์ทั้งหมดออกจาก data.frame ใน R หรือไม่? เช่นถ้าฉันได้รับ data.frame นี้: > head(data) chr genome region 1 chr1 hg19_refGene CDS 2 chr1 hg19_refGene exon 3 chr1 hg19_refGene CDS 4 chr1 hg19_refGene exon 5 chr1 hg19_refGene CDS 6 chr1 hg19_refGene exon และฉันต้องการลบคอลัมน์ที่ 2
267 r  dataframe 

10
วิธีนำส่วนข้อมูลคอลัมน์มาเป็นชิ้นแพนด้า
ฉันโหลดข้อมูลการเรียนรู้ของเครื่องจากไฟล์ CSV 2 คอลัมน์แรกคือการสังเกตและคอลัมน์ที่เหลือเป็นคุณลักษณะ ขณะนี้ฉันทำต่อไปนี้: data = pandas.read_csv('mydata.csv') ซึ่งให้บางสิ่งเช่น: data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde')) ฉันต้องการที่จะหั่น dataframe นี้ในสอง dataframes หนึ่งที่มีคอลัมน์aและbและเป็นหนึ่งที่มีคอลัมน์c, และde ไม่สามารถเขียนบางอย่างเช่น observations = data[:'c'] features = data['c':] ฉันไม่แน่ใจว่าวิธีที่ดีที่สุดคืออะไร ฉันต้องมีpd.Panel? โดยวิธีการที่ฉันพบการจัดทำดัชนี dataframe สวยไม่สอดคล้อง: data['a']ได้รับอนุญาต แต่data[0]ไม่ใช่ ในอีกด้านหนึ่งdata['a':]ไม่ได้รับอนุญาต แต่data[0:]เป็น มีเหตุผลในทางปฏิบัติสำหรับสิ่งนี้หรือไม่? นี่จะทำให้สับสนถ้าคอลัมน์ถูกทำดัชนีโดย Intdata[0] != data[0:1]


6
วิธีเพิ่มข้อมูล pandas ไปยังไฟล์ csv ที่มีอยู่
ฉันต้องการทราบว่าเป็นไปได้หรือไม่ที่จะใช้to_csv()ฟังก์ชั่นแพนด้าเพื่อเพิ่มดาต้าเฟรมให้กับไฟล์ csv ที่มีอยู่ ไฟล์ csv มีโครงสร้างเดียวกันกับข้อมูลที่โหลด
259 python  pandas  csv  dataframe 

9
ผสานหลาย data.frames พร้อมกันในรายการ
ฉันมีรายการของ data.frames มากมายที่ฉันต้องการผสาน ปัญหาที่นี่คือแต่ละ data.frame แตกต่างกันในแง่ของจำนวนแถวและคอลัมน์ แต่พวกเขาทั้งหมดร่วมตัวแปรสำคัญ (ที่ฉันได้เรียก"var1"และ"var2"ในรหัสด้านล่าง) หาก data.frames เหมือนกันในแง่ของคอลัมน์ฉันสามารถทำได้rbindซึ่ง rbind.fill ของplyrจะทำงานได้ แต่นั่นไม่ใช่กรณีของข้อมูลเหล่านี้ เนื่องจากmergeคำสั่งใช้งานได้กับ data.frames เพียง 2 ตัวเท่านั้นฉันจึงหันไปหาแนวคิดทางอินเทอร์เน็ต ฉันได้หนึ่งจากที่นี่ซึ่งทำงานอย่างสมบูรณ์ใน R 2.7.2 ซึ่งเป็นสิ่งที่ฉันมีในเวลา: merge.rec <- function(.list, ...){ if(length(.list)==1) return(.list[[1]]) Recall(c(list(merge(.list[[1]], .list[[2]], ...)), .list[-(1:2)]), ...) } และฉันจะเรียกฟังก์ชั่นเช่นนี้: df <- merge.rec(my.list, by.x = c("var1", "var2"), by.y = c("var1", "var2"), all = T, …
258 r  list  merge  dataframe  r-faq 

15
ความแตกต่างระหว่าง DataFrame ชุดข้อมูลและ RDD ใน Spark
ฉันแค่สงสัยว่าอะไรคือความแตกต่างระหว่างRDDและDataFrame (Spark 2.0.0 DataFrame เป็นเพียงนามแฝงประเภทสำหรับDataset[Row])ใน Apache Spark? คุณสามารถแปลงหนึ่งเป็นอื่นได้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.