การเขียนโปรแกรม dataframe

11

หนึ่งคอลัมน์ที่เรียงลำดับใหม่ใน data frame อย่างไร

เราจะเปลี่ยนอินพุตนี้อย่างไร (โดยมีลำดับ: เวลา, เข้า, ออก, ไฟล์): Time In Out Files 1 2 3 4 2 3 4 5 ไปที่เอาต์พุตนี้ (โดยมีลำดับ: time, out, in, files)? Time Out In Files 1 3 2 4 2 4 3 5 นี่คือข้อมูลจำลอง Dummy: table <- data.frame(Time=c(1,2), In=c(2,3), Out=c(3,4), Files=c(4,5)) table ## Time In Out Files …

311 r sorting dataframe r-faq

11

วิธีวางคอลัมน์ตามชื่อใน data frame

ฉันมีชุดข้อมูลขนาดใหญ่และฉันต้องการอ่านคอลัมน์ที่เฉพาะเจาะจงหรือวางอื่น ๆ ทั้งหมด data <- read.dta("file.dta") ฉันเลือกคอลัมน์ที่ฉันไม่สนใจ: var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")] และกว่าที่ฉันต้องการทำบางสิ่งเช่น: for(i in 1:length(var.out)) { paste("data$", var.out[i], sep="") <- NULL } เพื่อวางคอลัมน์ที่ไม่ต้องการทั้งหมด นี่เป็นทางออกที่ดีที่สุดหรือไม่?

304 r dataframe subset

15

แปลง Pict dict เป็น dataframe

ฉันมีพจนานุกรม Python ดังนี้: {u'2012-06-08': 388, u'2012-06-09': 388, u'2012-06-10': 388, u'2012-06-11': 389, u'2012-06-12': 389, u'2012-06-13': 389, u'2012-06-14': 389, u'2012-06-15': 389, u'2012-06-16': 389, u'2012-06-17': 389, u'2012-06-18': 390, u'2012-06-19': 390, u'2012-06-20': 390, u'2012-06-21': 390, u'2012-06-22': 390, u'2012-06-23': 390, u'2012-06-24': 390, u'2012-06-25': 391, u'2012-06-26': 391, u'2012-06-27': 391, u'2012-06-28': 391, u'2012-06-29': 391, u'2012-06-30': 391, u'2012-07-01': …

299 python pandas dataframe

5

จะตรวจสอบว่าแพนด้า DataFrame ว่างเปล่าได้อย่างไร?

จะตรวจสอบได้อย่างไรว่าแพนด้าDataFrameว่างเปล่า ในกรณีของฉันฉันต้องการพิมพ์ข้อความใน terminal ถ้าDataFrameว่างเปล่า

297 python pandas dataframe

11

วิธีเข้าถึงค่าสุดท้ายในเวกเตอร์

สมมติว่าฉันมีเวกเตอร์ที่ซ้อนในดาต้าเฟรมหนึ่งหรือสองระดับ มีวิธีที่รวดเร็วและสกปรกในการเข้าถึงค่าสุดท้ายโดยไม่ใช้length()ฟังก์ชั่นหรือไม่? มีอะไรเป็น$#พิเศษของ PERL PER บ้าง? ดังนั้นฉันต้องการบางสิ่งเช่น: dat$vec1$vec2[$#] แทน dat$vec1$vec2[length(dat$vec1$vec2)]

290 r dataframe vector

4

แปลงชนิดคอลัมน์ DataFrame จากสตริงเป็นวันที่และเวลารูปแบบ dd / mm / yyyy

ฉันจะแปลงคอลัมน์ DataFrame ของสตริง (ในรูปแบบdd / mm / yyyy ) เป็นชุดข้อมูลได้อย่างไร

284 python pandas dataframe datetime-format python-datetime

8

รวมสองซีรี่ส์เข้ากับ DataFrame ในนุ่น

ฉันมีสองซีรี่ส์s1และs2มีดัชนีเดียวกัน (ไม่ต่อเนื่องกัน) ฉันจะรวมs1และs2เป็นสองคอลัมน์ใน DataFrame และเก็บหนึ่งในดัชนีเป็นคอลัมน์ที่สามได้อย่างไร

278 python pandas series dataframe

3

วิธีตรวจสอบว่ามีคอลัมน์หนึ่งใน Pandas หรือไม่

มีวิธีการตรวจสอบว่าคอลัมน์มีอยู่ใน Pandas DataFrame หรือไม่? สมมติว่าฉันมี DataFrame ต่อไปนี้: >>> import pandas as pd >>> from random import randint >>> df = pd.DataFrame({'A': [randint(1, 9) for x in xrange(10)], 'B': [randint(1, 9)*10 for x in xrange(10)], 'C': [randint(1, 9)*100 for x in xrange(10)]}) >>> df A B C 0 3 40 100 …

274 python pandas dataframe

21

แกนในแพนด้าหมายถึงอะไร

นี่คือรหัสของฉันเพื่อสร้าง dataframe: import pandas as pd import numpy as np dff = pd.DataFrame(np.random.randn(1,2),columns=list('AB')) จากนั้นฉันได้รับ dataframe: +------------+---------+--------+ | | A | B | +------------+---------+--------- | 0 | 0.626386| 1.52325| +------------+---------+--------+ เมื่อฉันพิมพ์คำสั่ง: dff.mean(axis=1) ฉันได้ : 0 1.074821 dtype: float64 ตามการอ้างอิงของแพนด้าแกน = 1 หมายถึงคอลัมน์และฉันคาดว่าผลลัพธ์ของคำสั่งจะเป็น A 0.626386 B 1.523255 dtype: float64 ดังนั้นนี่คือคำถามของฉัน: แกนในแพนด้าหมายถึงอะไร

269 python pandas numpy dataframe

6

ลบทั้งคอลัมน์ออกจาก data.frame ใน R

ไม่มีใครรู้วิธีลบคอลัมน์ทั้งหมดออกจาก data.frame ใน R หรือไม่? เช่นถ้าฉันได้รับ data.frame นี้: > head(data) chr genome region 1 chr1 hg19_refGene CDS 2 chr1 hg19_refGene exon 3 chr1 hg19_refGene CDS 4 chr1 hg19_refGene exon 5 chr1 hg19_refGene CDS 6 chr1 hg19_refGene exon และฉันต้องการลบคอลัมน์ที่ 2

267 r dataframe

10

วิธีนำส่วนข้อมูลคอลัมน์มาเป็นชิ้นแพนด้า

ฉันโหลดข้อมูลการเรียนรู้ของเครื่องจากไฟล์ CSV 2 คอลัมน์แรกคือการสังเกตและคอลัมน์ที่เหลือเป็นคุณลักษณะ ขณะนี้ฉันทำต่อไปนี้: data = pandas.read_csv('mydata.csv') ซึ่งให้บางสิ่งเช่น: data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde')) ฉันต้องการที่จะหั่น dataframe นี้ในสอง dataframes หนึ่งที่มีคอลัมน์aและbและเป็นหนึ่งที่มีคอลัมน์c, และde ไม่สามารถเขียนบางอย่างเช่น observations = data[:'c'] features = data['c':] ฉันไม่แน่ใจว่าวิธีที่ดีที่สุดคืออะไร ฉันต้องมีpd.Panel? โดยวิธีการที่ฉันพบการจัดทำดัชนี dataframe สวยไม่สอดคล้อง: data['a']ได้รับอนุญาต แต่data[0]ไม่ใช่ ในอีกด้านหนึ่งdata['a':]ไม่ได้รับอนุญาต แต่data[0:]เป็น มีเหตุผลในทางปฏิบัติสำหรับสิ่งนี้หรือไม่? นี่จะทำให้สับสนถ้าคอลัมน์ถูกทำดัชนีโดย Intdata[0] != data[0:1]

264 python pandas numpy dataframe slice

18

วิธีการแปลงคอลัมน์ข้อมูลเฟรมเป็นชนิดตัวเลข?

คุณแปลงคอลัมน์ data frame เป็นชนิดตัวเลขได้อย่างไร

261 r dataframe type-conversion

6

วิธีเพิ่มข้อมูล pandas ไปยังไฟล์ csv ที่มีอยู่

ฉันต้องการทราบว่าเป็นไปได้หรือไม่ที่จะใช้to_csv()ฟังก์ชั่นแพนด้าเพื่อเพิ่มดาต้าเฟรมให้กับไฟล์ csv ที่มีอยู่ ไฟล์ csv มีโครงสร้างเดียวกันกับข้อมูลที่โหลด

259 python pandas csv dataframe

9

ผสานหลาย data.frames พร้อมกันในรายการ

ฉันมีรายการของ data.frames มากมายที่ฉันต้องการผสาน ปัญหาที่นี่คือแต่ละ data.frame แตกต่างกันในแง่ของจำนวนแถวและคอลัมน์ แต่พวกเขาทั้งหมดร่วมตัวแปรสำคัญ (ที่ฉันได้เรียก"var1"และ"var2"ในรหัสด้านล่าง) หาก data.frames เหมือนกันในแง่ของคอลัมน์ฉันสามารถทำได้rbindซึ่ง rbind.fill ของplyrจะทำงานได้ แต่นั่นไม่ใช่กรณีของข้อมูลเหล่านี้ เนื่องจากmergeคำสั่งใช้งานได้กับ data.frames เพียง 2 ตัวเท่านั้นฉันจึงหันไปหาแนวคิดทางอินเทอร์เน็ต ฉันได้หนึ่งจากที่นี่ซึ่งทำงานอย่างสมบูรณ์ใน R 2.7.2 ซึ่งเป็นสิ่งที่ฉันมีในเวลา: merge.rec <- function(.list, ...){ if(length(.list)==1) return(.list[[1]]) Recall(c(list(merge(.list[[1]], .list[[2]], ...)), .list[-(1:2)]), ...) } และฉันจะเรียกฟังก์ชั่นเช่นนี้: df <- merge.rec(my.list, by.x = c("var1", "var2"), by.y = c("var1", "var2"), all = T, …

258 r list merge dataframe r-faq

15

ความแตกต่างระหว่าง DataFrame ชุดข้อมูลและ RDD ใน Spark

ฉันแค่สงสัยว่าอะไรคือความแตกต่างระหว่างRDDและDataFrame (Spark 2.0.0 DataFrame เป็นเพียงนามแฝงประเภทสำหรับDataset[Row])ใน Apache Spark? คุณสามารถแปลงหนึ่งเป็นอื่นได้หรือไม่

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

คำถามติดแท็ก dataframe