คำถามติดแท็ก dataframe

กรอบข้อมูลเป็นโครงสร้างข้อมูลแบบตาราง โดยทั่วไปจะมีข้อมูลที่แถวคือการสังเกตและคอลัมน์เป็นตัวแปรประเภทต่างๆ ในขณะที่ "data frame" หรือ "dataframe" เป็นคำที่ใช้สำหรับแนวคิดนี้ในหลายภาษา (R, Apache Spark, deedle, Maple, pandas library ใน Python และ DataFrames library ใน Julia) "table" เป็นคำที่ใช้ใน MATLAB และ SQL

2
วัตถุ "DataFrame" ไม่มีแอตทริบิวต์ "sort"
ฉันประสบปัญหาที่นี่ในแพ็คเกจ python ของฉันฉันติดตั้ง numpy แล้ว แต่ฉันยังคงมีข้อผิดพลาดนี้ วัตถุ 'DataFrame' ไม่มีแอตทริบิวต์ 'sort' ใครก็ได้ช่วยคิดหน่อย .. นี่คือรหัสของฉัน: final.loc[-1] =['', 'P','Actual'] final.index = final.index + 1 # shifting index final = final.sort() final.columns=[final.columns,final.iloc[0]] final = final.iloc[1:].reset_index(drop=True) final.columns.names = (None, None)

2
คอลัมน์ Binning ที่มีแพนด้าหลาม
ฉันมีคอลัมน์ Data Frame ที่มีค่าตัวเลข: df['percentage'].head() 46.5 44.2 100.0 42.12 ฉันต้องการเห็นคอลัมน์เป็นจำนวนถังขยะ: bins = [0, 1, 5, 10, 25, 50, 100] ฉันจะได้ผลลัพธ์เป็นถังขยะพร้อมกับมันได้value countsอย่างไร? [0, 1] bin amount [1, 5] etc [5, 10] etc ......

13
จะคำนวณจำนวนการเกิดขึ้นของอักขระที่กำหนดในแต่ละแถวของคอลัมน์สตริงได้อย่างไร?
ฉันมี data.frame ที่ตัวแปรบางตัวมีสตริงข้อความ ฉันต้องการนับจำนวนครั้งของอักขระที่กำหนดในแต่ละสตริง ตัวอย่าง: q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not")) ฉันต้องการสร้างคอลัมน์ใหม่สำหรับ q.data ที่มีจำนวนครั้งของ "a" ในสตริง (เช่น c (2,1,0)) วิธีเดียวที่ซับซ้อนที่ฉันจัดการได้คือ: string.counter<-function(strings, pattern){ counts<-NULL for(i in 1:length(strings)){ counts[i]<-length(attr(gregexpr(pattern,strings[i])[[1]], "match.length")[attr(gregexpr(pattern,strings[i])[[1]], "match.length")>0]) } return(counts) } string.counter(strings=q.data$string, pattern="a") number string number.of.a 1 1 greatgreat 2 2 2 magic 1 3 3 not 0
105 regex  r  dataframe 

10
กรองคอลัมน์ดาต้าเฟรมของ Pyspark ด้วยค่าไม่มี
ฉันกำลังพยายามกรองดาต้าเฟรม PySpark ที่มีNoneค่าเป็นแถว: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] และฉันสามารถกรองได้อย่างถูกต้องด้วยค่าสตริง: df[df.dt_mvmt == '2016-03-31'] # some results here แต่สิ่งนี้ล้มเหลว: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 แต่มีค่าแน่นอนในแต่ละประเภท เกิดอะไรขึ้น?

5
ฉันจะสร้างส่วนหัวคอลัมน์ดาต้าเฟรมของแพนด้าตัวพิมพ์เล็กทั้งหมดได้อย่างไร
ฉันต้องการสร้างส่วนหัวคอลัมน์ทั้งหมดในกรอบข้อมูลแพนด้าของฉันตัวพิมพ์เล็ก ตัวอย่าง ถ้าฉันมี: data = country country isocode year XRAT tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 Canada CAN 2002 1.56932 957299.91586 2 Canada CAN 2003 1.40105 1016902.00180 .... ฉันต้องการเปลี่ยน XRAT เป็น xrat โดยทำสิ่งที่ต้องการ: data.headers.lowercase() เพื่อให้ฉันได้รับ: country country isocode year xrat tcgdp 0 Canada CAN 2001 1.54876 924909.44207 1 …
105 python  pandas  dataframe 

3
วิธีรับค่าจาก Pandas DataFrame ไม่ใช่ดัชนีและประเภทวัตถุ
สมมติว่าฉันมี DataFrame ต่อไปนี้ เลขตัวอักษร ก 1 B 2 ค 3 ง 4 ซึ่งสามารถรับได้จากรหัสต่อไปนี้ import pandas as pd letters=pd.Series(('A', 'B', 'C', 'D')) numbers=pd.Series((1, 2, 3, 4)) keys=('Letters', 'Numbers') df=pd.concat((letters, numbers), axis=1, keys=keys) ตอนนี้ฉันต้องการรับค่า C จากคอลัมน์ Letters บรรทัดคำสั่ง df[df.Letters=='C'].Letters จะกลับมา 2 ค ชื่อ: ตัวอักษร dtype: object ฉันจะรับเฉพาะค่า C เท่านั้นไม่ใช่เอาต์พุตทั้งสองบรรทัดได้อย่างไร
104 python  pandas  dataframe 

5
วิธีรับแถวจาก R data.frame
ฉันมี data.frame ที่มีส่วนหัวของคอลัมน์ ฉันจะรับแถวเฉพาะจาก data.frame เป็นรายการได้อย่างไร (โดยมีส่วนหัวคอลัมน์เป็นคีย์สำหรับรายการ) โดยเฉพาะ data.frame ของฉันคือ ABC 1 5 4.25 4.5 2 3.5 4 2.5 3 3.25 4 4 4 4.25 4.5 2.25 5 1.5 4.5 3 และผมอยากได้แถวที่เทียบเท่ากับ > c(a=5, b=4.25, c=4.5) a b c 5.0 4.25 4.5
103 r  indexing  dataframe 

8
การล้างค่า "Inf" จาก R dataframe
ใน R ฉันมีการดำเนินการที่สร้างInfค่าบางอย่างเมื่อฉันแปลงดาต้าเฟรม ฉันต้องการเปลี่ยนInfค่าเหล่านี้ให้เป็นNAค่านิยม รหัสที่ฉันมีช้าสำหรับข้อมูลขนาดใหญ่มีวิธีที่เร็วกว่านี้ไหม สมมติว่าฉันมี dataframe ต่อไปนี้: dat <- data.frame(a=c(1, Inf), b=c(Inf, 3), d=c("a","b")) ต่อไปนี้ใช้งานได้ในกรณีเดียว: dat[,1][is.infinite(dat[,1])] = NA ดังนั้นฉันจึงสรุปมันด้วยลูปต่อไปนี้ cf_DFinf2NA <- function(x) { for (i in 1:ncol(x)){ x[,i][is.infinite(x[,i])] = NA } return(x) } แต่คิดไม่ถึงว่านี่คือการใช้พลังของอาร์จริงๆ
103 r  dataframe  data.table 

7
วิธีเปลี่ยนคอลัมน์ใน Pandas DataFrame
ฉันต้องการเปลี่ยนคอลัมน์ในแพนด้าDataFrameแต่ฉันไม่สามารถหาวิธีการทำได้จากเอกสารโดยไม่ต้องเขียน DF ใหม่ทั้งหมด มีใครรู้วิธีทำไหม ดาต้าเฟรม: ## x1 x2 ##0 206 214 ##1 226 234 ##2 245 253 ##3 265 272 ##4 283 291 ผลลัพธ์ที่ต้องการ: ## x1 x2 ##0 206 nan ##1 226 214 ##2 245 234 ##3 265 253 ##4 283 272 ##5 nan 291
102 python  pandas  dataframe 

5
วิธีเปลี่ยนคอลัมน์ Dataframe จาก String type เป็น Double type ใน pyspark
ฉันมี dataframe ที่มีคอลัมน์เป็น String ฉันต้องการเปลี่ยนประเภทคอลัมน์เป็นประเภท Double ใน PySpark ต่อไปนี้เป็นวิธีที่ฉันทำ: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) แค่อยากรู้ว่านี่เป็นวิธีที่ถูกต้องหรือไม่ในขณะที่ทำงานผ่าน Logistic Regression ฉันได้รับข้อผิดพลาดบางอย่างดังนั้นฉันจึงสงสัยว่านี่เป็นสาเหตุของปัญหาหรือไม่


9
จะสร้าง DataFrame ที่ว่างเปล่าด้วยสคีมาที่ระบุได้อย่างไร?
ฉันต้องการสร้างDataFrameด้วยสคีมาที่ระบุใน Scala ฉันได้พยายามใช้การอ่าน JSON (ฉันหมายถึงการอ่านไฟล์เปล่า) แต่ฉันไม่คิดว่านั่นเป็นแนวทางปฏิบัติที่ดีที่สุด

5
แทนที่ None ด้วย NaN ในดาต้าเฟรมของแพนด้า
ฉันมีโต๊ะx: website 0 http://www.google.com/ 1 http://www.yahoo.com 2 None ฉันต้องการแทนที่ python None ด้วยแพนด้า NaN ฉันเหนื่อย: x.replace(to_replace=None, value=np.nan) แต่ฉันได้รับ: TypeError: 'regex' must be a string or a compiled regular expression or a list or dict of strings or regular expressions, you passed a 'bool' ฉันควรจะทำอย่างไร

7
Pandas เลือกตามป้ายกำกับบางครั้งจะส่งคืน Series บางครั้งก็ส่งคืน DataFrame
ใน Pandas เมื่อฉันเลือกป้ายกำกับที่มีเพียงรายการเดียวในดัชนีฉันจะได้ซีรี่ส์กลับคืนมา แต่เมื่อฉันเลือกรายการที่มีมากกว่าหนึ่งรายการฉันจะได้รับกรอบข้อมูลกลับคืนมา ทำไมถึงเป็นเช่นนั้น? มีวิธีใดบ้างที่จะทำให้แน่ใจว่าฉันได้รับ data frame กลับมาเสมอ In [1]: import pandas as pd In [2]: df = pd.DataFrame(data=range(5), index=[1, 2, 3, 3, 3]) In [3]: type(df.loc[3]) Out[3]: pandas.core.frame.DataFrame In [4]: type(df.loc[1]) Out[4]: pandas.core.series.Series

10
Python Pandas - ค้นหาความแตกต่างระหว่างสองเฟรมข้อมูล
ฉันมีเฟรมข้อมูลสองเฟรม df1 และ df2 โดยที่ df2 เป็นเซตย่อยของ df1 ฉันจะรับ data frame ใหม่ (df3) ซึ่งแตกต่างระหว่าง data frame ทั้งสองได้อย่างไร กล่าวอีกนัยหนึ่งคือ data frame ที่มีแถว / คอลัมน์ทั้งหมดใน df1 ที่ไม่อยู่ใน df2?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.