คำถามติดแท็ก ggplot2

ggplot2 เป็นไลบรารีการวางแผนขั้นสูงสำหรับ R ตามหลักการของ "The Grammar of Graphics" ใช้แท็กนี้สำหรับคำถาม * ในหัวข้อ * ที่ (ก) เกี่ยวข้องกับ "ggplot2" เป็นส่วนสำคัญของคำถาม & / หรือคำตอบที่คาดหวัง & (b) ไม่ได้เกี่ยวกับวิธีใช้ "ggplot2" เท่านั้น

2
ฉันจะเปลี่ยนชื่อของตำนานใน ggplot2 ได้อย่างไร [ปิด]
ฉันมีพล็อตที่ฉันทำใน ggplot2 เพื่อสรุปข้อมูลที่มาจากชุดข้อมูล celled 2 x 4 x 3 ฉันได้รับสามารถที่จะทำให้การติดตั้งสำหรับตัวแปร 2 ระดับการใช้facet_grid(. ~ Age)และการตั้งค่า x และแกน y aes(x=4leveledVariable, y=DV)ที่ใช้ ฉันเคยaes(group=3leveledvariable, lty=3leveledvariable)ผลิตเนื้อเรื่องจนถึงตอนนี้ สิ่งนี้ทำให้ฉันเห็นภาพที่เป็นแบบพาเนลโดยตัวแปร 2 ระดับโดยที่แกน X เป็นตัวแทนของตัวแปร 4 ระดับและเส้นที่แตกต่างกันที่พล็อตภายในพาเนลสำหรับตัวแปร 3 ระดับ แต่ที่สำคัญสำหรับตัวแปร 3 ระดับนั้นมีชื่อว่าด้วยชื่อของตัวแปร 3 ระดับและฉันต้องการให้มันเป็นชื่อที่มีช่องว่างของอักขระ ฉันจะเปลี่ยนชื่อตำนานได้อย่างไร? สิ่งที่ฉันพยายามที่ดูเหมือนจะไม่ทำงาน (ที่abpเป็นวัตถุ ggplot2 ของฉัน): abp <- abp + opts(legend.title="Town Name") abp <- abp + …

6
วิธีการกำหนดจุดตัดที่ดีที่สุดและช่วงความมั่นใจโดยใช้เส้นโค้ง ROC ใน R?
ฉันมีข้อมูลการทดสอบที่สามารถใช้แยกแยะเซลล์ปกติและเนื้องอก ตามโค้ง ROC มันดูดีสำหรับจุดประสงค์นี้ (พื้นที่ใต้เส้นโค้งคือ 0.9): คำถามของฉันคือ: จะกำหนดจุดตัดสำหรับการทดสอบนี้และช่วงความมั่นใจได้อย่างไรโดยที่การอ่านควรถูกตัดสินว่าไม่ชัดเจน วิธีที่ดีที่สุดในการมองเห็นภาพนี้ggplot2คืออะไร กราฟแสดงผลโดยใช้ROCRและggplot2แพ็คเกจ: #install.packages("ggplot2","ROCR","verification") #if not installed yet library("ggplot2") library("ROCR") library("verification") d <-read.csv2("data.csv", sep=";") pred <- with(d,prediction(x,test)) perf <- performance(pred,"tpr", "fpr") auc <-performance(pred, measure = "auc")@y.values[[1]] rd <- data.frame(x=perf@x.values[[1]],y=perf@y.values[[1]]) p <- ggplot(rd,aes(x=x,y=y)) + geom_path(size=1) p <- p + geom_segment(aes(x=0,y=0,xend=1,yend=1),colour="black",linetype= 2) p <- p …

3
วิธีการวาดรูปหลายเหลี่ยมเรียบร้อยรอบ ๆ ภูมิภาคกระจายใน ggplot2 [ปิด]
ฉันจะเพิ่มรูปหลายเหลี่ยมที่เรียบร้อยรอบ ๆ กลุ่มของจุดบนแผนการกระจายได้อย่างไร ฉันใช้ ggplot2 geom_polygonแต่กำลังผิดหวังกับผลของการ ชุดข้อมูลอยู่ที่นั่นเป็นไฟล์ข้อความที่คั่นด้วยแท็บ กราฟด้านล่างแสดงให้เห็นถึงสองมาตรการของทัศนคติต่อสุขภาพและการว่างงานในหลายประเทศ: ฉันต้องการที่จะเปลี่ยนจากgeom_density2dการแฟนซีน้อย geom_polygonแต่สังเกตุที่ถูกต้องมากขึ้น ผลลัพธ์ของข้อมูลที่ไม่เรียงลำดับนั้นไม่เป็นประโยชน์: ฉันจะวาดรูปหลายเหลี่ยมที่ 'เรียบร้อย' ที่ทำหน้าที่เป็นเส้นทางเส้นรอบ ๆ ค่า min-max yx ได้อย่างไร ฉันพยายามจัดเรียงข้อมูลให้ไม่มีประโยชน์ รหัส: print(fig2 <- ggplot(d, aes(man, eff, colour=issue, fill=issue)) + geom_point() + geom_density2d(alpha=.5) + labs(x = "Efficiency", y = "Mandate")) dวัตถุที่ได้รับกับไฟล์ CSV นี้ วิธีการแก้: ขอบคุณWayne , Andy Wและคนอื่น ๆ ที่เป็นตัวชี้! ข้อมูลรหัสและกราฟได้รับการโพสต์ไป …

4
เส้นตารางและพื้นหลังสีเทาเป็นแผนภูมิที่ไม่ปลอดภัยและควรใช้เป็นข้อยกเว้นเท่านั้นหรือไม่
ดูเหมือนว่าหน่วยงานส่วนใหญ่เห็นด้วยว่าเส้นกริดที่มืดหรือโดดเด่นในแปลงนั้นเป็น "chartjunk" โดยคำจำกัดความที่สมเหตุสมผลและเบี่ยงเบนความสนใจของผู้ชมจากข้อความในเนื้อความหลักของแผนภูมิ ดังนั้นฉันจะไม่รำคาญที่จะให้การอ้างอิงในจุดนั้น เราทุกคนสามารถตกลงกันได้ว่าจะมีบางครั้งที่เส้นตารางสีซีดในการสร้างข้อมูลอ้างอิงสำหรับผู้ชมจะมีความจำเป็น Tufte ที่ถกเถียงกันอยู่ต้องใช้ (และใช้) เส้นตารางเป็นครั้งคราวตามที่ออกมาชี้ในบทความนี้ และฉันเห็นด้วยกับแนวทางของ Hadley Wickham ใน ggplot2 เพื่อทำให้เส้นตารางดังกล่าวเป็นสีขาวบนพื้นหลังสีเทาอ่อนเมื่อคุณจำเป็นต้องใช้มัน สิ่งที่ฉันไม่แน่ใจเกี่ยวกับอย่างไรก็ตามคือว่าเส้นตารางและพื้นหลังสีเทาควรเป็นค่าเริ่มต้นตามที่อยู่ใน ggplot2 ตัวอย่างเช่นดูเหมือนว่าจะไม่มีเหตุผลสำหรับพื้นหลังสีเทานอกเหนือจากกรณีเส้นกริดสีขาวในการบรรเทา - ซึ่งเพิ่มเติม begs คำถามที่ว่าทั้งสองเป็นสิ่งจำเป็น ฉันเพิ่งเริ่มใช้ ggplot2 สำหรับความต้องการด้านกราฟิกส่วนใหญ่ของฉันและคิดว่ามันยอดเยี่ยม แต่มันได้ท้าทายวิธีการ "ไม่มีกล่องไม่มีพื้นหลังไม่มีเส้นตาราง" ของฉันกับกราฟิกที่ฉันใช้มาก่อน ฉันเคยคิดว่าgridlines=OFFควรจะเป็นค่าเริ่มต้นของฉันเว้นแต่จะมีเหตุผลเฉพาะสำหรับการเพิ่มพวกเขา - โดยทั่วไปวิธีการที่แนะนำในบทความนี้เช่น แน่นอนว่ามันเป็นเรื่องตรงไปตรงมาที่จะกำหนดธีมใน ggplot2 เพื่อหลีกเลี่ยง gridlines และ background shading (และอันที่จริงแล้วเราได้ทำสิ่งนี้ในที่ทำงานของฉัน) แต่วิธีของ ggplot2 นั้นยอดเยี่ยมมากและโดยทั่วไปแล้ว ฉันขาดอะไรไป ดังนั้น - ฉันจะขอบคุณสำหรับการอ้างอิงใด ๆ ในจุดนี้ ฉันแน่ใจว่ามันถูกคิดอย่างดีผ่าน (เช่นโดย …

1
ฉันจะ 'หลบ' ตำแหน่งของ geom_point ใน ggplot2 ได้อย่างไร
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันใช้ ggplot2 ใน R เพื่อทำแปลงเหมือนอันต่อไปนี้: แถบข้อผิดพลาดซ้อนทับกันซึ่งดูยุ่งเหยิงจริงๆ ฉันจะแยกแถบข้อผิดพลาดสำหรับดัชนีต่าง ๆ ได้อย่างไร ฉันใช้ตำแหน่ง = "หลบ" แต่ดูเหมือนจะไม่ทำงาน นี่คือส่วนหลักของรหัสของฉัน: plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")

1
วางระดับที่ไม่ได้ใช้ใน facets ด้วย ggplot2 [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว เป็นไปได้หรือไม่ที่จะลดระดับที่ไม่ได้ใช้ใน ggplot2s facets? นี่คือรหัสของฉัน: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") ฉันลองใช้drop=Tสวิตช์ แต่ไม่ช่วย ผมทำอะไรผิดหรือเปล่า?

2
อัตราส่วนหมึกต่อข้อมูลและพื้นหลังของโครงเรื่อง
ฉันสังเกตว่าแพ็คเกจและธีม "ทันสมัย" หลายแห่งและผู้ใช้ข้อมูลที่โดดเด่นจำนวนมากใช้พื้นหลังสีเทาสำหรับพล็อตของพวกเขา นี่คือตัวอย่างหลายประการ: ggplot2: Nate Silver's fivethirtyeight.com: ในขณะที่ในตัวอย่างแรกข้างต้น (ggplot2) บางคนอาจโต้แย้งว่าการใช้พื้นหลังสีเทาลดหมึกที่จำเป็นสำหรับเส้นกริดนี่ไม่ใช่กรณีที่มีกรณีที่สอง อะไรคือข้อดีของการใช้พื้นหลังสีเทาซึ่งตรงกันข้ามกับสีขาวหรือสีโปร่งใส

2
จะทำนายหรือขยายสายการถดถอยใน ggplot2 ได้อย่างไร?
ฉันมีกรอบข้อมูลที่มีสองชุดเวลา: วันที่และหมายเลขรุ่นของ Emacs และ Firefox ที่วางจำหน่าย การใช้หนึ่งคำสั่ง ggplot2 ทำให้ง่ายต่อการสร้างแผนภูมิที่ใช้เหลือง (ในลักษณะที่ดูน่าขบขันซึ่งฉันไม่สนใจ) เพื่อเปลี่ยนจุดให้เป็นเส้น ฉันจะขยายสายไปสู่อนาคตได้อย่างไร? ฉันต้องการตรวจสอบว่าหมายเลขรุ่น Emacs และ Firefox จะข้ามเมื่อใดและหากมีวิธีที่จะแสดงช่วงข้อผิดพลาดจะดีกว่าทั้งหมด เนื่องจาก ggplot2 กำลังพล็อตบรรทัดมันต้องมีโมเดล แต่ฉันไม่เห็นวิธีบอกให้ขยายบรรทัดหรือเพื่อเอาโมเดลออกมาและทำอะไรกับมัน > library(ggplot2) > programs <- read.csv("http://www.miskatonic.org/files/se-program-versions.csv") > programs$Date <- as.Date(programs$Date, format="%B %d, %Y") > head(programs) Program Version Date 1 Emacs 24.1 2012-06-10 2 Emacs 23.4 2012-01-29 3 Emacs 23.3 …

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
ggplot คำนวณช่วงความเชื่อมั่นสำหรับการถดถอยอย่างไร
แพ็คเกจการลงจุด R ggplot2 มีฟังก์ชั่นที่ยอดเยี่ยมที่เรียกว่าstat_smoothสำหรับการลงจุดเส้นถดถอย (หรือเส้นโค้ง) ด้วยแถบความเชื่อมั่นที่เกี่ยวข้อง อย่างไรก็ตามฉันมีเวลายากที่จะหาว่าแถบความเชื่อมั่นนี้จะถูกสร้างขึ้นได้อย่างไรในทุกครั้งที่มีการถดถอย (หรือ "วิธี") ฉันจะหาข้อมูลนี้ได้อย่างไร

1
วิธีการพล็อตขั้นตอนบันไดทำงานด้วย ggplot?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันมีกราฟดังนี้: รหัส R สำหรับการสร้างมันคือ: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort by date DF$x <- seq(length=nrow(DF)) #Add case numbers (in order, since sorted) DF$y <- cumsum(DF$outcome) library(ggplot2) ggplot(DF, aes(x,y)) + geom_path() + #Ploting scale_y_continuous(name= "Number of failures") …

4
Boxplot เทียบเท่ากับการแจกของหนัก
สำหรับข้อมูลที่กระจายตามปกติประมาณกล่องแปลงเป็นวิธีที่ดีในการมองเห็นค่ามัธยฐานและการแพร่กระจายของข้อมูลได้อย่างรวดเร็วเช่นเดียวกับการปรากฏตัวของค่าผิดปกติใด ๆ อย่างไรก็ตามสำหรับการแจกแจงแบบเทลด์ที่หนักกว่านั้นจำนวนมากของคะแนนจะแสดงเป็นค่าผิดปกติเนื่องจากค่าผิดปกติถูกกำหนดว่าอยู่นอกปัจจัยคงที่ของ IQR และสิ่งนี้เกิดขึ้นแน่นอนบ่อยครั้งมากขึ้นด้วยการแจกแจงแบบหนา ดังนั้นสิ่งที่ผู้คนใช้ในการมองเห็นข้อมูลประเภทนี้? มีอะไรที่ดัดแปลงเพิ่มเติมหรือไม่ ฉันใช้ ggplot กับ R ถ้ามันสำคัญ

2
Boxplot เกี่ยวกับสองปัจจัยโดยใช้ ggplot2 ใน R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันใหม่สำหรับ R และแพ็คเกจใด ๆ ใน R. ฉันดูเอกสาร ggplot2 แต่ไม่พบสิ่งนี้ ฉันต้องการพล็อตกล่องของตัวแปรboxthisที่เกี่ยวกับสองปัจจัยและf1 f2นั่นคือสมมติว่าทั้งสองf1และf2เป็นตัวแปรปัจจัยและแต่ละคนมีสองค่าและboxthisเป็นตัวแปรต่อเนื่อง ฉันต้องการที่จะได้รับ 4 boxplots บนกราฟแต่ละสอดคล้องกับหนึ่งรวมกันจากการรวมกันไปได้ว่าf1และf2สามารถใช้ ฉันคิดว่าการใช้ฟังก์ชันพื้นฐานใน R สามารถทำได้โดย > boxplot(boxthis ~ f1 * f2 , data = datasetname) ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ
13 r  boxplot  ggplot2 

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.