คำถามติดแท็ก boxplot

จอแสดงผลกราฟิกเพื่อสรุปการแจกแจงตัวอย่าง จะแสดงตัวเลขห้าตัวบวก (อาจ) ค่าผิดปกติบางอย่าง - ห้าจุดนั้นเป็นค่ามัธยฐานบานพับ (ควอไทล์โดยประมาณ) และค่าที่ใหญ่ที่สุดและน้อยที่สุดที่ไม่นับคะแนนใด ๆ ที่ทำเครื่องหมายว่าเป็นค่าผิดปกติ

2
มีตัวแปรแบบกล่องสำหรับข้อมูลแบบกระจายของปัวซองหรือไม่
ฉันต้องการที่จะรู้ว่ามีตัวแปร boxplot ปรับให้เข้ากับข้อมูลการกระจายปัวซอง (หรือการกระจายอื่น ๆ ) ด้วยการแจกแจงแบบเกาส์หนวดที่ L = Q1 - 1.5 IQR และ U = Q3 + 1.5 IQR บ็อกซ์ล็อตมีคุณสมบัติที่จะมีค่าผิดปกติต่ำมาก (คะแนนต่ำกว่า L) เนื่องจากมีค่าผิดปกติสูง ) หากข้อมูลที่มีการกระจาย Poisson แต่นี้ไม่ได้ถืออีกต่อไปเพราะของเบ้เชิงบวกที่เราได้รับPr (X <L) <Pr (X> U) มีวิธีอื่นในการวางเคราเช่นนี้เพื่อให้พอดีกับการแจกแจงปัวซองหรือไม่?

6
เทคนิคการสร้างภาพข้อมูลที่ดีในการเปรียบเทียบการกระจายคืออะไร
ฉันกำลังเขียนวิทยานิพนธ์ระดับปริญญาเอกของฉันและฉันก็รู้ว่าฉันอาศัยอยู่มากเกินไปในกล่องแปลงเพื่อเปรียบเทียบการแจกแจง คุณมีทางเลือกอื่นใดในการทำภารกิจนี้ให้สำเร็จ ฉันต้องการถามว่าคุณรู้จักแหล่งข้อมูลอื่น ๆ ในฐานะแกลเลอรี R หรือไม่ซึ่งฉันสามารถสร้างแรงบันดาลใจให้ตัวเองด้วยแนวคิดที่แตกต่างกันในการสร้างภาพข้อมูล

7
สิ่งที่เป็นทางเลือกให้กับ boxplot
ฉันกำลังสร้างเว็บไซต์ซึ่งแสดงข้อมูลการสำรวจสำมะโนประชากรสำหรับรูปหลายเหลี่ยมที่ผู้ใช้เลือก & ต้องการแสดงการกระจายตัวของพารามิเตอร์ต่างๆแบบกราฟิก (กราฟหนึ่งต่อพารามิเตอร์) ข้อมูลมักจะมีคุณสมบัติดังต่อไปนี้: ขนาดตัวอย่างมีแนวโน้มที่จะใหญ่ (พูดประมาณ 10,000 จุดข้อมูล) ช่วงของค่ามักจะมีขนาดใหญ่ (ตัวอย่างเช่นจำนวนประชากรขั้นต่ำอาจน้อยกว่า 100 และสูงสุดอาจเท่ากับ 500,000) q1 มักจะใกล้เคียงกับค่าต่ำสุด (พูด 200) ในขณะที่ q2 & q3 จะอยู่ภายใน 10,000 มันดูไม่เหมือนการแจกแจงแบบปกติ ฉันไม่ใช่นักสถิติดังนั้นคำอธิบายของฉันอาจไม่ชัดเจน ฉันต้องการแสดงการกระจายตัวนี้บนกราฟซึ่งพลเมืองจะมองเห็นได้ (คนธรรมดาถ้าคุณต้องการ) ฉันชอบที่จะใช้ฮิสโตแกรมที่ดีที่สุด แต่มันเป็นไปไม่ได้เนื่องจากค่าที่หลากหลายเนื่องจากการทำถังขยะไม่ใช่เรื่องง่าย & ส่งตรงไปข้างหน้า จากสิ่งที่ฉันรู้เกี่ยวกับสถิติพล็อตกล่องเป็นสิ่งที่มักใช้ในการแสดงข้อมูลประเภทนี้ แต่ฉันรู้สึกว่าสำหรับคนธรรมดาการถอดรหัสพล็อตบ็อกซ์นั้นไม่ใช่เรื่องง่าย ตัวเลือกของฉันคืออะไรเพื่อแสดงข้อมูลนี้ในลักษณะที่เข้าใจง่าย

1
ประวัติของกล่องแปลงคืออะไรและการออกแบบ“ กล่องและหนวด” พัฒนาอย่างไร?
หลายแหล่งวันที่ออกแบบ "แผนกล่อง" คลาสสิกกับจอห์น Tukeyและ "แผนผังแผน" ของ 2513 การออกแบบที่ดูเหมือนจะค่อนข้างคงที่ตั้งแต่นั้นมากับเอ็ดเวิร์ด Tufteตัดลงมาเป็นกล่องรุ่น - พล็อตไม่ทันตั้งตัวขณะแผนการของไวโอลิน - แม้ว่าจะเป็นข้อมูลที่แตกต่างของพล็อตกล่อง - ยังคงได้รับความนิยมน้อยลง ข้อเสนอแนะของคลีฟแลนด์ที่เคราขยายออกไปเป็นร้อยละ 10 และ 90 มีผู้สนับสนุนบางส่วนดูCox (2009)แต่ไม่ใช่บรรทัดฐาน Hadley Wickham และ Lisa Stryjewski เขียนกระดาษที่ไม่ได้เผยแพร่เกี่ยวกับประวัติความเป็นมาของแผนการกล่องแต่ดูเหมือนว่ามันจะไม่ครอบคลุมถึงบรรพบุรุษของกล่องแปลง แล้วพล็อตปัจจุบัน "แพร่หลาย" และ "หนวด" จึงเกิดขึ้นได้อย่างไร การสร้างภาพข้อมูลแบบใดที่วิวัฒนาการมาจากการออกแบบก่อนหน้านี้มีข้อได้เปรียบที่สำคัญและทำไมพวกเขาถึงดูเหมือนจะถูกบดบังดังนั้นการใช้งานอย่างละเอียดตามแบบแผนการของ Tukey? คำตอบที่แสดงให้เห็นจะเป็นโบนัส แต่จะถูกนำไปอ้างอิงที่ดำลึกในอดีตกว่า Wickham และ Stryjewski จะเป็นประโยชน์ อ้างอิง Cox, NJ (2009) Stata พูด: การสร้างและการแปลงกล่องแปลง Stata Journal , …

3
จะประเมินความเบ้จาก boxplot ได้อย่างไร?
วิธีการตัดสินใจความเบ้โดยดูที่ boxplot ที่สร้างจากข้อมูลนี้: 340, 300, 520, 340, 320, 290, 260, 330 หนังสือเล่มหนึ่งบอกว่า "ถ้าควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบนแล้วการแจกแจงจะเบ้ในทางลบ" แหล่งข้อมูลอื่นหลายแห่งกล่าวว่าเหมือนกันมากหรือน้อย ฉันสร้าง boxplot โดยใช้ R มันเหมือนดังต่อไปนี้: ฉันคิดว่ามันเอียงเชิงลบเพราะควอไทล์ต่ำกว่าห่างจากค่ามัธยฐานมากกว่าควอไทล์ตอนบน แต่ปัญหาคือเมื่อฉันใช้วิธีอื่นเพื่อกำหนดความเบ้: หมายถึง (337.5)> ค่ามัธยฐาน (325) นี้แสดงให้เห็นข้อมูลเป็นเบ้บวก ฉันพลาดอะไรไปหรือเปล่า?

4
พื้นฐานสำหรับคำจำกัดความ Box และ Whisker Plot ของค่าผิดปกติคืออะไร?
นิยามมาตรฐานของค่าผิดปกติสำหรับพล็อต Box และ Whisker คือจุดที่อยู่นอกช่วงโดยที่และเป็นควอไทล์ตัวแรกและคือควอไทล์ที่สามของข้อมูล{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 พื้นฐานสำหรับคำจำกัดความนี้คืออะไร ด้วยคะแนนจำนวนมากแม้การแจกแจงแบบปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ ตัวอย่างเช่นสมมติว่าคุณเริ่มต้นด้วยลำดับ: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) ลำดับนี้สร้างการจัดอันดับเปอร์เซ็นต์ของข้อมูล 4,000 จุด การทดสอบภาวะปกติสำหรับqnormผลลัพธ์ในซีรี่ส์นี้: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 ผลลัพธ์เป็นไปตามที่คาดไว้: ปกติของการแจกแจงแบบปกติเป็นเรื่องปกติ การสร้างการสร้างข้อมูลแบบตรงqqnorm(qnorm(xseq))(ตามที่คาดไว้): หาก boxplot ของข้อมูลเดียวกันถูกสร้างขึ้นboxplot(qnorm(xseq))ให้สร้างผลลัพธ์: Boxplot แตกต่างshapiro.test, ad.testหรือ …

3
จะแสดงโครงเรื่องของกล่องที่มีค่าผิดพลาดรุนแรงได้อย่างไร?
ฉันสามารถใช้แนวทางบางอย่างเกี่ยวกับการนำเสนอข้อมูลบางอย่าง พล็อตแรกนี้เป็นการเปรียบเทียบการควบคุมกรณีสำหรับ cytokine IL-10 ฉันได้ตั้งแกน y ด้วยตนเองเพื่อรวม 99% ของข้อมูล เหตุผลที่ฉันตั้งค่าด้วยตนเองนี้เป็นเพราะกลุ่มเคสมีค่าผิดปกติมาก ผู้ทำงานร่วมกันของฉันลังเลที่จะทำการลบข้อมูลในชุดข้อมูลของเราออกไป ฉันโอเคกับมัน แต่พวกเขาไม่ต้องการ นั่นเป็นทางออกที่ชัดเจน แต่ถ้าฉันจะเก็บข้อมูลทั้งหมดและไม่ลบค่าผิดปกตินี้ฉันจะแสดง boxplot นี้อย่างเหมาะสมได้อย่างไร แกนแยก? เป็นที่ยอมรับหรือไม่ที่จะใช้เพียงกราฟแรกและทราบว่าสร้างขึ้นเพื่อรวมข้อมูลทั้งหมดหรือไม่ (ตัวเลือกนี้รู้สึกไม่สุจริตสำหรับฉัน) คำแนะนำใด ๆ ที่จะดี

1
สัญชาตญาณของตัวอย่างที่แลกเปลี่ยนได้ภายใต้สมมติฐานว่างคืออะไร
การทดสอบการเปลี่ยนรูป (เรียกอีกอย่างว่าการทดสอบแบบสุ่มการทดสอบแบบสุ่มอีกครั้งหรือการทดสอบที่แน่นอน) มีประโยชน์มากและมีประโยชน์เมื่อสมมติฐานของการแจกแจงปกติที่ต้องการโดยตัวอย่างเช่นt-testไม่พบและเมื่อการเปลี่ยนแปลงของค่าโดยการจัดอันดับ การทดสอบแบบไม่มีพารามิเตอร์Mann-Whitney-U-testจะนำไปสู่การสูญเสียข้อมูลมากขึ้น อย่างไรก็ตามไม่ควรมองข้ามสมมุติฐานข้อเดียวและข้อเดียวเพียงข้อเดียวเมื่อใช้การทดสอบชนิดนี้คือข้อสมมติฐานของความสามารถแลกเปลี่ยนได้ของตัวอย่างภายใต้สมมติฐานว่าง เป็นที่น่าสังเกตว่าวิธีการแบบนี้สามารถใช้ได้เมื่อมีตัวอย่างมากกว่าสองตัวอย่างเช่นสิ่งที่นำไปใช้ในcoinแพ็คเกจ R คุณช่วยกรุณาใช้ภาษาที่เป็นรูปเป็นร่างหรือปรีชาเชิงแนวคิดในภาษาอังกฤษธรรมดาเพื่อแสดงสมมติฐานนี้ได้หรือไม่? นี่จะมีประโยชน์มากในการอธิบายปัญหาที่ถูกมองข้ามในหมู่ผู้ที่ไม่ใช่นักสถิติเช่นฉัน หมายเหตุ: จะเป็นประโยชน์อย่างมากหากพูดถึงกรณีที่การใช้การทดสอบการเปลี่ยนแปลงไม่ถือหรือไม่ถูกต้องภายใต้สมมติฐานเดียวกัน ปรับปรุง: สมมติว่าฉันมี 50 วิชาที่รวบรวมจากคลินิกท้องถิ่นในเขตของฉันโดยการสุ่ม พวกเขาถูกสุ่มให้รับยาหรือยาหลอกในอัตราส่วน 1: 1 พวกเขาทั้งหมดถูกวัดสำหรับ Paramerter 1 Par1ที่ V1 (พื้นฐาน), V2 (3 เดือนต่อมา) และ V3 (1 ปีต่อมา) วิชาทั้งหมด 50 กลุ่มสามารถแบ่งเป็น 2 กลุ่มตามคุณสมบัติ A; ค่าบวก = 20 และค่าลบ = 30 นอกจากนี้ยังสามารถจัดกลุ่มย่อยได้อีก 2 กลุ่มตามคุณลักษณะ B; B positive = …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
แสดงค่าเฉลี่ยแทนค่ามัธยฐานใน boxplot [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 เดือนที่ผ่านมา เมื่อพล็อตพล็อต boxplot ด้วย python matplotblib บรรทัดที่ครึ่งทางของพล็อตคือค่ามัธยฐานของการแจกแจง มีความเป็นไปได้ที่จะมีเส้นตรงแทนค่าเฉลี่ย หรือจะพล็อตติดกับมันในสไตล์ที่แตกต่าง นอกจากนี้เนื่องจากเป็นเรื่องปกติที่บรรทัดจะเป็นค่ามัธยฐานมันจะทำให้ผู้อ่านสับสนหรือไม่ถ้าฉันทำให้มันเป็นค่าเฉลี่ย (นอกหลักสูตรฉันจะเพิ่มข้อความว่าเส้นกลางคืออะไร) หรือไม่

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

2
“ เมื่อใดที่จะใช้ boxplot และเมื่อ barplot” กฎ (จากหัวแม่มือ?)
ทั้งพล็อตแบบ box-and-มัสสุและกราฟแท่งเป็นกราฟฟิคที่เหมาะสมสำหรับ ANOVA ตาม The R Book (Crawley, 2013) แต่สิ่งใดที่เหมาะสมกว่า ? ฉันคิดว่ามันขึ้นอยู่กับสถานการณ์ ... ใครช่วยฉันได้บ้าง

4
พล็อตกล่องข้อมูลใดให้ข้อมูลว่าฮิสโตแกรมไม่มี?
ฮิสโทแกรมให้ความรู้สึกที่ดีเกี่ยวกับการกระจายตัวของตัวแปร พล็อตกล่องพยายามทำสิ่งเดียวกัน แต่อย่าให้ภาพการกระจายตัวของตัวแปรนี้เป็นอย่างดี ฉันไม่เข้าใจว่าทำไมคนถึงใช้กล่องแปลง ฮิสโทแกรมดีกว่าในทุกด้าน มีเหตุผลที่ฉันจะใช้ทั้งคู่หรือไม่ สิ่งเดียวที่ฉันคิดว่าพล็อตกล่องให้คือ: ค่าผิดปกติ! มันบอกเราว่าการสังเกตใดที่อาจเป็นค่าผิดปกติ

1
แผนภูมิชนิดนี้คืออะไร?
ขออภัยสำหรับคำถามที่คลุมเครือ แต่แผนภูมินี้ปรากฏในBiddle et al ปี 2009และฉันไม่เคยเจออะไรแบบนี้มาก่อน มันเป็นแผนภูมิแท่งที่มีขอบมุมซึ่งบางครั้งก็มีเขา สิ่งเหล่านี้หมายความว่าอย่างไร แผนภูมิประเภทนี้มีชื่อหรือไม่? ต่อ/meta/244083/site-for-asking-about-chartsฉันคิดว่า Academia เป็นสถานที่ที่ดีที่สุดที่จะถาม


2
Boxplot เกี่ยวกับสองปัจจัยโดยใช้ ggplot2 ใน R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันใหม่สำหรับ R และแพ็คเกจใด ๆ ใน R. ฉันดูเอกสาร ggplot2 แต่ไม่พบสิ่งนี้ ฉันต้องการพล็อตกล่องของตัวแปรboxthisที่เกี่ยวกับสองปัจจัยและf1 f2นั่นคือสมมติว่าทั้งสองf1และf2เป็นตัวแปรปัจจัยและแต่ละคนมีสองค่าและboxthisเป็นตัวแปรต่อเนื่อง ฉันต้องการที่จะได้รับ 4 boxplots บนกราฟแต่ละสอดคล้องกับหนึ่งรวมกันจากการรวมกันไปได้ว่าf1และf2สามารถใช้ ฉันคิดว่าการใช้ฟังก์ชันพื้นฐานใน R สามารถทำได้โดย > boxplot(boxthis ~ f1 * f2 , data = datasetname) ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ
13 r  boxplot  ggplot2 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.