ฉันสามารถใช้พล็อตแบบ box-and-มัสสุสำหรับการแจกจ่ายแบบ multimodal หรือสำหรับการกระจายแบบ unimodal ได้หรือไม่
ฉันสามารถใช้พล็อตแบบ box-and-มัสสุสำหรับการแจกจ่ายแบบ multimodal หรือสำหรับการกระจายแบบ unimodal ได้หรือไม่
คำตอบ:
ปัญหาคือว่าปกติ boxplot * โดยทั่วไปไม่สามารถระบุจำนวนโหมดได้ ในขณะที่บางสถานการณ์ (โดยทั่วไปหายาก) เป็นไปได้ที่จะได้รับตัวบ่งชี้ที่ชัดเจนว่าจำนวนโหมดที่เล็กที่สุดเกิน 1 มากกว่าปกติ boxplot ที่กำหนดจะสอดคล้องกับโหมดใดโหมดหนึ่งหรือมากกว่า
* แนะนำให้ดัดแปลง boxplot หลายชนิดซึ่งแนะนำให้ทำมากกว่านี้เพื่อระบุการเปลี่ยนแปลงในความหนาแน่นและ cam ที่ใช้ในการระบุโหมดหลายโหมด แต่ฉันไม่คิดว่ามันเป็นจุดประสงค์ของคำถามนี้
ตัวอย่างเช่นในขณะที่พล็อตนี้บ่งบอกถึงการมีอยู่อย่างน้อยสองโหมด (ข้อมูลถูกสร้างขึ้นเพื่อให้มีสองอย่างแน่นอน) -
ในทางกลับกันโหมดนี้มีสองโหมดที่ชัดเจนมากในการกระจายของมัน แต่คุณก็ไม่สามารถบอกได้ว่าจาก boxplot เลย:
แน่นอนรูปที่ 1 ที่นี่ (ซึ่งฉันเชื่อว่าเป็นกระดาษทำงานเผยแพร่ในภายหลังใน [1]) แสดงชุดข้อมูลสี่ชุดที่มีพล็อตกล่องเดียวกัน
ฉันไม่มีข้อมูลนั้น แต่มันเป็นเรื่องเล็กน้อยที่จะสร้างชุดข้อมูลที่คล้ายกัน - ดังที่ระบุไว้ในลิงค์ด้านบนที่เกี่ยวข้องกับข้อมูลสรุปห้าหมายเลขเราต้องการเพียงการ จำกัด การกระจายของเราให้อยู่ในกล่องสี่เหลี่ยมที่ สรุปห้าหมายเลข จำกัด เราไว้ที่
นี่คือรหัส R ซึ่งจะสร้างข้อมูลที่คล้ายกับในกระดาษ:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
นี่คือการแสดงผลที่คล้ายกันกับในกระดาษของข้อมูลข้างต้น (ยกเว้นฉันแสดงทั้งสี่ boxplots ที่นี่):
ระวัง แต่ - histograms สามารถมีปัญหามากเกินไป ; อันที่จริงเราเห็นหนึ่งในปัญหาของมันที่นี่เพราะการแจกแจงในฮิสโตแกรมที่สาม "แหลม" นั้นแท้จริงแล้วคือ bimodal อย่างชัดเจน ความกว้างของฮิสโทแกรมนั้นกว้างเกินไปที่จะแสดง ยิ่งไปกว่านั้นเมื่อ Nick Cox ชี้ให้เห็นในความคิดเห็นการประมาณความหนาแน่นของเคอร์เนลอาจส่งผลต่อการแสดงผลของจำนวนโหมด (บางครั้งละทิ้งโหมด ... หรือบางครั้งแนะนำโหมดขนาดเล็ก เราจะต้องระมัดระวังในการตีความจอแสดงผลทั่วไปหลายอย่าง
มีการดัดแปลง boxplot ที่สามารถบ่งบอกถึง multimodality ได้ดีกว่า (แปลงแจกัน, ไวโอลินและแปลงถั่ว, และอื่น ๆ อีกมากมาย) ในบางสถานการณ์พวกเขาอาจมีประโยชน์ แต่ถ้าฉันสนใจที่จะค้นหาโหมดฉันมักจะดูการแสดงประเภทอื่น
x4
[1]: Choonpradub, C. , & McNeil, D. (2005),
"boxplot สามารถปรับปรุงได้หรือไม่"
Songklanakarin J. Sci. วิทยาศาสตร์และเทคโนโลยี , 27 : 3, pp. 649-657
http://www.jourlib.org/paper/2081800
pdf
มีหลายตัวเลือกสำหรับการตรวจจับ multimodality ด้วย R. Data สำหรับแผนภูมิด้านล่างนี้ถูกสร้างขึ้นด้วยสามโหมด (-3,0,1) boxplot มีประสิทธิภาพเหนือกว่าอย่างเห็นได้ชัดโดยคนอื่น ๆ (พล็อตไวโอลินดูเหมือนว่ามันมีการตั้งค่าความหนาแน่นเคอร์เนลเริ่มต้นที่แตกต่างกัน) แต่ไม่มีใครแยกความแตกต่างระหว่างโหมด 0 และ 1 มีเหตุผลน้อยมากที่จะใช้ boxplots อีกต่อไปในยุคคอมพิวเตอร์ ทำไมต้องโยนข้อมูล?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")