พล็อต Box-and-Whisker สำหรับการกระจายหลายรูปแบบ


13

ฉันสามารถใช้พล็อตแบบ box-and-มัสสุสำหรับการแจกจ่ายแบบ multimodal หรือสำหรับการกระจายแบบ unimodal ได้หรือไม่


คำปกติสำหรับการกระจายที่มีมากกว่าหนึ่งโหมดจะเป็น ' ต่อเนื่อง ' ถ้านั่นคือสิ่งที่คุณหมายถึงโปรดแก้ไขเพื่อใช้คำปกติ หากคุณหมายถึงอย่างอื่นโปรดกำหนดคำ
Glen_b

1
พล็อตของกล่องไม่ได้มีประโยชน์สำหรับรูปร่างการกระจายที่ซับซ้อนเสมอไป Bimodal ... multimodal (ฉันเดาได้เลยว่าเป็นคำทั่วไปมากกว่ารูปร่าง "polymodal") มักจะซ่อนอยู่ ขึ้นอยู่กับความแข็งแกร่งของการออกเดินทางจาก unimodality มิฉะนั้นจะไม่มีเสียงระฆังดังขึ้นและจะไม่มีข้อความแสดงข้อผิดพลาดเกิดขึ้น แต่แม้กระทั่งฮิสโตแกรมหรือการประมาณความหนาแน่นของเคอร์เนลก็สามารถทำให้การกระจายซับซ้อน บางคนคิดว่าเป็นคุณสมบัติที่ง่ายต่อการยอมรับโหมดที่เป็นเรื่องแปลกในตัวอย่าง ฉันจะบอกว่าพล็อตประเภทเดียวที่ไม่สูญเสียข้อมูลคือพล็อตเชิงควอนตัม
Nick Cox

@Glen_b ฉันได้ ในหนังสือของฉันพวกเขากำลังพูดถึง polymodal distrubution unimodal สำหรับหนึ่งยอดที่ถูกต้อง?
user1091344

1
แน่นอนคุณสามารถใช้พล็อตกล่อง - ใครจะหยุดคุณ? ปัญหาคือ boxplot ปกติไม่ได้ระบุจำนวนโหมด (แม้ว่าจะมีการดัดแปลง boxplots ที่สามารถบ่งบอกถึง multimodality) Boxplots จะดีกว่าเมื่อความสนใจมุ่งเน้นไปที่การเปรียบเทียบระหว่างกลุ่มของสถานที่และการแพร่กระจาย หาก multimodality มีความสำคัญต่อการแสดงโดยเฉพาะอย่างยิ่งหากมีเพียงไม่กี่กลุ่ม - ฉันขอแนะนำให้ใช้การแสดงผลที่แตกต่างกันหรืออาจจะหลาย (ฉันจะขยายความคิดเห็นของฉันเป็นคำตอบเมื่อฉันทำได้)
Glen_b

1
หลักฐานของคุณไม่เอนเอียงเราให้คิดถึงหนังสือเล่มนี้
Nick Cox

คำตอบ:


20

ปัญหาคือว่าปกติ boxplot * โดยทั่วไปไม่สามารถระบุจำนวนโหมดได้ ในขณะที่บางสถานการณ์ (โดยทั่วไปหายาก) เป็นไปได้ที่จะได้รับตัวบ่งชี้ที่ชัดเจนว่าจำนวนโหมดที่เล็กที่สุดเกิน 1 มากกว่าปกติ boxplot ที่กำหนดจะสอดคล้องกับโหมดใดโหมดหนึ่งหรือมากกว่า

* แนะนำให้ดัดแปลง boxplot หลายชนิดซึ่งแนะนำให้ทำมากกว่านี้เพื่อระบุการเปลี่ยนแปลงในความหนาแน่นและ cam ที่ใช้ในการระบุโหมดหลายโหมด แต่ฉันไม่คิดว่ามันเป็นจุดประสงค์ของคำถามนี้

ตัวอย่างเช่นในขณะที่พล็อตนี้บ่งบอกถึงการมีอยู่อย่างน้อยสองโหมด (ข้อมูลถูกสร้างขึ้นเพื่อให้มีสองอย่างแน่นอน) -

ป้อนคำอธิบายรูปภาพที่นี่

ในทางกลับกันโหมดนี้มีสองโหมดที่ชัดเจนมากในการกระจายของมัน แต่คุณก็ไม่สามารถบอกได้ว่าจาก boxplot เลย:

ป้อนคำอธิบายรูปภาพที่นี่

n=

แน่นอนรูปที่ 1 ที่นี่ (ซึ่งฉันเชื่อว่าเป็นกระดาษทำงานเผยแพร่ในภายหลังใน [1]) แสดงชุดข้อมูลสี่ชุดที่มีพล็อตกล่องเดียวกัน

ฉันไม่มีข้อมูลนั้น แต่มันเป็นเรื่องเล็กน้อยที่จะสร้างชุดข้อมูลที่คล้ายกัน - ดังที่ระบุไว้ในลิงค์ด้านบนที่เกี่ยวข้องกับข้อมูลสรุปห้าหมายเลขเราต้องการเพียงการ จำกัด การกระจายของเราให้อยู่ในกล่องสี่เหลี่ยมที่ สรุปห้าหมายเลข จำกัด เราไว้ที่

นี่คือรหัส R ซึ่งจะสร้างข้อมูลที่คล้ายกับในกระดาษ:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

นี่คือการแสดงผลที่คล้ายกันกับในกระดาษของข้อมูลข้างต้น (ยกเว้นฉันแสดงทั้งสี่ boxplots ที่นี่):

ป้อนคำอธิบายรูปภาพที่นี่

ระวัง แต่ - histograms สามารถมีปัญหามากเกินไป ; อันที่จริงเราเห็นหนึ่งในปัญหาของมันที่นี่เพราะการแจกแจงในฮิสโตแกรมที่สาม "แหลม" นั้นแท้จริงแล้วคือ bimodal อย่างชัดเจน ความกว้างของฮิสโทแกรมนั้นกว้างเกินไปที่จะแสดง ยิ่งไปกว่านั้นเมื่อ Nick Cox ชี้ให้เห็นในความคิดเห็นการประมาณความหนาแน่นของเคอร์เนลอาจส่งผลต่อการแสดงผลของจำนวนโหมด (บางครั้งละทิ้งโหมด ... หรือบางครั้งแนะนำโหมดขนาดเล็ก เราจะต้องระมัดระวังในการตีความจอแสดงผลทั่วไปหลายอย่าง

มีการดัดแปลง boxplot ที่สามารถบ่งบอกถึง multimodality ได้ดีกว่า (แปลงแจกัน, ไวโอลินและแปลงถั่ว, และอื่น ๆ อีกมากมาย) ในบางสถานการณ์พวกเขาอาจมีประโยชน์ แต่ถ้าฉันสนใจที่จะค้นหาโหมดฉันมักจะดูการแสดงประเภทอื่น

x4

[1]: Choonpradub, C. , & McNeil, D. (2005),
"boxplot สามารถปรับปรุงได้หรือไม่"
Songklanakarin J. Sci. วิทยาศาสตร์และเทคโนโลยี , 27 : 3, pp. 649-657
http://www.jourlib.org/paper/2081800
pdf


2
สองความคิดเห็นที่กว้างขึ้นเกี่ยวกับโหมด 1. การทดสอบที่ดีของรูปแบบเฉพาะของการเป็นกิริยาช่วยคือการทำซ้ำในกลุ่มตัวอย่างที่มีขนาดเดียวกันซ้ำ ๆ ประสบการณ์ของฉันคือโหมดอาจไม่แน่นอนอย่างยิ่งในแง่นั้น 2. เมื่อพิจารณาถึงโหมดต่าง ๆ มันก็คุ้มค่าที่จะถามว่าโหมดนั้นมีการตีความที่สำคัญหรือไม่ แต่ทุกข้อโต้แย้งอาจผิด ถ้าฉันจำได้อย่างถูกต้องคนส่วนใหญ่จะเดาว่าการผสมผสานระหว่างเพศชายและเพศหญิงจะให้ความสำคัญกับการกระจายของความสูง แต่ก็ยากที่จะตรวจจับแม้ในตัวอย่างขนาดใหญ่ที่มีคุณภาพสูง
นิคค็อกซ์

1
@NickCox ขอบคุณ; ที่จริงแล้วฉันเดาได้ว่าความสูงจะไม่ได้ bimodal; ลองจินตนาการว่า (ประมาณคร่าวๆถึงความเป็นจริง) เราพิจารณาการแจกแจงแบบปกติสองค่าที่มีค่าเบี่ยงเบนมาตรฐานที่คล้ายกันซึ่งค่าเฉลี่ย 1sd แตกต่างกันโดยประมาณกับผู้ชายมากกว่าผู้หญิง จากนั้นในความเป็นจริงการกระจาย (ผสมของสองบรรทัดฐาน) รวมเป็น unimodal ความจริงมีความซับซ้อนน้อยกว่าแน่นอน - การแจกแจงทั้งสองอย่างเป็นการรวมตัวกันของกลุ่มชาติพันธุ์มีความเบ้แม้ในเพศและกลุ่มชาติพันธุ์มีความแตกต่างและวิธีการที่แตกต่างกันมากกว่า 1sd แต่ผลลัพธ์ (unimodality) ไม่ควรแปลกใจเรา
Glen_b -Reinstate Monica

3
เป็นมูลค่าการตั้งค่าสถานะที่ JW Tukey ในการวิเคราะห์ข้อมูลเชิงสำรวจของเขา(Reading, MA: Addison-Wesley, 1977) รวมจุดจุดของข้อมูลของ Rayleigh ซึ่งนำไปสู่การค้นพบของอาร์กอนเป็นรูปแบบ bimodal ที่ไร้ประโยชน์กล่อง จอแสดงผลในกรณีของ Tukey จะต้องใช้จุดจุดเพื่อดูโครงสร้าง Tukey เป็นที่รู้จักกันดีในชื่อกล่องและไม่เป็นที่รู้จักกันดีคือผู้ประดิษฐ์ใหม่
Nick Cox

7

มีหลายตัวเลือกสำหรับการตรวจจับ multimodality ด้วย R. Data สำหรับแผนภูมิด้านล่างนี้ถูกสร้างขึ้นด้วยสามโหมด (-3,0,1) boxplot มีประสิทธิภาพเหนือกว่าอย่างเห็นได้ชัดโดยคนอื่น ๆ (พล็อตไวโอลินดูเหมือนว่ามันมีการตั้งค่าความหนาแน่นเคอร์เนลเริ่มต้นที่แตกต่างกัน) แต่ไม่มีใครแยกความแตกต่างระหว่างโหมด 0 และ 1 มีเหตุผลน้อยมากที่จะใช้ boxplots อีกต่อไปในยุคคอมพิวเตอร์ ทำไมต้องโยนข้อมูล?

ป้อนคำอธิบายรูปภาพที่นี่

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.