วิธีการตีความแปลงกล่องหยัก


11

ในขณะที่ทำ EDA ฉันตัดสินใจใช้พล็อตกล่องเพื่อแสดงความแตกต่างระหว่างสองระดับของปัจจัย

วิธีที่ggplotแสดงผลพล็อตกล่องนั้นเป็นที่น่าพอใจ แต่ก็ค่อนข้างง่าย (พล็อตแรกด้านล่าง) ในขณะที่ค้นคว้าลักษณะของกล่องแปลงผมเริ่มทำการทดลองด้วยรอยหยัก

ฉันเข้าใจว่ารอยหยักแสดงค่า CI รอบ ๆ ค่ามัธยฐานและหากรอยหยักสองกล่องไม่ทับซ้อนกันก็มี 'หลักฐานที่แข็งแกร่ง' - ที่ระดับความเชื่อมั่น 95% - ค่าเฉลี่ยนั้นแตกต่างกัน

ในกรณีของฉัน (พล็อตที่สอง) รอยหยักไม่ทับซ้อนกันอย่างมีความหมาย แต่ทำไมด้านล่างของกล่องทางด้านขวามือจึงมีรูปร่างแปลก ๆ ?

การพล็อตข้อมูลเดียวกันในพล็อตไวโอลินไม่ได้ระบุสิ่งผิดปกติเกี่ยวกับความหนาแน่นของความน่าจะเป็นของไวโอลินที่เกี่ยวข้อง

รูปที่ 1 boxplot

รูปที่ 2 กล่องรอยหยัก


1
ในรหัส ggplot ของคุณคุณควรใช้ fill = factor (am) เนื่องจากขณะนี้ am กำลังถูกใช้เป็นตัวแปรตัวเลข
rnso

นั่นเป็นจุดที่ดี @rnso
RDJ

ทุกคนสามารถโพสต์ข้อมูลต้นฉบับได้หรือไม่ ggplot2ผมคิดว่าพวกเขาจะจากกล่องทรายมาตรฐาน ฉันชอบความคิดในการพล็อตจุดข้อมูลแต่ละจุดเช่นกัน แต่มันก็หงุดหงิดมากจนถึงจุดที่อยู่ในกล่องมืดทำให้มองไม่เห็น
Nick Cox

คำตอบ:


18

ในกรณีของฉัน (พล็อตที่สอง) รอยหยักไม่ทับซ้อนกันอย่างมีความหมาย แต่ทำไมด้านล่างของกล่องทางด้านขวามือจึงมีรูปร่างแปลก ๆ ? ฉันจะอธิบายได้อย่างไร

มันแสดงว่าเปอร์เซ็นไทล์ที่ 25 มีค่าประมาณ 21, เปอร์เซ็นไทล์ที่ 75 ประมาณ 30.5 และขีด จำกัด ล่างและบนของรอยบากประมาณ 18 และ 27

สาเหตุทั่วไปคือการกระจายของคุณเบ้หรือขนาดตัวอย่างต่ำ ขอบเขตของรอยบนพื้นฐานของ:

median±1.57×IQRn

หากระยะห่างระหว่างค่ามัธยฐานและค่าร้อยละ 25 และระยะห่างระหว่างค่ามัธยฐานและค่าร้อยละ 75 นั้นแตกต่างกันมาก (เช่นที่ด้านขวา) และ / หรือขนาดตัวอย่างต่ำรอยบากจะกว้างขึ้น ถ้ามันกว้างพอที่รอยบากนั้นมีค่าเกินกว่าค่าเปอร์เซ็นไทล์ที่ 25 และ 75 (อาคากล่อง) พล็อตกล่องที่มีรอยบากนั้นจะแสดงรูปร่าง "Inside Out"


1
ขอบคุณมากสำหรับคำอธิบายโดยละเอียดของคุณ ให้ฉันถามว่าทำไมขีด จำกัด ล่างและบนของรอยเป็นประมาณ 17 และ 24 ไม่ใช่ประมาณ 18 และ 27 (ที่กล่องขวา)
เดนิส

@ Denis ขอบคุณสำหรับการจับที่ ฉันแก้ไขมันแล้ว
Penguin_Knight
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.