'bagplot' หรือ 'bivariate boxplot' คืออะไร?


11

ฉันพบกระดาษที่แนะนำ boxplot รุ่นหลายมิติ (ที่นี่) กระเป๋าใบนั้นคืออะไรกันแน่? ฉันสามารถเห็นชุดของรูปหลายเหลี่ยมซ้อนกันขึ้นอยู่กับจุดยอดหนึ่งในรูปหลายเหลี่ยมเหล่านั้นถูกประกาศให้เป็นกระเป๋า แนวคิดของการสร้างรูปหลายเหลี่ยมซ้อนกันคืออะไร รูปหลายเหลี่ยมใดที่เป็นรูปแบบถุง (กลางหรือถือจำนวนคะแนนเฉลี่ย) ขอบของกระเป๋ามีคุณสมบัติที่มีประโยชน์ (เช่นการแบ่งชุดจุดเฉพาะ) หรือไม่?


3
มีบทความโดย Rousseeuw, Pits และ Tukey ใน American Statisticsian ที่อธิบายสิ่งเหล่านี้ ฉันด้วยเหตุผลบางอย่างมีปัญหาในการวางลิงค์ แต่ Googling "bagplot" และ "Tukey" จะพบว่ามัน
Peter Flom

1
พบเฉพาะในราคาที่อุกอาจ ยังคงค้นหา.
mbaitoff

1
หากคุณมีสิทธิ์เข้าถึงไลบรารี่ที่ดีพวกเขาควรจะมีมัน สถิติชาวอเมริกันค่อนข้างสมัครเป็นสมาชิก นอกจากนี้ยังมีบางอย่างเกี่ยวกับโควต้า แต่ฉันไม่ได้ดู
Peter Flom

2
Rousseeuw และ Ruts มีบทความออนไลน์อีกฉบับหนึ่งนอกเหนือจาก American Statisticsian ในรูปแบบ postscriptฟรี
Andy W

@AndyW, ขอให้คุณเป็นเพื่อน SPSS: คุณคิดว่าเป็นไปได้อย่างไรที่จะทำผ่าน GPL คุณจะคิดค้นรหัสสำหรับพวกเรา SPSSers ไหม?
ttnphns

คำตอบ:


13

นี่คือตัวอย่างที่มีหมายเหตุ:

นี่คือบทความThe Bagplot: A Bivariate Boxplotโดย Peter J. Rousseeuw, Ida Ruts และ John W. Tukey จากThe American Statistician: http://venus.unive.it/romanaz/ada2/bagplot.pdf

จากนามธรรมของบทความนั้น:

"มัธยฐานเชิงลึก" คือตำแหน่งที่ลึกที่สุดและล้อมรอบด้วย "กระเป๋า" ที่มีการสังเกตการณ์ n / 2 ที่มีความลึกมากที่สุด การขยายกระเป๋าด้วยปัจจัย 3 จะทำให้“ รั้ว” (ซึ่งไม่ได้พล็อต) การสังเกตระหว่างถุงและรั้วนั้นมีการทำเครื่องหมายด้วยห่วงสีเทาอ่อนในขณะที่การสังเกตด้านนอกรั้วนั้นถูกทำเครื่องหมายเป็นค่าผิดปกติ Bagplot แสดงให้เห็นถึงตำแหน่งการแพร่กระจายความสัมพันธ์ความเบ้และส่วนท้ายของข้อมูล

นี่คือภาพประกอบของส่วนสำคัญ:

ป้อนคำอธิบายรูปภาพที่นี่

การสนทนาเพิ่มเติมสามารถพบได้ในต่อไปนี้:

จากเอกสารช่วยเหลือของaplpackแพคเกจ (สำหรับRผู้ใช้):

Bagplot เป็นลักษณะทั่วไปของตัวแปรบ็อกซ์ล็อตที่รู้จักกันดี มันถูกเสนอโดย Rousseeuw, Ruts และ Tukey ในกรณี bivariate กล่องของ boxplot เปลี่ยนเป็นฮัลล์นูน, กระเป๋าของ bagplot ในกระเป๋ามี 50 เปอร์เซ็นต์ของคะแนนทั้งหมด รั้วแบ่งจุดในรั้วออกจากจุดภายนอก มันคำนวณได้โดยการเพิ่มถุง ห่วงถูกกำหนดให้เป็นรูปหลายเหลี่ยมนูนที่มีจุดทั้งหมดภายในรั้ว หากคะแนนทั้งหมดอยู่ในแนวเส้นตรงคุณจะได้รับ boxplot แบบคลาสสิก Bagplot () แผนการแปลงที่คล้ายกับที่อธิบายไว้ใน Rousseeuw et al ข้อสังเกต: ค่ามัธยฐานสองมิติเป็นค่าประมาณ มีปัญหาที่ทราบกันดีเกี่ยวกับชุดข้อมูลขนาดเล็ก (แต่ฉันคิดว่าไม่ควรทำการสรุป (กราฟิก) เช่น 10 คะแนน)

ในกรณีที่ผู้คนต้องการพล็อตถุง (ซ้อนทับหลายจุด) จะสะดวกถ้าแปลงเป็นแบบกึ่งโปร่งใส ด้วยเหตุผลนี้แฟล็กความโปร่งใสถูกเพิ่มเข้ากับคำสั่ง bagplot ถ้า transparent == TRUE เลเยอร์ alpha จะถูกตั้งค่าเป็น '99' (hex) สิ่งนี้ทำให้ bagplots ปรากฏแบบกึ่งโปร่งใส แต่เฉพาะเมื่ออุปกรณ์ส่งออกเป็น PDF และเปิดโดยใช้: pdf (file = "filename.pdf", version = "1.4") ด้วยเหตุผลนี้ค่าเริ่มต้นคือ transparent == FALSE คุณสมบัตินี้รวมถึงข้อโต้แย้งเพื่อระบุสีที่แตกต่างได้ถูกเสนอโดย Wouter Meuleman

และตัวอย่าง:

library(aplpack)
attach(mtcars)
bagplot(wt, mpg, xlab="Car Weight", 
        ylab="Miles Per Gallon",
        main="Bagplot Example", 
        transparency = TRUE, 
        show.whiskers = FALSE, 
        # note that data a 'fence' separates inliers from outliers, 
        # and a 'loop' indicates the points outside the bag but 
        # inside the fence. In the 'bag' are 50 percent of all 
        # points
        show.loophull = TRUE, # draw 'loop'?
        show.baghull = TRUE)  # draw 'bag'?

ป้อนคำอธิบายรูปภาพที่นี่

คำถามที่เกี่ยวข้อง:


4
ปรับปรุง: คนทำ Geom ggplot2 สำหรับการนี้: gist.github.com/benmarwick/00772ccea2dd0b0f1745 บางทีผู้ใช้ที่กล้าได้กล้าเสียสามารถเปลี่ยนสิ่งนี้ให้เป็นแพ็คเกจได้
shadowtalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.