มีตัวแปรแบบกล่องสำหรับข้อมูลแบบกระจายของปัวซองหรือไม่


33

ฉันต้องการที่จะรู้ว่ามีตัวแปร boxplot ปรับให้เข้ากับข้อมูลการกระจายปัวซอง (หรือการกระจายอื่น ๆ )

ด้วยการแจกแจงแบบเกาส์หนวดที่ L = Q1 - 1.5 IQR และ U = Q3 + 1.5 IQR บ็อกซ์ล็อตมีคุณสมบัติที่จะมีค่าผิดปกติต่ำมาก (คะแนนต่ำกว่า L) เนื่องจากมีค่าผิดปกติสูง )

หากข้อมูลที่มีการกระจาย Poisson แต่นี้ไม่ได้ถืออีกต่อไปเพราะของเบ้เชิงบวกที่เราได้รับPr (X <L) <Pr (X> U) มีวิธีอื่นในการวางเคราเช่นนี้เพื่อให้พอดีกับการแจกแจงปัวซองหรือไม่?


2
ลองเข้าสู่ระบบก่อนหรือไม่ คุณอาจพูดในสิ่งที่คุณต้องการให้บ็อกซ์ล็อตของคุณปรับตัวได้ดี
conjugateprior

2
มีปัญหาอย่างหนึ่งในการปรับเปลี่ยนดังกล่าว - ผู้คนคุ้นเคยกับคำจำกัดความของ boxplot มาตรฐานและเป็นไปได้มากที่สุดที่จะสันนิษฐานได้ว่าเมื่อคุณดูพล็อตไม่ว่าคุณจะชอบหรือไม่ก็ตาม ดังนั้นสิ่งนี้อาจทำให้เกิดความสับสนมากกว่าที่ได้รับ

@mbq:> สิ่งที่มี boxplots คือพวกเขารวมสองคุณสมบัติต่อหนึ่งเครื่องมือ คุณลักษณะการสร้างภาพข้อมูล (กล่อง) และคุณลักษณะการตรวจจับค่าผิดปกติ (หนวด) สิ่งที่คุณพูดนั้นเป็นความจริงอย่างสมบูรณ์ของอดีต แต่ภายหลังสามารถใช้การปรับเอียง
user603

@conjugateprior ต่อไปนี้เป็นตัวอย่างของปัวซอง: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 ...
Glen_b -Reinstate Monica

@Glen_b นั่นเป็นเหตุผลที่มันเป็นความเห็นไม่ใช่คำตอบ และทำไมมันมีสองส่วน
conjugateprior

คำตอบ:


31

Boxplots ไม่ได้ออกแบบมาเพื่อรับรองความน่าจะเป็นต่ำกว่าปลายเคราในทุกกรณี: พวกมันตั้งใจและมักจะใช้เป็นลักษณะกราฟิกแบบง่าย ๆ ของกลุ่มข้อมูลจำนวนมาก เช่นนี้พวกเขาก็ดีแม้ว่าข้อมูลจะมีการแจกแจงที่เบ้มาก (แม้ว่าพวกเขาอาจจะไม่เปิดเผยข้อมูลมากพอ ๆ กับที่พวกเขาทำเกี่ยวกับการแจกแจงที่ไม่แน่นอน)

เมื่อ boxplots เบ้อย่างที่พวกเขาต้องการด้วยการแจกแจงปัวซองขั้นตอนต่อไปคือการแสดงตัวแปรพื้นฐานอีกครั้ง (ด้วย monotonic เพิ่มการแปลง) และวาด boxplots อีกครั้ง เนื่องจากความแปรปรวนของการแจกแจงปัวซงเป็นสัดส่วนกับค่าเฉลี่ยของมันการแปลงสภาพที่ดีในการใช้คือรากที่สอง

แต่ละ boxplot แสดงให้เห็น 50 iid ดึงออกมาจากการแจกแจงปัวซงด้วยความเข้มที่กำหนด (จาก 1 ถึง 10 ด้วยการทดลองสองครั้งสำหรับความเข้มแต่ละครั้ง) ขอให้สังเกตว่าความเบ้มีแนวโน้มที่จะต่ำ

boxplots แบบเคียงข้างกัน

ข้อมูลเดียวกันในระดับรากที่สองมีแนวโน้มที่จะมี boxplots ที่มีความสมมาตรมากกว่าเล็กน้อยและ (ยกเว้นความเข้มต่ำสุด) จะมีค่า IQR เท่ากันโดยไม่คำนึงถึงความเข้ม)

boxplots ของข้อมูลที่ถูกแปลง

โดยรวมอย่าเปลี่ยนอัลกอริทึม boxplot: แสดงข้อมูลซ้ำอีกครั้ง


โอกาสที่เกี่ยวข้องกับการคำนวณคือโอกาสที่ความแปรปรวนอิสระอิสระจะมีค่าเกินกว่ารั้ว ( ) บน (ล่าง) ที่ประเมินจากอิสระมาจากการแจกแจงแบบเดียวกัน? U L nXULn บัญชีนี้มีข้อเท็จจริงว่ารั้วในกล่องสี่เหลี่ยมไม่ได้คำนวณจากการแจกแจงต้นแบบ แต่ถูกประเมินจากข้อมูล ในกรณีส่วนใหญ่มีโอกาสมากกว่า 1%! ตัวอย่างเช่นที่นี่ (อิงจากการทดลอง Monte-Carlo 10,000 ครั้ง) เป็นฮิสโตแกรมของบันทึก (ฐาน 10) โอกาสสำหรับกรณี :n=9

ฮิสโตแกรมของโอกาส

(เนื่องจากการแจกแจงแบบปกตินั้นสมมาตรฮิสโตแกรมนี้ใช้กับทั้งสองรั้ว) ลอการิทึมของ 1% / 2 มีค่าประมาณ -2.3 เห็นได้ชัดว่าเกือบทุกครั้งที่ความน่าจะเป็นสูงกว่านี้ ประมาณ 16% ของเวลามันเกิน 10%!

ปรากฎ (ฉันจะไม่เกะกะคำตอบนี้พร้อมรายละเอียด) ว่าการกระจายตัวของโอกาสเหล่านี้เปรียบได้กับกรณีปกติ (สำหรับเล็ก) แม้สำหรับการแจกแจงแบบปัวซงของความเข้มต่ำถึง 1 ซึ่งค่อนข้างเบ้ ความแตกต่างที่สำคัญคือมักจะมีโอกาสน้อยที่จะหาค่าที่ต่ำและมีโอกาสน้อยที่จะพบค่าที่สูงn


1
+1, ฉันไม่เคยเห็นกระทู้นี้มาก่อน ฉันทำ (ผมเชื่อว่า) จุดเดียวกับที่มีการกล่าวถึงที่นี่หลังจากที่กฎแนวนอนในลักษณะที่แตกต่างกันในโพสต์นี้: ไม่ว่าจะเป็นกรณีการลบที่มีการตั้งค่าสถานะเป็นค่าผิดปกติโดยซอฟต์แวร์ทางสถิติ
gung - Reinstate Monica

ใช่นั่นคือจุดเดียวกัน @ gung - และคุณโพสต์คำตอบที่ดีมี
whuber

26

มีลักษณะทั่วไปของกล่องแปลงมาตรฐานที่ฉันรู้ซึ่งความยาวของหนวดถูกปรับให้บัญชีสำหรับข้อมูลที่เบ้ รายละเอียดมีการอธิบายที่ดีขึ้นในกระดาษสีขาวที่ชัดเจนและรัดกุมมาก (Vandervieren, E. , Hubert, M. (2004) "พล็อตบ็อกซ์ที่ปรับสำหรับการแจกแจงเบ้" ดูที่นี่ )

มีการใช้งานของ ( ) นี้รวมถึง matlab one (ในไลบรารีที่เรียกว่า )robustbase :: adjbox () libraRrobustbase::adjbox()libra

ฉันเองพบว่ามันเป็นทางเลือกที่ดีกว่าการแปลงข้อมูล (แม้ว่ามันจะขึ้นอยู่กับกฎ Ad-hoc ดูเอกสารทางเทคนิค)

บังเอิญฉันพบว่าฉันมีบางอย่างที่จะเพิ่มในตัวอย่างของผู้หญิงที่นี่ เพื่อขยายขอบเขตที่เรากำลังพูดถึงพฤติกรรมของเคราเราควรพิจารณาสิ่งที่เกิดขึ้นเมื่อพิจารณาข้อมูลที่ปนเปื้อนด้วย:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

ในรูปแบบการปนเปื้อนนี้ B1 มีการกระจายบันทึกปกติเป็นหลักสำหรับ 20 เปอร์เซ็นต์ของข้อมูลที่เหลือครึ่งครึ่งค่าผิดครึ่งขวา (จุดแตกหักของ adjbox นั้นเหมือนกับของ boxplots ปกตินั่นคือสันนิษฐานว่ามากที่สุด ข้อมูล 25 เปอร์เซ็นต์อาจไม่ถูกต้อง)

กราฟแสดงให้เห็นถึง boxplots แบบคลาสสิกของข้อมูลที่ถูกแปลง (ใช้การแปลงรากที่สอง)

กล่องคลาสสิกบนแปลงรากที่สองของข้อมูล

และกล่องปรับของข้อมูลที่ไม่ได้แปลง

boxplot ที่ปรับปรุงแล้วของข้อมูลที่ไม่ถูกแปลง

เปรียบเทียบกับ boxplots ที่ปรับแล้วตัวเลือกในอดีตจะปกปิดค่าผิดจริงและติดป้ายกำกับข้อมูลที่ดีว่าเป็นค่าผิดพลาด โดยทั่วไปแล้วมันจะมีส่วนร่วมในการซ่อนหลักฐานของความไม่สมดุลในข้อมูลโดยการจำแนกจุดที่ผิดเป็นค่าผิดปกติ

ในตัวอย่างนี้วิธีการใช้ boxplot มาตรฐานในรากที่สองของข้อมูลพบ 13 ค่าผิดพลาด (ทั้งหมดอยู่ทางขวา) ในขณะที่ boxplot ที่ปรับแล้วพบ 10 ค่าขวาและ 14 ค่าผิดพลาดซ้าย

แก้ไข: แปลงกล่องแปลงที่สั้น

ใน boxplots 'คลาสสิค' หนวดจะถูกวางไว้ที่:

Q 3Q1 -1.5 * IQR และ + 1.5 * IQRQ3

โดยที่ IQR เป็นช่วงคคือ 25 เปอร์เซ็นไทล์และคือ 75 เปอร์เซ็นไทล์ของข้อมูล กฎของหัวแม่มือคือการพิจารณาทุกอย่างนอกรั้วเป็นข้อมูลที่น่าสงสัย (รั้วเป็นช่วงเวลาระหว่างเคราทั้งสอง)Q 3Q1Q3

กฎของหัวแม่มือนี้เป็นแบบเฉพาะกิจ: เหตุผลคือถ้าส่วนที่ไม่มีการปนเปื้อนของข้อมูลอยู่ที่ประมาณเกาส์เซียนข้อมูลที่ดีจะน้อยกว่า 1% ของข้อมูลที่ดีจะถูกจำแนกว่าไม่ดีโดยใช้กฎนี้

จุดอ่อนของกฎรั้วนี้ตามที่ OP ชี้ให้เห็นคือความยาวของหนวดทั้งสองนั้นเหมือนกันหมายถึงกฎของรั้วนั้นมีความหมายเฉพาะในกรณีที่ส่วนที่ไม่มีการปนเปื้อนของข้อมูลมีการกระจายแบบสมมาตร

วิธีที่ได้รับความนิยมคือการรักษากฎของรั้วและการปรับข้อมูล แนวคิดคือการแปลงข้อมูลโดยใช้การแปลงการแก้ไขความจำเจแบบเบ้ (สแควร์รูทหรือล็อกหรือการแปลงบ็อกซ์ทั่วไปมากขึ้น) นี่เป็นวิธีที่ยุ่งเหยิง: ขึ้นอยู่กับตรรกะวงกลม (ควรเลือกการแปลงเพื่อแก้ไขความเบ้ของส่วนที่ไม่มีการปนเปื้อนของข้อมูลซึ่งอยู่ในขั้นตอนนี้เป็นสิ่งที่สังเกตไม่ได้) และมีแนวโน้มที่จะตีความข้อมูลได้ยากขึ้น สายตา ไม่ว่าในกรณีใดก็ตามกระบวนการนี้ยังคงเป็นขั้นตอนที่แปลกประหลาดซึ่งจะมีการเปลี่ยนแปลงข้อมูลเพื่อรักษาสิ่งที่อยู่หลังกฎเฉพาะกิจทั้งหมด

อีกทางเลือกหนึ่งคือปล่อยให้ข้อมูลไม่ถูกแตะต้องและเปลี่ยนกฎมัสสุ กล่องแปลงที่ปรับแล้วอนุญาตให้ความยาวของมัสสุแต่ละอันแตกต่างกันไปตามดัชนีที่วัดความเบ้ของส่วนที่ไม่มีการปนเปื้อนของข้อมูล:

exp ( M , α ) Q 3 exp ( M , β )Q1 - 1.5 * IQR และ + 1.5 * IQRexp(M,α)Q3exp(M,β)

โดยที่เป็นดัชนีของความเบ้ของส่วนที่ไม่มีการปนเปื้อนของข้อมูล (เช่นเดียวกับค่ามัธยฐานคือการวัดตำแหน่งสำหรับส่วนที่ไม่มีการปนเปื้อนของข้อมูลหรือ MAD เป็นมาตรวัดการแพร่กระจายสำหรับส่วนที่ไม่มีการปนเปื้อนของข้อมูล) และเป็นตัวเลขที่ถูกเลือกเพื่อการกระจายที่ไม่มีการปนเปื้อนความน่าจะเป็นของการนอนอยู่นอกรั้วนั้นค่อนข้างเล็กในชุดการแจกแจงแบบเบ้จำนวนมาก (นี่คือส่วนหนึ่งของกฎรั้ว)อัลฟ่าบีตาMα β

สำหรับกรณีที่ส่วนที่ดีของข้อมูลนั้นสมมาตรและเรากลับไปที่เคราแบบดั้งเดิมM0

ผู้เขียนแนะนำให้ใช้คู่สามีภรรยาเป็นตัวประมาณค่าของ (ดูการอ้างอิงภายในกระดาษสีขาว) เนื่องจากมีประสิทธิภาพสูง (แม้ว่าในหลักการแล้วดัชนีการเอียงที่แข็งแกร่งสามารถใช้งานได้) ด้วยตัวเลือกนี้พวกเขาจึงคำนวณและเหมาะสมที่สุด(โดยใช้การแจกแจงแบบเบ้จำนวนมาก) เป็น:เอ็มอัลฟ่าบีตาMMαβ

exp ( - 4 M ) Q 3 exp ( 3 M ) M 0Q1 - 1.5 * IQR และ + 1.5 * IQR ถ้าexp(4M)Q3exp(3M)M0

exp ( - 3 M ) Q 3 exp ( 4 M ) M < 0Q1 - 1.5 * IQR และ + 1.5 * IQR ถ้าexp(3M)Q3exp(4M)M<0


1
ฉันสนใจที่จะทราบว่าคุณพบตัวอย่างของฉัน "ไม่ช่วยเหลือ" เพียงแค่สร้างแบรนด์ให้เป็นเช่นนั้นไม่สร้างสรรค์ ฉันจะยอมรับว่าตัวอย่างค่อนข้างผิดหวังในแง่ที่ว่าการแปลงข้อมูลไม่ได้แสดงถึงการปรับปรุงที่น่าทึ่ง นั่นเป็นความผิดของการแจกแจงปัวซง: พวกมันไม่เบ้มากพอที่จะคุ้มค่ากับการวิเคราะห์ทั้งหมดนี้!
whuber

@whuber:> ก่อนอื่นขออภัยด้วยน้ำเสียง: มันมาจากฉบับร่างแรกที่ไม่ได้แก้ไขและได้รับการแก้ไขแล้ว (โดยทั่วไปฉันเขียนย่อหน้าย่อหมายถึงบันทึกตัวเองแล้วซ้ำไปซ้ำมา - อันนี้หายไปใน การตอบสนองแบบยืดยาว) ตอนนี้สำหรับนักวิจารณ์เอง: ตัวอย่างของคุณแสดงพฤติกรรมของโซลูชันโดยใช้การแปลงในกรณีของข้อมูลที่ไม่ปนเปื้อน IMHO กฎมัสสุ - ควรจะประเมินเบื้องต้นด้วยแบบจำลองการปนเปื้อนในใจ
603

@user ขอบคุณสำหรับการชี้แจง ฉันไม่สนใจคำวิจารณ์ที่น่าสนใจและฉันซาบซึ้งกับการอ้างอิงถึง boxplots ที่ปรับปรุงแล้ว (+1)
whuber

ผมเห็นด้วยกับ user603 ว่ามีความแตกต่างในการตรวจสอบว่าคุณกระจายบริสุทธิ์ (เช่นในคำตอบ whubers) หรือมีข้อมูลจากการกระจายบวกค่าผิดปกติบางคน (กล่าวถึงที่นี่เป็นปนเปื้อน ) จากมุมมองของฉันในการตั้งค่าจริง boxplot ถูกใช้เพื่อสแกนหาค่าผิดปกติ ต่อไปนี้การวิเคราะห์ boxplots ที่ละเว้นค่าผิดพลาดอย่างใดอย่างหนึ่งจุด ดังนั้นคำตอบนี้ดูเหมือนจะตอบสนองวัตถุประสงค์ในการใช้ boxplots ได้ดีขึ้น
Henrik

2
@Henrik การระบุค่าผิดปกติเป็นเพียงหนึ่งในหลาย ๆ วัตถุประสงค์ของ boxplots วิธีการของ Tukey เป็นครั้งแรกเพื่อค้นหาการแสดงออกที่เหมาะสมของข้อมูลที่ทำให้การกระจายกลางของพวกเขาประมาณสมมาตร สิ่งนี้จะขัดขวางความจำเป็นในการปรับความเบ้ ที่ประสบความสำเร็จในแง่ของการอนุญาตให้เปรียบเทียบระหว่าง boxplots ซึ่งเป็นที่ที่พวกเขากลายเป็นประโยชน์อย่างแท้จริง "การปรับ" เครานั้นหมดไปกับปัญหาพื้นฐานนี้ ดังนั้นฉันจะระมัดระวังในการใช้การปรับ: ความต้องการของมันคือสัญญาณที่การวิเคราะห์ไม่ได้ทำดี
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.