พื้นฐานสำหรับคำจำกัดความ Box และ Whisker Plot ของค่าผิดปกติคืออะไร?


17

นิยามมาตรฐานของค่าผิดปกติสำหรับพล็อต Box และ Whisker คือจุดที่อยู่นอกช่วงโดยที่และเป็นควอไทล์ตัวแรกและคือควอไทล์ที่สามของข้อมูล{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

พื้นฐานสำหรับคำจำกัดความนี้คืออะไร ด้วยคะแนนจำนวนมากแม้การแจกแจงแบบปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ

ตัวอย่างเช่นสมมติว่าคุณเริ่มต้นด้วยลำดับ:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

ลำดับนี้สร้างการจัดอันดับเปอร์เซ็นต์ของข้อมูล 4,000 จุด

การทดสอบภาวะปกติสำหรับqnormผลลัพธ์ในซีรี่ส์นี้:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

ผลลัพธ์เป็นไปตามที่คาดไว้: ปกติของการแจกแจงแบบปกติเป็นเรื่องปกติ การสร้างการสร้างข้อมูลแบบตรงqqnorm(qnorm(xseq))(ตามที่คาดไว้):

พล็อตของ qqnorm ของข้อมูล

หาก boxplot ของข้อมูลเดียวกันถูกสร้างขึ้นboxplot(qnorm(xseq))ให้สร้างผลลัพธ์:

boxplot ของข้อมูล

Boxplot แตกต่างshapiro.test, ad.testหรือ qqnormระบุหลายจุดที่เป็นค่าผิดปกติเมื่อขนาดของกลุ่มตัวอย่างที่มีขนาดใหญ่พอสมควร (เช่นในตัวอย่างนี้)


คุณหมายถึงอะไรโดย "พื้นฐาน" นี่คือคำจำกัดความบางอย่างและไม่มีใครพูดว่าการแจกแจงแบบปกติที่สมบูรณ์แบบไม่มีค่าผิดปกติ
Haitao Du

2
@ hxd1011 นิยามของการแจกแจงไม่สามารถเป็นค่าผิดปกติได้ คำจำกัดความนี้สำหรับการทดสอบค่าผิดปกติในกล่องและพล็อตมัสสุคือการทดสอบ / บางสิ่ง / เพื่อให้ผลลัพธ์สิ่งที่เป็นการทดสอบจะเป็นพื้นฐานของการทดสอบ
Tavrock

ฉันคิดว่าคำจำกัดความที่ผิดพลาดของกล่องและมัสสุเป็นเพียงบางส่วนของฮิวริสติก ... นอกจากนี้ทำไมคำจำกัดความของการแจกแจงจึงไม่สามารถมีค่าผิดปกติได้ด้วยตนเอง
Haitao Du

3
ไม่สำคัญว่าคุณจะเลือกกฎอะไรคุณจะจบลงด้วยการพูดว่า "ด้วยคะแนนจำนวนมากแม้แต่การแจกแจงปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ" [พยายามหาวิธีการระบุค่าผิดปกติที่ไม่สามารถปฏิเสธคะแนนได้หากคุณสุ่มตัวอย่างจากการแจกแจงแบบปกติ]
Glen_b

1
เรื่องราวเล็ก ๆ น้อย ๆ ที่เกิดขึ้นซ้ำ ๆ ก็คือจอห์นทูกี้ผู้ซึ่งมาพร้อมกับกฎง่ายๆนี้ถูกถามว่าทำไม 1.5; และบอกว่า 1 จะน้อยเกินไปและ 2 จะมากเกินไป ด้วยจำนวนครั้งที่ฉันเห็นว่ามันผิดเป็นเกณฑ์ที่ชัดเจนหรือเป็นภาษาดั้งเดิมฉันจะมีความสุขมากกว่าที่มันจะจางหายไป ตอนนี้เราทุกคนมีคอมพิวเตอร์ที่สามารถแสดงข้อมูลทั้งหมดได้!
Nick Cox

คำตอบ:


25

boxplots

นี่คือส่วนที่เกี่ยวข้องจากHoaglin, Mosteller และ Tukey (2000): การทำความเข้าใจการวิเคราะห์ข้อมูลที่แข็งแกร่งและสำรวจ ไวลีย์ บทที่ 3 "เปรียบเทียบ Boxplots และ Batch" เขียนโดย John D. Emerson และ Judith Strenio (จากหน้า 62):

[... ] คำจำกัดความของค่าผิดปกติของเราเป็นค่าข้อมูลที่น้อยกว่า หรือมากกว่าค่อนข้างโดยพลการ แต่ประสบการณ์กับชุดข้อมูลจำนวนมากบ่งชี้ว่าคำจำกัดความนี้ทำหน้าที่ได้ดีในการระบุค่าที่อาจต้องให้ความสนใจเป็นพิเศษ [... ]FL32dFFU+32dF

FLและแสดงควอไทล์ที่หนึ่งและสามในขณะที่เป็นช่วงควอไทล์ (เช่น )FUdFFUFL

พวกเขาดำเนินการต่อและแสดงใบสมัครต่อประชากร Gaussian (หน้า 63):

พิจารณาการกระจาย Gaussian มาตรฐานที่มีค่าเฉลี่ยและความแปรปรวน 1เรามองหาค่าประชากรของการแจกแจงนี้ที่คล้ายคลึงกับค่าตัวอย่างที่ใช้ใน boxplot สำหรับการกระจายสมมาตรเฉลี่ยเท่ากับค่าเฉลี่ยดังนั้นเฉลี่ยประชากรของการกระจาย Gaussian มาตรฐานคือ0ประชากรในสี่เป็น และดังนั้นประชากรที่สี่คือการแพร่กระจายหรือประมาณ{3} ดังนั้นที่สี่คือ (ประมาณ ) จำนวนประชากรที่ตัดมีค่าน้อยกว่าคือ (ประมาณ0100.67450.67451.34943322.02352±2.698223 ) และมีของการกระจาย [ ... ]99.3%

ดังนั้น

[พวกเขา] แสดงให้เห็นว่าถ้ามีการใช้การตัดแบบเกาส์กับการแจกแจงแบบเกาส์แล้วของประชากรอยู่นอกการตัดที่ผิดปกติ รูปนี้แสดงมาตรฐานการเปรียบเทียบสำหรับการพิจารณาการวางตำแหน่งของการตัดที่เกินค่า [... ]0.7%

นอกจากนี้พวกเขาเขียน

[... ] ดังนั้นเราสามารถตัดสินได้ว่าข้อมูลของเราดูเหมือนจะหนักกว่าเกาส์เซียนหรือไม่โดยดูว่ามีกี่คะแนนที่เกินกว่าการตัดยอดเกินครั้งก่อนหรือไม่ [ ... ]

พวกเขาให้ตารางกับสัดส่วนที่คาดหวังของค่าที่อยู่นอกการตัดยอดเกิน (ระบุว่า "ผลรวม% ออก"):

ตารางที่ 3-2

ดังนั้นการตัดทอนเหล่านี้ซึ่งไม่เคยมีจุดประสงค์เพื่อเป็นกฎที่เข้มงวดเกี่ยวกับจุดข้อมูลใดที่ผิดปกติหรือไม่ ดังที่คุณได้กล่าวไว้แม้แต่การกระจายปกติที่สมบูรณ์แบบก็คาดว่าจะแสดง "ค่าผิดปกติ" ในรูปแบบกล่อง


ค่าผิดปกติ

เท่าที่ฉันรู้ไม่มีคำจำกัดความที่ยอมรับในระดับสากลเกี่ยวกับค่าผิดปกติ ฉันชอบคำจำกัดความของ Hawkins (1980):

ค่าผิดปกติคือการสังเกตที่เบี่ยงเบนไปจากการสังเกตอื่น ๆ เพื่อกระตุ้นความสงสัยว่ามันถูกสร้างขึ้นโดยกลไกที่แตกต่างกัน

เป็นการดีที่คุณควรปฏิบัติต่อจุดข้อมูลเป็นค่าผิดปกติเมื่อคุณเข้าใจว่าเหตุใดจึงไม่เป็นของส่วนที่เหลือของข้อมูล กฎง่าย ๆ ไม่เพียงพอ การรักษาค่าผิดปกติที่ดีสามารถพบได้ใน Aggarwal (2013)

อ้างอิง

Aggarwal CC (2013): การวิเคราะห์ที่ผิดพลาด สปริงเกอร์
Hawkins D (1980): การระบุตัวผิด แชปแมนและห้องโถง
Hoaglin, Mosteller and Tukey (2000): ทำความเข้าใจกับการวิเคราะห์ข้อมูลที่แข็งแกร่งและสำรวจ ไวลีย์


7

คำว่า 'ผิดเพี้ยน' มักจะถือว่ามีความหมายเช่น 'ค่าข้อมูลที่ผิดพลาดทำให้เข้าใจผิดเข้าใจผิดหรือแตกหักดังนั้นจึงควรละเว้นจากการวิเคราะห์' แต่นั่นไม่ใช่สิ่งที่ Tukey มีความหมายโดยการใช้ค่าเริ่มต้น ค่าผิดปกติเป็นเพียงจุดที่อยู่ห่างจากค่ามัธยฐานของชุดข้อมูล

ประเด็นของคุณเกี่ยวกับการคาดหวังค่าผิดปกติในชุดข้อมูลจำนวนมากนั้นถูกต้องและสำคัญ และมีคำถามและคำตอบที่ดีมากมายในหัวข้อนี้

การลบค่าผิดปกติออกจากข้อมูลไม่สมมาตร

การระบุและลบค่าผิดปกติเหมาะสมหรือไม่เพราะเป็นปัญหา


2

เช่นเดียวกับวิธีการตรวจหาค่าผิดปกติทั้งหมดจะต้องใช้ความระมัดระวังและความคิดเพื่อกำหนดว่าค่าใดเป็นค่าผิดปกติอย่างแท้จริง ฉันคิดว่า boxplot ให้ภาพที่ดีของการแพร่กระจายของข้อมูลและค่าผิดปกติใด ๆ จะง่ายต่อการจับ


0

ฉันคิดว่าคุณควรกังวลหากคุณไม่ได้รับค่าผิดปกติบางส่วนจากการแจกแจงแบบปกติมิฉะนั้นบางทีคุณควรมองหาเหตุผลที่ไม่มี ชัดเจนว่าควรได้รับการตรวจสอบเพื่อให้แน่ใจว่าพวกเขาไม่ได้บันทึกข้อผิดพลาด แต่อย่างอื่นพวกเขาจะต้องคาดหวัง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.