ตรวจจับค่าผิดปกติโดยใช้ค่าเบี่ยงเบนมาตรฐาน


27

ตามคำถามของฉันที่นี่ฉันสงสัยว่ามีมุมมองที่แข็งแกร่งสำหรับหรือต่อต้านการใช้ส่วนเบี่ยงเบนมาตรฐานในการตรวจสอบค่าผิดปกติ (เช่นดาต้าพอยน์ใด ๆ ที่มากกว่า 2 ส่วนเบี่ยงเบนมาตรฐานเป็นค่าผิดปกติ)

ฉันรู้ว่าสิ่งนี้ขึ้นอยู่กับบริบทของการศึกษาเช่นจุดข้อมูลขนาด 48 กิโลกรัมจะเป็นค่าที่สูงกว่าในการศึกษาน้ำหนักของทารก แต่ไม่ได้อยู่ในการศึกษาน้ำหนักของผู้ใหญ่

Outliers เป็นผลมาจากปัจจัยหลายประการเช่นความผิดพลาดในการป้อนข้อมูล ในกรณีของฉันกระบวนการเหล่านี้แข็งแกร่ง

ฉันเดาว่าคำถามที่ฉันถามคือการใช้วิธีการตรวจสอบค่าผิดปกติหรือไม่?


1
คุณพูดว่า "ในกรณีของฉันกระบวนการเหล่านี้แข็งแกร่ง" หมายความว่าอะไร? คุณแน่ใจหรือว่าคุณไม่มีข้อผิดพลาดในการป้อนข้อมูล?
Wayne

มีคำตอบที่ดีมากมายที่นี่ฉันไม่แน่ใจว่าจะตอบอย่างไร! คำแนะนำใด ๆ เกี่ยวกับสิ่งนี้จะเป็นประโยชน์
Amarald

โดยทั่วไปให้เลือกคำถามที่คุณรู้สึกว่าตอบคำถามของคุณโดยตรงและชัดเจนที่สุดและถ้ามันยากเกินไปที่จะบอกฉันจะเลือกคำถามที่มีคะแนนโหวตสูงสุด แม้จะเจ็บปวดเล็กน้อยในการตัดสินใจเลือกสิ่งใดสิ่งสำคัญคือต้องให้รางวัลแก่คนที่ใช้เวลาตอบคำถาม
Wayne

1
ป. ล. คุณช่วยอธิบายเพิ่มเติมด้วยหมายเหตุว่า "กระบวนการเหล่านี้มีประสิทธิภาพ" ได้อย่างไร? มันไม่สำคัญต่อคำตอบซึ่งมุ่งเน้นไปที่ภาวะปกติ ฯลฯ แต่ฉันคิดว่ามันมีผลกระทบบ้าง
เวย์น

3
ค่าผิดปกติไม่ใช่รุ่นฟรี ค่าผิดปกติที่อยู่ภายใต้แบบจำลองหนึ่งอาจเป็นจุดธรรมดาที่สมบูรณ์แบบในอีกแบบ คำถามแรกควรเป็น "ทำไมคุณพยายามตรวจหาค่าผิดปกติ" (แทนที่จะทำอย่างอื่นเช่นวิธีการใช้งานที่แข็งแกร่งสำหรับพวกเขา) และข้อที่สองคือ "สิ่งที่ทำให้การสังเกตเป็นเรื่องผิดปกติในแอปพลิเคชันเฉพาะของคุณ"
Glen_b -Reinstate Monica

คำตอบ:


26

ค่าผิดปกติบางอย่างชัดเจนเป็นไปไม่ได้ คุณพูดถึงน้ำหนักตัว 48 กิโลกรัม นี่เป็นข้อผิดพลาดอย่างชัดเจน นั่นไม่ใช่ปัญหาทางสถิติ แต่เป็นประเด็นที่สำคัญ ไม่มีทารกมนุษย์ 48 กิโลกรัม วิธีการทางสถิติใด ๆ ที่จะระบุจุดดังกล่าว

โดยส่วนตัวแล้วไม่ต้องพึ่งพาการทดสอบใด ๆ (แม้แต่การทดสอบที่เหมาะสมตามคำแนะนำของ @Michael) ฉันจะทำกราฟข้อมูล การแสดงว่าค่าข้อมูล (หรือค่า) บางอย่างไม่น่าจะเกิดขึ้นภายใต้การแจกแจงแบบตั้งสมมติฐานบางอย่างไม่ได้หมายความว่าค่านั้นไม่ถูกต้องและดังนั้นค่าต่างๆจึงไม่ควรถูกลบโดยอัตโนมัติ

นอกจากนี้กฎที่คุณเสนอ (2 SD จากค่าเฉลี่ย) เป็นกฎเก่าที่ใช้ในวันก่อนที่คอมพิวเตอร์จะทำสิ่งต่าง ๆ ได้ง่าย ถ้า N คือ 100,000 คุณควรคาดหวังว่าจะมีค่ามากกว่าสอง SD จากค่าเฉลี่ยแม้ว่าจะมีการแจกแจงแบบปกติที่สมบูรณ์แบบ

แต่ถ้าการกระจายนั้นผิด สมมติว่าในประชากรตัวแปรที่มีปัญหานั้นไม่ได้กระจายตามปกติ แต่มีหางที่หนักกว่านั้น?


1
อะไรคือน้ำหนักตัวที่ใหญ่ที่สุดที่คุณคิดว่าเป็นไปได้?
mark999

2
ฉันไม่รู้ แต่ก็สามารถค้นหาบันทึก ตาม answer.com (จาก google อย่างรวดเร็ว) มันเป็น 23.12 ปอนด์เกิดมาเพื่อพ่อแม่ผู้ปกครองสองคนที่มีความโอ่อ่า ถ้าฉันทำวิจัยฉันจะตรวจสอบเพิ่มเติม
Peter Flom - Reinstate Monica

เกิดอะไรขึ้นถ้าไม่มีใครตรวจสอบข้อมูลด้วยตาเปล่า (เช่นอาจเป็นส่วนหนึ่งของกระบวนการอัตโนมัติ)
user90772

เพิ่มกราฟลงในระบบอัตโนมัติอย่างใด
Peter Flom - Reinstate Monica

24

ใช่. มันเป็นวิธีที่ไม่ดีในการ "ตรวจจับ" สัตว์เลื้อยคลาน สำหรับข้อมูลที่กระจายตามปกติวิธีการดังกล่าวจะเรียก 5% ของการสังเกต "ผิดปกติ" ที่ดีอย่างสมบูรณ์แบบ นอกจากนี้เมื่อคุณมีตัวอย่างของขนาด n และคุณมองหาการสังเกตที่สูงหรือต่ำมาก ๆ เพื่อเรียกพวกมันว่าผิดคุณก็กำลังดูสถิติการเรียงลำดับ สูงสุดและต่ำสุดของตัวอย่างที่กระจายตามปกติไม่ได้กระจายตามปกติ ดังนั้นการทดสอบควรขึ้นอยู่กับการกระจายตัวของสุดขั้ว นั่นคือสิ่งที่การทดสอบของ Grubbs และการทดสอบอัตราส่วน Dixon ทำตามที่ฉันพูดถึงหลายครั้งก่อนหน้านี้ แม้ว่าคุณจะใช้การทดสอบที่เหมาะสมสำหรับผู้ผิดปกติก็ตามการสังเกตก็ไม่ควรถูกปฏิเสธเนื่องจากเป็นเรื่องที่ผิดปกติมาก คุณควรตรวจสอบว่าเหตุใดการสังเกตอย่างรุนแรงจึงเกิดขึ้นก่อน


1
เช่นเดียวกับ "ไม่ดี" เช่นเดียวกับการปฏิเสธ H0 ตามค่า p ต่ำ
ลีโอ

16

เมื่อคุณถามจำนวนค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยที่อาจเกิดขึ้นอย่าลืมว่าค่าตัวนอกนั้นจะเพิ่ม SD และจะส่งผลต่อค่าของค่าเฉลี่ยด้วย หากคุณมีค่า N อัตราส่วนของระยะทางจากค่าเฉลี่ยหารด้วย SD จะต้องไม่เกิน (N-1) / sqrt (N) เรื่องนี้มีความสำคัญมากที่สุดแน่นอนด้วยตัวอย่างเล็ก ตัวอย่างเช่นถ้า N = 3 ไม่มีค่าผิดปกติอาจมากกว่า 1.155 * SD จากค่าเฉลี่ยดังนั้นจึงเป็นไปไม่ได้ที่ค่าใด ๆ จะมากกว่า 2 SDs จากค่าเฉลี่ย (แน่นอนว่าคุณกำลังคำนวณตัวอย่าง SD จากข้อมูลในมือและไม่มีเหตุผลทางทฤษฎีที่จะต้องรู้ SD ประชากร

ค่าวิกฤตสำหรับ การทดสอบกรับส์ถูกคำนวณเพื่อพิจารณาสิ่งนี้และขึ้นอยู่กับขนาดตัวอย่าง


12

ฉันคิดว่าบริบทคือทุกสิ่ง สำหรับตัวอย่างที่ให้มาเห็นได้ชัดว่าทารก 48 กิโลกรัมผิดพลาดและการใช้ 2 ส่วนเบี่ยงเบนมาตรฐานจะจับกรณีนี้ อย่างไรก็ตามไม่มีเหตุผลที่จะคิดว่าการใช้ 2 ส่วนเบี่ยงเบนมาตรฐาน (หรือหลาย SD อื่น ๆ ) มีความเหมาะสมสำหรับข้อมูลอื่น ๆ ตัวอย่างเช่นหากคุณกำลังดูสารกำจัดศัตรูพืชตกค้างในน้ำผิวดินข้อมูลที่เกินกว่า 2 ส่วนเบี่ยงเบนมาตรฐานนั้นเป็นเรื่องธรรมดา ค่าที่สูงโดยเฉพาะเหล่านี้ไม่ใช่“ ค่าผิดปกติ” แม้ว่าจะอยู่ไกลจากค่าเฉลี่ยเนื่องจากเหตุการณ์ฝนตกการใช้สารกำจัดศัตรูพืชเมื่อเร็ว ๆ นี้และแน่นอนคุณสามารถสร้าง“ กฎแห่งหัวแม่มือ” อื่น ๆ (ทำไมไม่ใช่ 1.5 × SD หรือ 3.1415927 × SD) แต่จริงๆแล้วกฎดังกล่าวนั้นยากที่จะปกป้องและความสำเร็จหรือความล้มเหลวของพวกเขาจะเปลี่ยนไปตามข้อมูลที่คุณตรวจ ฉันคิดว่าใช้วิจารณญาณและตรรกะแม้จะเป็นเรื่องส่วนตัว เป็นวิธีที่ดีกว่าสำหรับการกำจัดค่าผิดแทนที่จะใช้กฎโดยพลการ ในกรณีนี้คุณไม่จำเป็นต้องใช้ 2 × SD เพื่อตรวจจับค่าผิดปกติ 48 กิโลกรัม - คุณสามารถให้เหตุผลได้ นั่นไม่ใช่วิธีที่เหนือกว่าใช่ไหม สำหรับกรณีที่คุณไม่สามารถให้เหตุผลได้ดีมีกฎเกณฑ์ใดที่ดีกว่านี้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.