ตราบใดที่ข้อมูลของคุณมาจากการแจกจ่ายที่รู้จักพร้อมคุณสมบัติที่เป็นที่รู้จักคุณสามารถกำหนดค่าผิดพลาดเป็นเหตุการณ์ที่ไม่น่าจะเกิดขึ้นจากกระบวนการที่สังเกตได้ (ถ้าคุณพิจารณาว่า "ไม่น่าจะเกินไป" ที่จะเข้มงวด การทดสอบสมมติฐานทั้งหมดคือ)
อย่างไรก็ตามวิธีการนี้มีปัญหาในสองระดับ: สันนิษฐานว่าข้อมูลมาจากการกระจายที่รู้จักพร้อมคุณสมบัติที่เป็นที่รู้จักและนำความเสี่ยงที่ค่าผิดปกติถูกมองว่าเป็นจุดข้อมูลที่ลักลอบนำเข้าสู่ข้อมูลของคุณ
ในกรณีที่ไม่มีแหล่งข้อมูลเวทมนต์ข้อมูลทั้งหมดมาจากการทดสอบของคุณและดังนั้นจึงเป็นไปไม่ได้ที่จะมีค่าผิดปกติซึ่งเป็นผลลัพธ์ที่แปลก สิ่งเหล่านี้อาจเกิดจากข้อผิดพลาดในการบันทึก (เช่นบ้าน 400,000 ห้องนอนสำหรับ 4 ดอลลาร์) ปัญหาการวัดอย่างเป็นระบบ (อัลกอริทึมการวิเคราะห์รูปภาพรายงานพื้นที่ขนาดใหญ่หากวัตถุอยู่ใกล้กับชายแดนมากเกินไป) ปัญหาการทดลอง (บางครั้งผลึกตกตะกอน ซึ่งให้สัญญาณสูงมาก) หรือคุณสมบัติของระบบของคุณ (เซลล์บางครั้งสามารถแบ่งออกเป็นสามส่วนแทนสอง) แต่พวกเขายังสามารถเป็นผลมาจากกลไกที่ไม่มีใครเคยพิจารณาเพราะมันหายากและคุณกำลังทำการวิจัย ซึ่งหมายความว่าบางสิ่งที่คุณทำนั้นยังไม่เป็นที่รู้จัก
เป็นการดีที่คุณใช้เวลาในการตรวจสอบทุกค่าใช้จ่ายและลบออกจากชุดข้อมูลของคุณเมื่อคุณเข้าใจว่าทำไมมันไม่เหมาะกับแบบจำลองของคุณ สิ่งนี้ใช้เวลานานและมีความรู้สึกว่าเหตุผลนั้นขึ้นอยู่กับการทดสอบเป็นอย่างมาก แต่ทางเลือกนั้นแย่กว่านั้นคือ: หากคุณไม่เข้าใจว่าค่าผิดปกติมาจากไหนคุณมีทางเลือกระหว่างการแจ้งค่าผิดปกติ หรือกำหนดวิธีการ "เข้มงวดทางคณิตศาสตร์" บางอย่างเพื่อซ่อนความไม่เข้าใจของคุณ ในคำอื่น ๆ โดยการใฝ่หา "ความเข้มงวดทางคณิตศาสตร์" คุณเลือกระหว่างไม่ได้รับผลกระทบที่สำคัญและไม่ได้เข้าสวรรค์
แก้ไข
หากสิ่งที่คุณมีคือรายการตัวเลขโดยไม่ทราบว่ามาจากไหนคุณจะไม่มีทางบอกได้ว่าจุดข้อมูลบางจุดเป็นค่าผิดปกติหรือไม่เพราะคุณสามารถสันนิษฐานได้ว่าการแจกแจงนั้นอยู่ที่ไหน