'Outlier' เป็นคำที่สะดวกในการรวบรวมข้อมูลเข้าด้วยกันซึ่งไม่เหมาะกับสิ่งที่คุณคาดหวังว่ากระบวนการของคุณจะมีลักษณะเช่นนั้นเพื่อที่จะลบออกจากการวิเคราะห์
ฉันจะแนะนำไม่เคย (คำเตือนในภายหลัง) ลบค่าผิดปกติ พื้นหลังของฉันคือการควบคุมกระบวนการทางสถิติดังนั้นบ่อยครั้งที่จะจัดการกับข้อมูลอนุกรมเวลาที่สร้างขึ้นโดยอัตโนมัติจำนวนมากซึ่งถูกประมวลผลโดยใช้แผนภูมิ / พล็อตกล่องเคลื่อนไหว / ฯลฯ ขึ้นอยู่กับข้อมูลและการแจกจ่าย
สิ่งที่มีค่าผิดปกติคือพวกเขาจะให้ข้อมูลเกี่ยวกับ 'กระบวนการ' ของคุณเสมอ บ่อยครั้งที่สิ่งที่คุณคิดว่าเป็นกระบวนการเดียวจริง ๆ แล้วหลายกระบวนการและมันซับซ้อนกว่าที่คุณให้เครดิต
ใช้ตัวอย่างในคำถามของคุณฉันจะแนะนำว่าอาจมี 'กระบวนการ' จำนวนมาก จะมีการเปลี่ยนแปลงเนื่องจาก ...
- ตัวอย่างที่ถ่ายโดยอุปกรณ์สื่อกระแสไฟฟ้าหนึ่งชิ้น
- ตัวอย่างที่ถ่าย ระหว่างอุปกรณ์สื่อนำไฟฟ้า
- เมื่อผู้ทดสอบลบโพรบ
- เมื่อวัตถุเคลื่อนที่
- ความแตกต่างภายในผิวหนังของบุคคลหนึ่งทั่วร่างกายหรือระหว่างวันสุ่มตัวอย่างที่แตกต่างกัน (เส้นผม, ความชื้น, น้ำมัน ฯลฯ )
- ความแตกต่างระหว่างวิชา
- การฝึกอบรมของบุคคลที่ทำการวัดและความแตกต่างระหว่างพนักงาน
กระบวนการทั้งหมดเหล่านี้จะสร้างรูปแบบเพิ่มเติมในข้อมูลและอาจจะย้ายค่าเฉลี่ยและเปลี่ยนรูปร่างของการกระจาย หลายสิ่งเหล่านี้คุณจะไม่สามารถแยกออกเป็นกระบวนการที่แตกต่างกันได้
ดังนั้นไปที่แนวคิดในการลบจุดข้อมูลออกเป็น 'ค่าผิดปกติ' ... ฉันจะลบจุดข้อมูลออกเท่านั้นเมื่อฉันสามารถกำหนดแอตทริบิวต์เหล่านั้นให้กับ 'กระบวนการ' ที่เฉพาะเจาะจงซึ่งฉันไม่ต้องการรวมไว้ในการวิเคราะห์ของฉัน จากนั้นคุณต้องแน่ใจว่าเหตุผลของการไม่รวมถูกบันทึกไว้เป็นส่วนหนึ่งของการวิเคราะห์ของคุณดังนั้นจึงเป็นที่ชัดเจน อย่าถือว่าที่มานั่นเป็นสิ่งสำคัญเกี่ยวกับการจดบันทึกเพิ่มเติมผ่านการสังเกตระหว่างการรวบรวมข้อมูลของคุณ
ฉันจะท้าทายข้อความของคุณ 'เพราะส่วนใหญ่เป็นข้อผิดพลาดอยู่แล้ว' เนื่องจากไม่ใช่ข้อผิดพลาด แต่เป็นเพียงส่วนหนึ่งของกระบวนการที่คุณระบุในการวัดของคุณว่าแตกต่างกัน
ในตัวอย่างของคุณฉันคิดว่ามันมีเหตุผลที่จะไม่รวมจุดข้อมูลที่คุณสามารถกำหนดเป็นกระบวนการแยกต่างหากที่คุณไม่ต้องการวิเคราะห์