ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก
ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้
มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?