ข้อดีของการ Winsorizing กับการตัดแต่งข้อมูลคืออะไร


31

ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก

ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้

มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?


2
คำศัพท์ที่นี่ทำให้เข้าใจผิด การตัดแต่งหมายถึงการไม่สนใจค่าสุดขีดเศษส่วนบางส่วนในแต่ละหาง นั่นไม่ได้หมายความถึงการลบหรือการลดลงของค่าในก้อยไม่น้อยเพราะคุณอาจและโดยปกติควรรวมไว้ในการวิเคราะห์อื่น ๆ คำที่ถูกตัดคำสงวนไว้อย่างดีที่สุดสำหรับความหมายอื่น ดูเช่นen.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

คำตอบ:


11

ในคำถามอื่นที่เกี่ยวข้องกับการตัดแต่งที่ฉันเพิ่งเจอคำตอบหนึ่งมีข้อมูลเชิงลึกที่เป็นประโยชน์ต่อไปนี้ว่าทำไมเราอาจใช้การชนะหรือการตัดแต่ง:

หากคุณใช้การกระจายที่ถูกตัดทอนคุณจะระบุอย่างชัดเจนว่า: ฉันไม่สนใจค่า / ค่าคงที่ของการกระจาย หากคุณเชื่อว่า "ค่าผิดปกติ" เป็นค่าผิดปกติจริง ๆ (กล่าวคือพวกเขาไม่ได้อยู่ในการกระจาย แต่เป็น "ชนิดอื่น") จากนั้นทำการตัดแต่ง ถ้าคุณคิดว่ามันเป็นของการแจกจ่าย แต่คุณต้องการกระจายแบบเบ้น้อยกว่าคุณอาจคิดถึงการชนะ

ฉันอยากรู้ว่ามีวิธีการที่ชัดเจนมากขึ้น แต่ตรรกะข้างต้นฟังดูสมเหตุสมผล


4

เป็นคำถามที่พบบ่อยในทุกสาขา! ไม่ว่าในกรณีใดคุณจะลบข้อมูลออกจากชุดข้อมูล

ฉันรู้ว่ามันเป็นเรื่องธรรมดาเมื่อพยายามค้นหาแนวโน้มกราฟิกเพื่อใช้รูปแบบของการตัด: ใช้ชุดข้อมูลทั้งหมดเพื่อจุดประสงค์ในการพล็อต แต่ไม่รวมค่าที่สุดสำหรับการตีความ

ปัญหาของ 'winsorizing' คือชิ้นส่วนที่คุณเพิ่มนั้นเติมได้เองนั่นคือมันมาจากชุดข้อมูลเองดังนั้นเพียงแค่สนับสนุน มีปัญหา simlar ถ้าคุณดู cross-validation / การจำแนกประเภทในการเรียนรู้ของเครื่องเมื่อตัดสินใจว่าจะใช้ชุดฝึกอบรมและทดสอบข้อมูล

ฉันไม่ได้พบวิธีการมาตรฐานในกรณีใด ๆ - มันเป็นข้อมูลที่เฉพาะเจาะจงเสมอ คุณสามารถลองหาว่าข้อมูลของคุณแบบเปอร์เซ็นไทล์ (ค่าผิดปกติ) ใดที่ก่อให้เกิดความผันผวน / เซนต์ เบี่ยงเบนและหาสมดุลระหว่างการลดความผันผวนนั้น แต่ยังคงรักษาข้อมูลให้ได้มากที่สุด


6
ในความคิดเห็นของฉันข้างต้น "การลบออกจากชุดข้อมูล" นั้นแรงเกินไป การตัดหรือ Winsorizing หมายถึงสิ่งที่มันทำไม่สนใจหรือแทนที่ตามที่อาจจะเป็นสำหรับการคำนวณบางอย่าง คุณไม่จำเป็นต้องลบค่าหางออกจากชุดข้อมูลราวกับว่าคุณกำลังโยนผลไม้เน่าเสีย ตัวอย่างเช่นเมื่อเผชิญกับค่าผิดปกติที่เป็นไปได้คุณอาจทำการวิเคราะห์ข้อมูลตามที่มาและการวิเคราะห์ตามการตัดแต่งและดูความแตกต่างที่เกิดขึ้น
Nick Cox

-1

นี่เป็นคำถามที่ดีและเป็นสิ่งที่ฉันต้องเผชิญ ในกรณีที่คุณมีชุดข้อมูลขนาดใหญ่หรือชุดข้อมูลที่แตกต่างกันมากขึ้นอย่างแม่นยำซึ่งส่วนน้อยของค่าข้อมูลจะแตกต่างกันในวงกว้าง (แต่จะต้องแสดง แต่อย่างใด) และชุดข้อมูลส่วนใหญ่อยู่ในวงแคบ เช่นถ้าข้อมูลถูกพล็อตรายละเอียดที่ข้อมูลส่วนใหญ่จะสูญหายและการทำให้เป็นมาตรฐานหรือมาตรฐานไม่แสดงความแตกต่างที่เพียงพอ (อย่างน้อยก็มองเห็นได้) หรือต้องการข้อมูลดิบแทนการตัดทอนหรือการชนะ ค่าข้อมูลสุดขีดช่วยให้มองเห็นข้อมูลได้ดีขึ้น


เป็นคำถามที่ดี แต่คุณไม่ตอบคำถาม คุณเพียงแค่บอกว่าการตัดทอนหรือ Winsorizing สามารถช่วยให้มองเห็นได้
Nick Cox

-2

O(nเข้าสู่ระบบn)O(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4


1
O(nเข้าสู่ระบบn)O(n)

คุณถูก. ฉันพิมพ์ผิดโพสต์ดั้งเดิมของฉัน บางครั้งนิ้วมือและสมองที่พิมพ์อยู่ไม่ตรงกัน ฉันหมายถึงการคำนวณค่าเฉลี่ยที่ถูกตัดทอนอย่างถูกต้องคุณต้องเรียงลำดับองค์ประกอบข้อมูลทั้งหมด ฉันเชื่อว่านี่ยังคงเป็นจริง ฉันได้รับการปรับปรุงโดยคำตอบ
Mark Lakata

2
นี่ดูเหมือนจะบอกเป็นนัยว่า Winsorizing หมายถึง Winsorizing 25% ในแต่ละหาง คุณสามารถ Winsorize มากหรือน้อยตามที่เหมาะสม
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.