คำถามติดแท็ก trimmed-mean

4
ข้อดีของการ Winsorizing กับการตัดแต่งข้อมูลคืออะไร
ข้อมูลการล้างข้อมูลหมายถึงการแทนที่ค่าสูงสุดของชุดข้อมูลด้วยค่าเปอร์เซ็นไทล์ที่แน่นอนจากปลายแต่ละด้านในขณะที่การตัดหรือตัดทอนนั้นเกี่ยวข้องกับการลบค่าสุดขีดเหล่านั้นออก ฉันมักจะเห็นวิธีการทั้งสองที่กล่าวถึงเป็นตัวเลือกที่ทำงานได้เพื่อลดผลกระทบของค่าผิดปกติเมื่อคำนวณสถิติเช่นค่าเฉลี่ยหรือส่วนเบี่ยงเบนมาตรฐาน แต่ฉันไม่เห็นว่าทำไมจึงมีวิธีหนึ่งที่เลือกได้ มีข้อดีหรือข้อเสียที่เกี่ยวข้องกับการใช้ Winsorizing หรือ Trimming หรือไม่? มีสถานการณ์บางอย่างที่จะใช้วิธีใดวิธีหนึ่งดีกว่า มีการใช้บ่อยครั้งในทางปฏิบัติหรือใช้แทนกันโดยทั่วไปหรือไม่?

3
ฉันจะตีความพล็อตเปอร์เซ็นต์การตัดแต่งเทียบกับค่าเฉลี่ยที่ถูกตัดได้อย่างไร
สำหรับคำถามการบ้านฉันถูกขอให้คำนวณค่าเฉลี่ยที่ถูกตัดสำหรับชุดข้อมูลโดยการลบการสังเกตที่เล็กที่สุดและใหญ่ที่สุดและตีความผลลัพธ์ ค่าเฉลี่ยที่ถูกตัดนั้นต่ำกว่าค่าเฉลี่ยที่ไม่ได้รับการตัดต่อ การตีความของฉันคือว่านี่เป็นเพราะการแจกแจงพื้นฐานนั้นเบ้ในทางบวกดังนั้นหางซ้ายจึงทึบกว่าหางขวา ผลที่ตามมาจากความเบ้นี้การลบตัวเลขที่สูงจะลากค่าเฉลี่ยลงมากกว่าการลบค่าต่ำที่ผลักมันขึ้นเพราะการพูดอย่างไม่เป็นทางการมีข้อมูลต่ำมาก "รอให้เกิดขึ้น" (มันสมเหตุสมผลหรือไม่) จากนั้นฉันก็เริ่มสงสัยว่าเปอร์เซ็นต์การตัดแต่งมีผลต่อสิ่งนี้อย่างไรดังนั้นฉันคำนวณค่าเฉลี่ยที่ถูกตัดสำหรับต่าง ๆ n ฉันมีรูปโค้งที่น่าสนใจ: x¯tr(k)x¯tr⁡(k)\bar x_{\operatorname{tr}(k)}k=1/n,2/n,…,(n2−1)/nk=1/n,2/n,…,(n2−1)/nk = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n ฉันค่อนข้างไม่แน่ใจว่าจะตีความสิ่งนี้อย่างไร โดยสังหรณ์ใจดูเหมือนว่าความชันของกราฟควรเป็น (สัดส่วน) ความเบ้ลบของส่วนการกระจายภายในจุดข้อมูลของค่ามัธยฐาน (สมมติฐานนี้ตรวจสอบกับข้อมูลของฉัน แต่ฉันมีเพียงดังนั้นฉันไม่มั่นใจมาก)kkkn=11n=11n = 11 กราฟประเภทนี้มีชื่อหรือใช้กันทั่วไปหรือไม่ เราสามารถรวบรวมข้อมูลอะไรจากกราฟนี้ มีการตีความมาตรฐานหรือไม่? สำหรับการอ้างอิงข้อมูลคือ: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80

2
ตัดค่าเฉลี่ยกับค่ามัธยฐาน
ฉันมีชุดข้อมูลที่มีการโทรทั้งหมดไปยังบริการฉุกเฉินและเวลาตอบสนองของแผนกรถพยาบาล พวกเขายอมรับว่ามีข้อผิดพลาดบางอย่างกับเวลาตอบสนองเนื่องจากมีบางกรณีที่พวกเขาไม่ได้เริ่มบันทึก (ดังนั้นค่าคือ 0) หรือที่พวกเขาไม่หยุดนาฬิกา (ดังนั้นค่าอาจสูงมาก) ฉันต้องการทราบถึงแนวโน้มที่เป็นศูนย์กลางและฉันสงสัยว่ามันเป็นการดีกว่าถ้าใช้มัธยฐานหรือค่าเฉลี่ยที่ถูกตัดออกเพื่อกำจัดค่าผิดปกติหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.