ฉันกำลังใช้ตัวประมาณปกติสำหรับ kurtosisแต่ฉันสังเกตเห็นว่าแม้แต่ 'ค่าผิดปกติ' ในการแจกแจงเชิงประจักษ์ของฉัน เช่นยอดเขาเล็ก ๆ ห่างจากศูนย์กลางส่งผลกระทบอย่างมาก มีตัวประมาณค่าความโด่งซึ่งมีความทนทานกว่านี้หรือไม่?
ฉันกำลังใช้ตัวประมาณปกติสำหรับ kurtosisแต่ฉันสังเกตเห็นว่าแม้แต่ 'ค่าผิดปกติ' ในการแจกแจงเชิงประจักษ์ของฉัน เช่นยอดเขาเล็ก ๆ ห่างจากศูนย์กลางส่งผลกระทบอย่างมาก มีตัวประมาณค่าความโด่งซึ่งมีความทนทานกว่านี้หรือไม่?
คำตอบ:
มีหลายแบบด้วยกัน คุณจะพบการเปรียบเทียบที่ละเอียดถี่ถ้วนใน ลิงก์นี้ไปยังบทความที่ไม่ได้ปรับปรุง (อ้างอิงที่ด้านล่างของคำตอบนี้)
เนื่องจากข้อ จำกัด ของปัญหาการแยกส่วนของอัลกอริทึมเหล่านี้ (L / RMC) ที่แข็งแกร่งที่สุดคือ 12.5% ข้อได้เปรียบของ L / RMC ก็คือมันขึ้นอยู่กับปริมาณและยังคงตีความได้แม้ว่าการแจกแจงต้นแบบไม่มีเวลา ข้อดีอีกอย่างคือมันไม่ได้ถือว่าสมมาตรของการกระจายของส่วนที่ไม่มีการปนเปื้อนของข้อมูลในการวัดน้ำหนักหาง: อันที่จริงแล้วอัลกอริทึมส่งกลับตัวเลขสองตัว: RMC สำหรับน้ำหนักหางขวาและ LMC สำหรับน้ำหนักหางซ้าย
ความทนทานของเครื่องประมาณนั้นสามารถวัดได้จากจุดแตกหัก อย่างไรก็ตามความคิดของจุดแตกหักเป็นสิ่งที่ซับซ้อนในบริบทนี้ โดยสัญชาตญาณหมายความว่าฝ่ายตรงข้ามจะต้องควบคุมอย่างน้อย 12.5% ของกลุ่มตัวอย่างของคุณเพื่อให้ตัวประมาณค่านี้ใช้ค่าตามอำเภอใจของน้ำหนักหางอยู่ในเสมอโดยการก่อสร้าง: ไม่มีการปนเปื้อนใด ๆ เช่นทำให้อัลกอริทึมกลับ -1! ในทางปฏิบัติเราพบว่าสามารถแทนที่ประมาณ 5% ของกลุ่มตัวอย่างด้วยค่าผิดปกติทางพยาธิสภาพโดยไม่ทำให้เกิดการประเมินผลกระทบมากที่สุด
L / RMC ถูกนำไปใช้อย่างกว้างขวางเช่นกัน ตัวอย่างเช่นคุณสามารถหาการดำเนินการวิจัย ที่นี่ ดังที่อธิบายไว้ในบทความที่ลิงก์ด้านบนเพื่อคำนวณ L / RMC คุณจะต้องคำนวณ MC (ตัวประมาณที่นำมาใช้ในลิงค์) แยกจากกันทางด้านซ้ายและครึ่งขวาของข้อมูลของคุณ ที่นี่ (ซ้าย) ครึ่งขวาเป็นตัวอย่างย่อยที่เกิดขึ้นจากการสังเกต (เล็กกว่า) ใหญ่กว่าค่ามัธยฐานของตัวอย่างดั้งเดิมของคุณ