ตัดค่าเฉลี่ยกับค่ามัธยฐาน


9

ฉันมีชุดข้อมูลที่มีการโทรทั้งหมดไปยังบริการฉุกเฉินและเวลาตอบสนองของแผนกรถพยาบาล พวกเขายอมรับว่ามีข้อผิดพลาดบางอย่างกับเวลาตอบสนองเนื่องจากมีบางกรณีที่พวกเขาไม่ได้เริ่มบันทึก (ดังนั้นค่าคือ 0) หรือที่พวกเขาไม่หยุดนาฬิกา (ดังนั้นค่าอาจสูงมาก)

ฉันต้องการทราบถึงแนวโน้มที่เป็นศูนย์กลางและฉันสงสัยว่ามันเป็นการดีกว่าถ้าใช้มัธยฐานหรือค่าเฉลี่ยที่ถูกตัดออกเพื่อกำจัดค่าผิดปกติหรือไม่


1
ประการแรกฉันจะลบข้อมูลที่ไม่ถูกต้องทั้งหมด (ค่า = 0) จากนั้นฉันจะเห็นภาพข้อมูลด้วยฮิสโตแกรมหรือพล็อตกล่องเพื่อดูว่าฉันอยู่ที่ไหน เพราะคุณไม่สามารถเพียงสุ่มสี่สุ่มห้าตัดข้อมูลโดย 5% ถ้าคุณมี 10% ของที่ไม่ดีข้อมูล ...
alesc

ใช่หรือพล็อต CDF ใน R ให้ทำดังนี้: times = times [times> 0]; พล็อต (ecdf (ครั้ง))
พอล

คำตอบ:


12

พิจารณาว่าค่าเฉลี่ยที่ถูกตัดคืออะไร: ในกรณีต้นแบบคุณต้องจัดเรียงข้อมูลของคุณเป็นลำดับแรก จากนั้นคุณนับได้ถึงเปอร์เซ็นต์การตัดแต่งจากด้านล่างและละทิ้งค่าเหล่านั้น ตัวอย่างเช่นค่าเฉลี่ยที่ถูกตัด 10% เป็นเรื่องปกติ ในกรณีนั้นคุณจะนับจากค่าต่ำสุดจนกว่าคุณจะผ่านข้อมูล 10% ของชุดทั้งหมด ค่าด้านล่างที่มีการตั้งค่าไว้ ในทำนองเดียวกันคุณนับถอยหลังจากค่าสูงสุดจนกว่าคุณจะผ่านเปอร์เซ็นต์การตัดแต่งของคุณและตั้งค่าทั้งหมดที่สูงกว่านั้น ตอนนี้คุณเหลือ 80% ตรงกลาง คุณใช้ค่าเฉลี่ยของค่านั้นและนั่นคือค่าเฉลี่ย 10% ที่ถูกตัดของคุณ (โปรดทราบว่าคุณสามารถตัดสัดส่วนที่ไม่เท่ากันจากสองหางหรือตัดแต่งเพียงหางเดียว แต่วิธีการเหล่านี้มีน้อยกว่าปกติและดูเหมือนจะไม่เหมาะกับสถานการณ์ของคุณ)

ตอนนี้คิดว่าจะเกิดอะไรขึ้นถ้าคุณคำนวณค่าเฉลี่ยที่ถูกตัด 50% ครึ่งล่างจะถูกจัดสรรเช่นเดียวกับครึ่งบน คุณจะเหลือเพียงค่าเดียวที่อยู่ตรงกลาง (ปกติ) คุณจะใช้ค่าเฉลี่ยของสิ่งนั้น (ซึ่งก็คือคุณจะใช้ค่านั้น) เป็นค่าเฉลี่ยที่ถูกตัด อย่างไรก็ตามโปรดทราบว่าค่านั้นเป็นค่ามัธยฐาน กล่าวอีกนัยหนึ่งค่ามัธยฐานเป็นค่าเฉลี่ยที่ถูกตัด (มันเป็นค่าเฉลี่ยที่ถูกตัด 50%) มันเป็นเพียงก้าวร้าวมาก โดยพื้นฐานแล้วสมมติว่า 99% ของข้อมูลของคุณปนเปื้อน นี้จะช่วยให้คุณป้องกันที่ดีที่สุดกับค่าผิดปกติที่ค่าใช้จ่ายของการสูญเสียที่ดีที่สุดของพลังงาน / ประสิทธิภาพ

การเดาของฉันคือค่ามัธยฐาน / ค่าเฉลี่ยที่ถูกตัด 50% นั้นมีความก้าวร้าวมากกว่าที่จำเป็นสำหรับข้อมูลของคุณและสิ้นเปลืองข้อมูลที่คุณมีอยู่มากเกินไป หากคุณมีความรู้สึกถึงสัดส่วนของค่าผิดปกติที่มีอยู่ฉันจะใช้ข้อมูลนั้นเพื่อตั้งค่าเปอร์เซ็นต์การตัดแต่งและใช้ค่าเฉลี่ยที่เหมาะสม หากคุณไม่มีพื้นฐานในการเลือกเปอร์เซ็นต์การตัดแต่งคุณสามารถเลือกหนึ่งค่าได้ด้วยการตรวจสอบข้ามหรือใช้การวิเคราะห์การถดถอยที่มีประสิทธิภาพด้วยการสกัดกั้นเท่านั้น


1
ฉันเห็นด้วยกับวิญญาณของสิ่งนี้ แต่มันอาจจะผิดเพราะหมายความว่าวิธีการที่ถูกตัดแต่งจำเป็นต้องมีพื้นฐานมาจากการตัดเศษส่วนเท่า ๆ กันในแต่ละหาง นั่นเป็นเพียงขั้นตอนทั่วไปและขั้นตอนที่กล่าวถึงบ่อยที่สุดสำหรับกรณีอ้างอิงของการแจกแจงแบบสมมาตร แต่อาจมีไขมันเป็นหาง แต่มันก็ไม่จำเป็นเลย มีวรรณกรรมเกี่ยวกับการตัดแต่งในหางเดียวเท่านั้นซึ่งทำให้รู้สึกเมื่อค่าพิรุธทั้งหมดอาจอยู่ในหาง
Nick Cox

@ NickCox จุดดี ฉันได้เพิ่มข้อความเล็กน้อยเพื่อชี้แจงว่า แจ้งให้เราทราบหากคุณคิดว่ามันต้องการมากกว่านี้
gung - Reinstate Monica

ดูดี. การตัดแต่งโดยธรรมชาติในหางเดียวเป็นกรณีพิเศษที่มีสัดส่วนไม่เท่ากันซึ่งสัดส่วนหนึ่งเป็นศูนย์
Nick Cox

@NickCox แน่นอน แต่ฉันคิดว่ามันอาจจะดีกว่าที่จะชัดเจน
gung - Reinstate Monica

-1

ก่อนอื่นให้ลบข้อมูลที่ไม่ถูกต้อง

ประการที่สองคุณไม่จำเป็นต้องลบค่าผิดปกติเนื่องจากเป็นค่าที่สังเกตได้ ในบางกรณีมันมีประโยชน์ (เช่นในการถดถอยเชิงเส้น) แต่ในกรณีของคุณฉันไม่เห็นประเด็น

ท้ายที่สุดคุณควรใช้ค่ามัธยฐานเนื่องจากแม่นยำกว่าในการค้นหาศูนย์กลางของข้อมูลของคุณ ดังที่คุณกล่าวค่าเฉลี่ยอาจมีความอ่อนไหวต่อค่าผิดปกติ


3
เนื่องจากการประมาณสถานที่เป็นกรณีของการถดถอยโดยเฉพาะฉันอยากรู้ว่าจะมีประโยชน์ในการลบค่าผิดปกติในกรณีหลัง แต่ไม่ใช่ในกรณีก่อน
user603
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.