ข้อผิดพลาดมาตรฐานของค่ามัธยฐาน


14

สูตรต่อไปนี้ถูกต้องหรือไม่หากฉันต้องการวัดความคลาดเคลื่อนมาตรฐานของค่ามัธยฐานในกรณีตัวอย่างขนาดเล็กที่มีการแจกแจงแบบไม่ปกติ (ฉันใช้ไพ ธ อน)

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

คำตอบ:


12

จากความคิดเห็นของ @ mary บางตัวฉันคิดว่าสิ่งต่อไปนี้เหมาะสม เธอดูเหมือนจะเลือกค่ามัธยฐานเพราะตัวอย่างมีขนาดเล็ก

ถ้าคุณเลือกค่ามัธยฐานเพราะมันเป็นตัวอย่างเล็ก ๆ นั่นไม่ใช่เหตุผลที่ดี คุณเลือกค่ามัธยฐานเนื่องจากค่ามัธยฐานเป็นค่าที่สำคัญ มันบอกว่าบางสิ่งที่แตกต่างจากค่าเฉลี่ย คุณอาจเลือกสำหรับการคำนวณทางสถิติบางอย่างเพราะมันทนทานต่อปัญหาบางอย่างเช่นค่าผิดปกติหรือเอียง อย่างไรก็ตามขนาดตัวอย่างขนาดเล็กไม่ได้เป็นหนึ่งในปัญหาเหล่านั้นที่แข็งแกร่งต่อ ตัวอย่างเช่นเมื่อขนาดตัวอย่างเล็กลงจริง ๆ แล้วมันจะไวต่อความเบ้มากกว่าค่าเฉลี่ย


ขอบคุณจอห์น! ที่จริงฉันเลือกที่จะใช้ค่ามัธยฐานแทนค่าเฉลี่ยสำหรับเหตุผลที่คุณเพิ่งเขียน ฉันมีตัวอย่างที่แตกต่างกันพวกเขาทั้งหมดมีการกระจายแบบไม่เกาส์เซีย มีตัวอย่างที่มีมากกว่า 50 จุดส่วนที่เหลือน้อยกว่า 10 คะแนน แต่สำหรับพวกเขาทั้งหมดฉันคิดว่าความคิดเห็นของคุณถูกต้องใช่ไหม
mary

ด้วยคะแนนน้อยมากฉันไม่แน่ใจว่าสิ่งที่คุณสามารถพูดเกี่ยวกับการกระจายพื้นฐาน หากคุณกำลังเปรียบเทียบตัวอย่างที่มีน้อยกว่า 10 ตัวอย่างที่มี 50 และการแจกแจงต้นแบบไม่ใช่สมมาตรค่ามัธยฐานจะแสดงผลแม้ว่าจะไม่มีสักอันก็ตามเพราะมันจะมีอคติมากกว่าในตัวอย่างเล็ก ๆ ค่าเฉลี่ยจะไม่
จอห์น

ในอนาคตเนื้อออกคำถามของคุณดีขึ้นและถามเพิ่มเติมเกี่ยวกับสิ่งที่คุณต้องรู้ พูดว่าทำไมคุณถึงทำสิ่งที่คุณทำไปแล้วและอธิบายข้อมูลที่คุณมีดี คุณจะได้รับคำตอบที่ดีกว่ามาก
จอห์น

1
" ตัวอย่างขนาดเล็กไม่ได้เป็นหนึ่งในปัญหาเหล่านั้นที่แข็งแกร่งต่อ " มีค่า +1 ด้วยตัวเอง; ส่วนที่เหลือเป็นโบนัส
Glen_b -Reinstate Monica

ตามความเป็นจริงฮูเบอร์ได้ชี้ให้เห็นในหนังสือของเขาว่าไม่มีแนวคิดเรื่องความแข็งแกร่ง มีความทนทานต่อค่าผิดปกติ (และนั่นคือสิ่งที่มัธยฐานแข็งแกร่งสำหรับ) อย่างไรก็ตามอีกมุมมองหนึ่งนั้นมีความทนทานต่อข้อผิดพลาดในการวัดและนั่นคือสิ่งที่ค่าเฉลี่ยนั้นแข็งแกร่งสำหรับมันเนื่องจากค่าเฉลี่ยข้อผิดพลาดการวัด อย่างไรก็ตามค่ามัธยฐานนั้นมีความอ่อนไหวอย่างมากต่อความผันผวนของข้อผิดพลาดในการวัดเนื่องจากอาจส่งผลกระทบต่อการกระจายกลางเช่นเดียวกับหาง
StasK

12

Sokal และ Rohlf ให้สูตรนี้ในหนังสือของพวกเขาBiometry (หน้า 139) ภายใต้ "ความคิดเห็นเกี่ยวกับการบังคับใช้" พวกเขาเขียน: ตัวอย่างขนาดใหญ่จากประชากรปกติ ดังนั้นฉันกลัวว่าคำตอบสำหรับคำถามของคุณจะไม่ ดูเพิ่มเติมที่นี่

วิธีหนึ่งที่จะได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับค่ามัธยฐานในกลุ่มตัวอย่างขนาดเล็กที่มีการแจกแจงแบบไม่ปกติจะเป็นการบูตสแตรป โพสต์นี้ให้ลิงก์ไปยังแพ็คเกจ Python สำหรับการบูตสแตรป

คำเตือน

@whuber ชี้ให้เห็นว่าการบูตการแบ่งมัธยฐานในตัวอย่างเล็ก ๆ นั้นไม่ได้ให้ข้อมูลมากนักเนื่องจากเหตุผลของ bootstrap นั้นเป็นแบบไม่แสดงอาการ (ดูความคิดเห็นด้านล่าง)


ขอบคุณสำหรับคำตอบ! ฉันรู้ว่าการบูตสแตรปจะเป็นทางเลือกฉันแค่เดาว่ามีวิธีวัดความผิดพลาดของค่ามัธยฐานในวิธีที่ต่างออกไป คำตอบไม่ได้สำหรับข้อผิดพลาดมาตรฐานใน MEAN (ตัวอย่างเล็ก ๆ ที่ไม่ใช่ gaussian เดียวกัน) หรือไม่
mary

@ แมรี่สำหรับข้อผิดพลาดมาตรฐานของค่าเฉลี่ย Sokal และ Rohl เขียนว่ามันใช้งานได้สำหรับ "[... ] ประชากรใด ๆ ที่มีความแปรปรวนแน่นอน" ดังนั้นคำตอบสำหรับความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยจึงน่าจะใช่คุณสามารถคำนวณได้ Sidenote: มีการแจกแจงแม้ว่า (เช่นการกระจาย Cauchy) ที่ไม่มีความแปรปรวนหรือค่าเฉลี่ยที่กำหนดไว้และในกรณีเช่นนี้ SEM ไม่สามารถคำนวณได้
COOLSerdash

5
tt

@whuber ขอบคุณสำหรับความคิดเห็นของคุณ เป็นเรื่องดีที่รู้ ฉันลบคำแนะนำในการบูตค่ามัธยฐานในตัวอย่างเล็ก ๆ จากคำตอบของฉัน
COOLSerdash

1
ฉันไม่ได้พยายามแนะนำว่าเป็นคำแนะนำที่ไม่ดี: ฉันแค่ต้องการชี้ให้เห็นข้อ จำกัด (หลีกเลี่ยงไม่ได้) เท่านั้น การเรียนรู้จากตัวอย่างเล็ก ๆ น้อย ๆ นั้นยาก แต่การทำให้เป็นตัวอย่างเล็ก ๆ นั้นเต็มไปด้วยความหนาแน่นเป็นสองเท่าเพราะไม่มีเหตุผลทางทฤษฎีที่จะสนับสนุน (เหตุผลทั้งหมดเป็นแบบซีมโทติค)
whuber

12

As.Var.[m^]=14f(m)2n
mf(m)

m^

  1. ว่าสูตร asymptotic สำหรับความแปรปรวนทำงานได้กับกลุ่มตัวอย่างขนาดเล็ก
  2. ค่ามัธยฐานโดยประมาณนั้นใกล้เคียงกับค่ากลางจริง
  3. การประมาณความหนาแน่นของเคอร์เนลให้ค่าที่ถูกต้อง

ยิ่งขนาดตัวอย่างน้อยลงเท่าใดก็ยิ่งน่าสงสัยมากเท่านั้น


3
π21.253314
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.