ข้อผิดพลาดมาตรฐานของการนับ


14

ฉันมีชุดข้อมูลของเหตุการณ์ที่เกิดขึ้นตามฤดูกาลของโรคที่หายาก ตัวอย่างเช่นสมมติว่ามี 180 กรณีในฤดูใบไม้ผลิ 90 ในฤดูร้อน 45 ในฤดูใบไม้ร่วงและ 210 ในฤดูหนาว ฉันกำลังดิ้นรนกับว่ามันเหมาะสมที่จะแนบข้อผิดพลาดมาตรฐานกับตัวเลขเหล่านี้ เป้าหมายการวิจัยมีความสำคัญในแง่ที่ว่าเรากำลังมองหารูปแบบตามฤดูกาลในการเกิดโรคที่อาจเกิดขึ้นอีกในอนาคต ดังนั้นจึงรู้สึกอย่างสังหรณ์ใจว่าควรเป็นไปได้ที่จะแนบการวัดความไม่แน่นอนกับผลรวม อย่างไรก็ตามฉันไม่แน่ใจว่าจะคำนวณข้อผิดพลาดมาตรฐานในกรณีนี้อย่างไรเนื่องจากเรากำลังจัดการกับการนับง่าย ๆ แทนที่จะเป็นเช่นวิธีการหรือสัดส่วน

ท้ายที่สุดคำตอบนั้นขึ้นอยู่กับว่าข้อมูลแสดงถึงจำนวนผู้ป่วย (ทุกกรณีที่เคยเกิดขึ้น) หรือสุ่มตัวอย่างหรือไม่? หากฉันไม่ผิดพลาดโดยทั่วไปไม่เหมาะสมที่จะแสดงข้อผิดพลาดมาตรฐานกับสถิติประชากรเนื่องจากไม่มีการอนุมาน


การนับเป็นสัดส่วนที่ผิดปกติเพื่อให้คุณสามารถคำนวณ st ข้อผิดพลาดของสัดส่วนและ "ทำให้ผิดปกติ" เป็นหน่วยนับถ้ามันทำให้รู้สึกสำหรับคุณ คุณพูดถูก ข้อผิดพลาดสามารถใช้ได้กับตัวอย่างเท่านั้น ในประชากรไม่มีข้อผิดพลาด
ttnphns

คำตอบ:


14

ประชากรเป็นชุด (สมมุติ) ของทุกคนที่มีความเสี่ยงที่จะเป็นโรค โดยปกติแล้วประกอบด้วยคนทุกคน (หรือกลุ่มย่อยบางกลุ่มที่สามารถระบุได้อย่างชัดเจน) ซึ่งอาศัยอยู่ในพื้นที่ศึกษา มันเป็นสิ่งสำคัญในการกำหนดประชากรนี้อย่างชัดเจนเพราะเป็นเป้าหมายของการศึกษาและการอนุมานทั้งหมดที่ทำจากข้อมูล

เมื่อกรณีของโรคที่มีอิสระ (ซึ่งอาจจะเป็นสมมติฐานที่เหมาะสมเมื่อเป็นโรคที่ไม่ได้สื่อสารได้อย่างง่ายดายระหว่างคนและไม่ได้เกิดจากสภาพแวดล้อมท้องถิ่น) และพวกเขาจะหายากแล้วนับอย่างใกล้ชิดควรเป็นไปตามการกระจาย Poisson สำหรับการกระจายนี้ประมาณการที่ดีของส่วนเบี่ยงเบนมาตรฐานของมันคือรากที่สองของการนับ

(180,90,45,210)(13.4,9.5,6.7,14.5)เหตุการณ์จำนวนจริงของโรคที่สังเกตได้ในแต่ละฤดูกาลจะแตกต่างจากอัตราจริง สแควร์รูทของอัตราจริง (แต่ไม่ทราบ!) คำนวณปริมาณของความผันแปรที่น่าจะเกิดขึ้น เนื่องจากจำนวนที่ตรวจพบควรใกล้เคียงกับอัตราจริงรากที่สองของพวกเขาควรจะเป็นผู้รับมอบฉันทะที่สมเหตุสมผลสำหรับสแควร์รูทของอัตราที่แท้จริง พร็อกซีเหล่านี้เป็นสิ่งที่หมายถึงโดย "ข้อผิดพลาดมาตรฐาน"

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8). Multiplying by 9 to convert from clusters to people gives (40,28.5,20,44). Notice how much larger these values are than before: clustering increases relative error.

เกี่ยวกับเท่าที่สามารถไปกับข้อมูลที่ จำกัด เหล่านี้ การคำนวณอย่างง่ายเหล่านี้ได้เปิดเผยว่า:

  • การจำแนกลักษณะประชากรเป็นสิ่งสำคัญ

  • สแควร์รูทของการนับเป็นจุดเริ่มต้นคร่าวๆสำหรับการประเมินข้อผิดพลาดมาตรฐาน

  • รากที่สองจะต้องมีการคูณ (ประมาณ) โดยปัจจัยบางอย่างเพื่อสะท้อนให้เห็นถึงการขาดความเป็นอิสระในกรณีของโรค (และปัจจัยนี้อาจจะเกี่ยวข้องกับขนาดของกลุ่มโรค)

  • ความแปรปรวนระหว่างจำนวนเหล่านี้สะท้อนให้เห็นถึงการเปลี่ยนแปลงในอัตราการเกิดโรคในช่วงเวลาส่วนใหญ่มากกว่าความไม่แน่นอน (ประมาณความรุนแรงปัวซองพื้นฐาน)


1
คำตอบที่ละเอียดรอบคอบมาก! ขอบคุณมาก ๆ.
ฮาล์ฟพาส

2

ฉันไม่ได้ขี้อายเมื่อถามว่า "ข้อผิดพลาดมาตรฐานคืออะไร" คุณสามารถหาค่าเฉลี่ยของตัวเลขทั้งสี่นี้และคุณสามารถคำนวณข้อผิดพลาดมาตรฐานของค่าเฉลี่ยนั้นได้ สถิตินั้นและช่วงความมั่นใจที่เกิดขึ้นจะสมเหตุสมผลถ้าคุณเชื่อว่าคุณได้รับความชอบธรรมในการรักษา 4 ฤดูกาลเหล่านั้นในฐานะตัวแทนของชุดทั้งหมดของ 4 ฤดูกาลที่คุณอาจพูดคุยกัน เท่าที่คุณได้รับความชอบธรรมข้อมูลที่คุณมีจะเป็นกลุ่มตัวอย่างแบบสุ่มของประชากร การสุ่มตัวอย่างที่คุณพูดถึงจะนำมาซึ่งชั้นการสุ่มตัวอย่างเพิ่มเติม - คุณอาจเรียกว่าการสุ่มตัวอย่างแบบคลัสเตอร์ซึ่งในแต่ละปีจะมีการรวมกลุ่ม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.