ช่วงความเชื่อมั่นรอบอัตราส่วนของสองสัดส่วน


20

ฉันมีสองสัดส่วน (เช่นอัตราการคลิกผ่าน (CTR) บนลิงก์ในรูปแบบการควบคุมและ CTR บนลิงก์ในรูปแบบการทดลอง) และฉันต้องการคำนวณช่วงความมั่นใจ 95% รอบอัตราส่วนของสัดส่วนเหล่านี้

ฉันจะทำสิ่งนี้ได้อย่างไร ฉันรู้ว่าฉันสามารถใช้วิธีเดลต้าเพื่อคำนวณความแปรปรวนของอัตราส่วนนี้ได้ แต่ฉันไม่แน่ใจว่าต้องทำอะไรนอกจากนั้น ฉันควรใช้อะไรเป็นจุดกึ่งกลางของช่วงความมั่นใจ (อัตราส่วนที่สังเกตได้ของฉันหรืออัตราส่วนที่คาดหวังซึ่งแตกต่างกัน) และควรเบี่ยงเบนมาตรฐานรอบอัตราส่วนนี้เท่าไหร่

ฉันควรใช้ความแปรปรวนของวิธีเดลต้าเลยหรือไม่ (ฉันไม่สนใจความแปรปรวนจริงๆเพียงแค่ช่วงความมั่นใจ) ฉันควรใช้ทฤษฎีบทของ Fiellerโดยใช้กรณีที่ 1 (เนื่องจากฉันทำสัดส่วนฉันคิดว่าฉันตอบสนองความต้องการกระจายทั่วไป) ฉันควรคำนวณตัวอย่าง bootstrap หรือไม่


1
คุณมีปัญหาพื้นฐาน: สัดส่วนส่วนใหญ่มีโอกาสบวกที่จะเป็นศูนย์ดังนั้นอัตราส่วน (ของสัดส่วนอิสระ) จึงมีโอกาสที่จะไม่ได้กำหนด สิ่งนี้สามารถนำเสนอความยากลำบากอย่างรุนแรงสำหรับวิธีการโดยประมาณ (เช่นวิธีเดลต้า) และแสดงให้เห็นว่าการประมาณปกติควรจะดูมากขึ้น sceptically และทดสอบอย่างเข้มงวดมากขึ้นกว่าปกติ
whuber

Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: วิธีการทางสถิติสำหรับอัตราและสัดส่วน [1] กล่าวถึงความเสี่ยงสัมพัทธ์ซึ่งเป็นความฉลาดของสองอัตรา ฉันไม่มีหนังสือดังนั้นฉันสามารถไปตามดัชนีหัวเรื่องและสารบัญเท่านั้น แต่ห้องสมุดของคุณอาจมี [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites รองรับโมนิก้า

แน่นอน bootstrap เปอร์เซ็นไทล์จะเป็นวิธีที่ดีที่สุด?
ปีเตอร์เอลลิส

คำตอบ:


19

วิธีมาตรฐานในการทำเช่นนี้ในระบาดวิทยา (โดยปกติอัตราส่วนของสัดส่วนจะเรียกว่าอัตราส่วนความเสี่ยง ) คือการบันทึกอัตราการแปลงครั้งแรกคำนวณช่วงความเชื่อมั่นในระดับการบันทึกโดยใช้วิธีการเดลต้าและสมมติว่าการแจกแจงแบบปกติ จากนั้นเปลี่ยนกลับ วิธีนี้ใช้งานได้ดีกว่าในขนาดตัวอย่างระดับปานกลางกว่าการใช้วิธีเดลต้าในสเกลที่ไม่ถูกแปลงแม้ว่ามันจะยังทำงานได้ไม่ดีถ้าจำนวนของเหตุการณ์ในกลุ่มใดกลุ่มหนึ่งมีขนาดเล็กมากและล้มเหลวอย่างสมบูรณ์หากไม่มีเหตุการณ์ในกลุ่มใดกลุ่มหนึ่ง

หากมีและสำเร็จในทั้งสองกลุ่มจากผลรวมและการประมาณการที่ชัดเจนสำหรับอัตราส่วนของสัดส่วนคือx 2 n 1 n 2 θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

การใช้วิธีการเดลต้าและสมมติว่าทั้งสองกลุ่มมีความเป็นอิสระและประสบความสำเร็จมีการกระจายแบบทวินามคุณสามารถแสดงให้เห็นว่า เอารากของนี้จะช่วยให้ข้อผิดพลาดมาตรฐาน\) สมมติว่าโดยปกติจะถูกกระจายช่วงความมั่นใจ 95% สำหรับคือ การยกกำลังสิ่งนี้จะให้ช่วงความมั่นใจ 95% สำหรับอัตราส่วนของสัดส่วนเป็นSE ( บันทึกθ ) เข้าสู่ระบบθเข้าสู่ระบบθ เข้าสู่ระบบθ ± 1.96 SE ( บันทึกθ ) θ θประสบการณ์[ ± 1.96 SE (

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθ
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].

5
วิธีนี้ใช้งานได้ดีหากและมีขนาดใหญ่ (หลายร้อยหรือมากกว่า) และและไม่เล็กเกินไป (cหรือมากกว่า) ไม่เช่นนั้นช่วงเวลานั้นจะใหญ่เกินไป นอกจากนี้ยังต้องการวิธีการรักษากรณีบางและx_iปรากฎว่าปัญหาทั้งสองสามารถแก้ไขได้ด้วยวิธีเหมือนการแก้ไขอย่างต่อเนื่อง: เพิ่มเข้ากับทั้ง , เพิ่มเข้ากับทั้งสองและดำเนินการต่อ จากนั้น CI นี้เป็นสิ่งที่ดีอย่างน่าประหลาดใจหากทั้งสองนั้นมีหรือมากกว่าโดยไม่คำนึงถึงn 2 n 1 P 1 n 2 P 2 10 x 2 = 0 x ฉัน = n ฉัน 1 / 2 x ฉัน 1 n ฉันหน้าฉันn ฉัน 4 n ฉันn1n2n1p1n2p210x2=0xi=ni1/2xi1nipini4ขนาดของn_ini
whuber

@whuber: "วิธีต่อเนื่องแก้ไขเหมือน" - คือการใช้ 1/2 โดยเฉพาะอย่างยิ่งเคล็ดลับทั่วไปหรือไม่ (ตรงข้ามกับ pseudocount ขนาดเล็กอื่น ๆ ) วิธีที่คุณใช้ถ้อยคำทำให้เสียง 1/2 มีหลักการในทางใดทางหนึ่ง =) - ใช่ไหม?
raegtin

คำถามที่น่าสนใจ raegtin ในกรณีนี้ไม่ใช่: ฉันทดลองเพื่อค้นหาค่าเริ่มต้นที่เหมาะสม (นั่นคือความหมายของ "ปรากฎว่า") 1/2 ไม่ถูกต้องในระดับสากล; สำหรับการรวมกันของและค่าอื่น ๆ จะทำงานได้ดีขึ้นเล็กน้อย การศึกษาเชิงทฤษฎีของการกระจายตัวประมาณอาจแนะนำให้ค่าเริ่มต้นที่แตกต่างกัน n ฉันxini
whuber

เหตุใดข้อผิดพลาดมาตรฐานรากที่สองของความแปรปรวนในกรณีนี้ไม่ใช่ค่าเบี่ยงเบนมาตรฐาน
Mikko

2
@onestop สิ่งนี้นำมาใช้ในแพ็คเกจ R หรือไม่?
Bogdan Vasilescu
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.