ขนาดตัวอย่างสำหรับการถดถอยโลจิสติก?


26

ฉันต้องการสร้างแบบจำลองโลจิสติกส์จากข้อมูลการสำรวจของฉัน เป็นการสำรวจขนาดเล็กของอาณานิคมทั้งสี่แห่งซึ่งมีผู้ตอบแบบสอบถามเพียง 154 คนเท่านั้น ตัวแปรตามของฉันคือ "การเปลี่ยนไปใช้งานที่น่าพอใจ" ฉันพบว่าจากผู้ตอบแบบสอบถาม 154 คน 73 คนกล่าวว่าพวกเขาเปลี่ยนใจไปทำงานเป็นที่น่าพอใจในขณะที่คนอื่น ๆ ไม่ได้ทำงาน ดังนั้นตัวแปรตามคือไบนารีในธรรมชาติและฉันตัดสินใจใช้การถดถอยโลจิสติก ฉันมีเจ็ดตัวแปรอิสระ (สามต่อเนื่องและสี่เล็กน้อย) แนวทางหนึ่งแนะนำว่าควรมี 10 กรณีสำหรับตัวแปรทำนาย / อิสระแต่ละตัว (Agresti, 2007) จากแนวทางนี้ฉันรู้สึกว่ามันเป็นการตกลงที่จะเรียกใช้การถดถอยโลจิสติก

ฉันถูกไหม? ถ้าไม่โปรดแจ้งให้เราทราบวิธีการตัดสินใจจำนวนตัวแปรอิสระ?


3
ฉันไม่เคยเข้าใจกฎง่ายๆที่บอกว่า "10 รายสำหรับผู้ทำนายแต่ละคน" (และน่าเสียดายที่ฉันไม่สามารถเข้าถึงหนังสือที่เขียนโดย Agresti) สิ่งที่ฉันหมายถึงคือ: ถ้าฉันมี 100 วิชาที่ 10 เป็นกรณี ( 1ของ) และ 90 ไม่ใช่คดี ( 0ของ) แล้วกฎบอกว่า "รวมเพียง 1 ทำนาย" แต่ถ้าฉันทำตัวเป็นแบบจำลอง0แทนที่จะ1เป็นแล้วฉันก็ใช้ส่วนกลับของอัตราส่วนอัตราต่อรองโดยประมาณ ฉันจะได้รับอนุญาตให้รวมตัวทำนาย 9 ตัวหรือไม่ นั่นทำให้ฉันไม่มีเหตุผล
boscovich

ถึงอันเดรียฉันได้พูดในสิ่งเดียวกันกับที่คุณหมายถึง จากผู้ตอบแบบสอบถาม 154 รายมี 73 กรณี (ของ 1 และ 0 ที่เหลือ) คุณช่วยถามคำถามของฉันหน่อยได้ไหม!
Braj-Stat

4
ในอรรถกถาฉันได้อ่านว่าต้องดูอย่างน้อยจำนวนเหตุการณ์และไม่ใช่เหตุการณ์ ดังนั้นในตัวอย่างของ 10/100 คุณจะได้ผู้ทำนายหนึ่งคนโดยไม่คำนึงว่าคุณจะเขียนมันอย่างไร
psj

@psj ที่ฟังดูสมเหตุสมผล คุณมีการอ้างอิงใด ๆ
boscovich

1
มีการอภิปรายที่เกี่ยวข้องอยู่ที่นี่: ขั้นต่ำจำนวนของการสังเกตสำหรับโลจิสติก-ถดถอย
gung - Reinstate Monica

คำตอบ:


25

มีหลายประเด็นที่นี่

โดยปกติเราต้องการที่จะกำหนดขนาดของกลุ่มตัวอย่างขั้นต่ำเพื่อให้บรรลุในระดับที่ยอมรับได้น้อยที่สุดของอำนาจทางสถิติ ขนาดตัวอย่างที่ต้องการคือฟังก์ชั่นของปัจจัยหลายอย่างโดยหลักแล้วขนาดของเอฟเฟกต์ที่คุณต้องการจะแตกต่างจาก 0 (หรือสิ่งใดก็ตามที่คุณใช้เป็นโมฆะ แต่ 0 เป็นเรื่องธรรมดามากที่สุด) และความน่าจะเป็นขั้นต่ำ ต้องการจะมี. ทำงานจากมุมมองนี้ขนาดตัวอย่างถูกกำหนดโดยการวิเคราะห์พลังงาน

สิ่งที่ควรพิจารณาอีกประการคือความเสถียรของแบบจำลองของคุณ (ตามบันทึก @cbeleites) โดยทั่วไปเมื่ออัตราส่วนของพารามิเตอร์ที่ประมาณจำนวนข้อมูลใกล้เคียงกับ 1 แบบจำลองของคุณจะอิ่มตัวและจำเป็นต้องมีความเหมาะสมมากเกินไป (ยกเว้นในความเป็นจริงไม่มีการสุ่มในระบบ) กฎของอัตราส่วน 1 ถึง 10 ของหัวแม่มือมาจากมุมมองนี้ โปรดทราบว่าโดยทั่วไปแล้วการมีพลังอำนาจที่เพียงพอจะครอบคลุมข้อกังวลนี้ของคุณ แต่ไม่ใช่ในทางกลับกัน

อย่างไรก็ตามกฎ 1 ถึง 10 นั้นมาจากโลกของการถดถอยเชิงเส้นดังนั้นสิ่งสำคัญคือต้องตระหนักว่าการถดถอยโลจิสติกส์มีความซับซ้อนเพิ่มขึ้น ปัญหาหนึ่งคือการถดถอยโลจิสติกทำงานได้ดีที่สุดเมื่อเปอร์เซ็นต์ของ 1 และ 0 นั้นประมาณ 50% / 50% (ตามที่ @ andrea และ @psj อภิปรายในความคิดเห็นด้านบน) อีกประเด็นที่ต้องคำนึงถึงคือการแยกออกจากกัน นั่นคือคุณไม่ต้องการรวบรวม 1 ทั้งหมดของคุณไว้ในตัวแปรอิสระตัวใดตัวหนึ่ง (หรือบางส่วนรวมกัน) และ 0 ทั้งหมดที่สุดขั้วอื่น ๆ แม้ว่านี่จะดูเหมือนเป็นสถานการณ์ที่ดีเพราะมันจะทำให้การคาดการณ์ที่สมบูรณ์แบบง่าย แต่จริง ๆ แล้วทำให้กระบวนการประมาณค่าพารามิเตอร์ระเบิดขึ้น (@Scortchi มีการอภิปรายที่ยอดเยี่ยมของวิธีการจัดการกับการแยกในการถดถอยโลจิสติกที่นี่:วิธีจัดการกับการแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก? ) ด้วย IV ที่มากขึ้นสิ่งนี้จะมีโอกาสมากขึ้นแม้ว่าขนาดที่แท้จริงของเอฟเฟกต์จะคงที่และโดยเฉพาะอย่างยิ่งถ้าการตอบสนองของคุณไม่สมดุลกัน ดังนั้นคุณสามารถต้องการมากกว่า 10 ข้อมูลต่อ IV

ปัญหาหนึ่งที่ผ่านมากับกฎของหัวแม่มือนั้นก็คือว่ามันจะถือว่า IV ของคุณเป็นมุมฉาก สิ่งนี้มีความเหมาะสมสำหรับการทดลองที่ออกแบบมา แต่ด้วยการศึกษาเชิงสังเกตการณ์เช่นของคุณ IV ของคุณแทบจะไม่ได้ตั้งฉากแบบคร่าวๆเลย มีกลยุทธ์ในการจัดการกับสถานการณ์นี้ (เช่นการรวมหรือการลดลงของ IV ดำเนินการวิเคราะห์องค์ประกอบหลักก่อน ฯลฯ ) แต่หากไม่ได้รับการแก้ไข (ซึ่งเป็นเรื่องปกติ) คุณจะต้องการข้อมูลเพิ่มเติม

คำถามที่สมเหตุสมผลแล้วค่าต่ำสุด N ของคุณควรเป็นเท่าใดและ / หรือขนาดตัวอย่างของคุณเพียงพอหรือไม่ ในการแก้ไขปัญหานี้ฉันขอแนะนำให้คุณใช้วิธีการ @cbeleites พูดถึง; การใช้กฎ 1 ถึง 10 จะไม่เพียงพอ


6
คุณสามารถให้การอ้างอิงสำหรับคำสั่ง "ปัญหาหนึ่งคือการถดถอยโลจิสติกทำงานได้ดีที่สุดเมื่อเปอร์เซ็นต์ของ 1 และ 0 คือประมาณ 50% / 50%" ฉันสงสัยเกี่ยวกับเรื่องนี้ด้วยตัวเองเนื่องจากฉันมีชุดข้อมูลที่อยู่ไกลจาก 50/50 และฉันสงสัยว่าจะมีความหมายอย่างไร (ขออภัยที่จะเรียกคืนเธรดอีกครั้ง)
เทรเวอร์

3
ฉันไม่เห็นปัญหาใด ๆ ที่มีเธรดเก่าอีกครั้งเมื่อเหมาะสม @Trevor ผมคิดว่าสิ่งที่คุณกำลังมองหาบางสิ่งบางอย่างตามสายของคำตอบที่ดีนี้โดยการผันก่อน: ไม่-ใช้ไม่สมดุลตัวอย่างเรื่องเมื่อ-ทำ-โลจิสติก-ถดถอย
gung - Reinstate Monica

2
+1 ถึงคำถามของ Trevor ฉันเชื่อว่าการถดถอยโลจิสติกส์จะได้รับประโยชน์จากข้อมูลใหม่ต่อไปแม้ว่าข้อมูลนั้นจะเป็นกรณีเดียวกัน (แม้จะมีผลตอบแทนลดลง) นั่นคือสิ่งที่รบกวนฉันเกี่ยวกับเทคนิคการเรียนรู้ของเครื่องจักรเช่นป่าสุ่ม - ซึ่งพวกเขาสามารถแย่ลงได้โดยการเพิ่มข้อมูลการฝึกอบรมที่เกี่ยวข้องมากขึ้น บางทีอาจมีบางจุดที่การถดถอยโลจิสติกส์จะพังเนื่องจากการพิจารณาเชิงตัวเลขหากความไม่สมดุลนั้นรุนแรงเกินไป จะมีความสนใจในการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้
Ben Ogorek

+1 อาจเป็นเพราะคำตอบของคุณฉันไม่แน่ใจ แต่ฉันสงสัยว่าวิธีนี้ใช้ได้กับตัวแปรที่มีหมวดหมู่แตกต่างกันอย่างไร จะแนะนำให้มีการสังเกต 10 ต่อระดับ?
baxx

1
เป็นกฎง่ายๆ @baxx แต่ใช่หากต้องการทำมากกว่าเพียงประมาณเปอร์เซ็นต์คุณต้องมีอย่างน้อย 45
gung - Reinstate Monica

16

ฉันมักจะใช้กฎ 15: 1 (อัตราส่วนของขั้นต่ำ (เหตุการณ์, ไม่ใช่เหตุการณ์)) ต่อจำนวนพารามิเตอร์ผู้สมัครในรูปแบบ) ผลงานล่าสุดพบว่าจำเป็นต้องมีการตรวจสอบที่เข้มงวดยิ่งขึ้น 20: 1 ข้อมูลเพิ่มเติมสามารถพบได้ในเอกสารประกอบคำบรรยายของฉันเชื่อมโยงจากhttp://biostat.mc.vanderbilt.edu/rmsโดยเฉพาะอย่างยิ่งการโต้แย้งสำหรับขนาดตัวอย่างขั้นต่ำ 96 เพียงเพื่อประมาณการการสกัดกั้น แต่ความต้องการขนาดของกลุ่มตัวอย่างนั้นเหมาะสมยิ่งกว่าและกระดาษที่ผ่านมาก็ยิ่งมีขนาดที่ใหญ่กว่า


14

โดยปกติกรณีน้อยเกินไป wrt ความซับซ้อนของรูปแบบ (จำนวนพารามิเตอร์) หมายถึงว่ารูปแบบที่มีความไม่แน่นอน ดังนั้นหากคุณต้องการทราบว่าขนาดตัวอย่าง / ความซับซ้อนของแบบจำลองนั้นใช้ได้หรือไม่ให้ตรวจสอบว่าคุณได้รับแบบจำลองที่เสถียรพอสมควรหรือไม่

มีความไม่แน่นอนที่ต่างกันสองประเภท:

  1. พารามิเตอร์รูปแบบแตกต่างกันมากกับการเปลี่ยนแปลงเพียงเล็กน้อยในข้อมูลการฝึกอบรม

  2. การคาดการณ์ (สำหรับกรณีเดียวกัน) ของแบบจำลองที่ผ่านการฝึกอบรมซึ่งมีการเปลี่ยนแปลงเล็กน้อยในข้อมูลการฝึกอบรมนั้นแตกต่างกันมาก

คุณสามารถวัด 1. โดยดูว่าค่าสัมประสิทธิ์แบบจำลองของคุณแตกต่างกันไปอย่างไรหากข้อมูลการฝึกอบรมนั้นตกอกตกใจเล็กน้อย สามารถคำนวณกลุ่มของโมเดลที่เหมาะสมเช่นระหว่างการบู๊ตสแตรปหรือขั้นตอนการตรวจสอบความถูกต้องแบบข้าม

สำหรับบางรุ่นหรือปัญหาพารามิเตอร์ที่แตกต่างกันไม่ได้บ่งบอกถึงการทำนายที่แตกต่างกัน คุณสามารถตรวจสอบความไม่แน่นอนที่ 2 ได้โดยตรงโดยดูที่รูปแบบของการทำนายสำหรับกรณีเดียวกัน (ไม่ว่าจะถูกต้องหรือไม่ก็ตาม) คำนวณในระหว่างที่ไม่อยู่ในสถานะ bootstrap หรือการตรวจสอบความถูกต้องแบบไขว้ซ้ำ


5

ไม่มีกฎที่เข้มงวด แต่คุณสามารถรวมตัวแปรอิสระทั้งหมดได้ตราบใดที่ตัวแปรระบุไม่มีหมวดหมู่มากเกินไป คุณต้องการหนึ่ง "เบต้า" สำหรับทุกคนยกเว้นคลาสใดคลาสหนึ่งสำหรับแต่ละตัวแปรที่กำหนด ดังนั้นหากตัวแปรที่ระบุว่า "พื้นที่ทำงาน" และคุณมี 30 พื้นที่แล้วคุณจะต้อง 29 betas

วิธีหนึ่งในการเอาชนะปัญหานี้เพื่อทำให้เป็นมาตรฐาน - หรือลงโทษค่าสัมประสิทธิ์ขนาดใหญ่ สิ่งนี้ช่วยให้มั่นใจได้ว่าแบบจำลองของคุณไม่เหมาะกับข้อมูลมากเกินไป การทำให้เป็นมาตรฐาน L2 และ L1 เป็นตัวเลือกยอดนิยม

อีกประเด็นที่ควรพิจารณาคือการเป็นตัวแทนตัวอย่างของคุณอย่างไร คุณต้องการให้ประชากรคนใด คุณมีคนประเภทต่าง ๆ ทั้งหมดในกลุ่มตัวอย่างที่มีอยู่ในประชากรหรือไม่ มันจะเป็นการยากที่จะทำการอนุมานอย่างถูกต้องหากตัวอย่างของคุณมี "หลุม" (เช่นไม่มีผู้หญิงอายุ 35-50 ในตัวอย่างหรือไม่มีคนงานที่มีรายได้สูง ฯลฯ )


4

นี่คือคำตอบจริงจากเว็บไซต์ MedCalc user41466 ที่เขียนเกี่ยวกับ

http://www.medcalc.org/manual/logistic_regression.php

ข้อควรพิจารณาเกี่ยวกับขนาดตัวอย่าง

การคำนวณขนาดตัวอย่างสำหรับการถดถอยโลจิสติกเป็นปัญหาที่ซับซ้อน แต่ขึ้นอยู่กับการทำงานของ Peduzzi และคณะ (1996) คำแนะนำต่อไปนี้สำหรับจำนวนขั้นต่ำของกรณีที่จะรวมในการศึกษาของคุณสามารถแนะนำ ปล่อยให้ p มีขนาดเล็กที่สุดในสัดส่วนของกรณีลบหรือบวกในประชากรและ k จำนวน covariates (จำนวนตัวแปรอิสระ) จากนั้นจำนวนกรณีต่ำสุดที่จะรวมคือ: N = 10 k / p ตัวอย่างเช่น: คุณ มี 3 โควาเรียตที่จะรวมในรูปแบบและสัดส่วนของผู้ป่วยที่เป็นบวกในประชากรคือ 0.20 (20%) จำนวนกรณีขั้นต่ำที่ต้องการคือ N = 10 x 3 / 0.20 = 150 หากจำนวนผลลัพธ์น้อยกว่า 100 คุณควรเพิ่มเป็น 100 ตามที่แนะนำโดย Long (1997)

Peduzzi P, Concato J, Kemper E, Holford TR, Feinstein AR (1996) การศึกษาแบบจำลองของจำนวนเหตุการณ์ต่อตัวแปรในการวิเคราะห์การถดถอยโลจิสติก วารสารระบาดวิทยาคลินิก 49: 1373-1379


ดังนั้นมันจึงเป็น 10 ไฟล์เดียวกันต่อตัวแปรอิสระ (กับพื้น)
seanv507

1

ผลลัพธ์จากโมเดลโลจิสติกใด ๆ ที่มีจำนวนการสังเกตต่อตัวแปรอิสระตั้งแต่อย่างน้อยห้าถึงเก้ามีความน่าเชื่อถือโดยเฉพาะอย่างยิ่งดังนั้นหากผลลัพธ์มีนัยสำคัญทางสถิติ (Vittinghoff & McCulloch, 2007)

Vittinghoff, E. , & McCulloch, CE 2007 ผ่อนคลายกฎสิบเหตุการณ์ต่อตัวแปรในการขนส่งและการถดถอยแบบ Cox วารสารระบาดวิทยาอเมริกัน, 165 (6): 710–718


โปรดทราบว่าไม่ใช่ "จำนวนการสังเกตต่อตัวแปรอิสระ" ที่เป็นปัญหา แต่เป็นจำนวน "เหตุการณ์" สำหรับการถดถอยโลจิสติกจำนวนของ "เหตุการณ์" คือจำนวนของกรณีในอย่างน้อยบ่อยครั้งของสองผลการเรียน นั่นจะไม่เกิน 1/2 ของจำนวนการสังเกตทั้งหมดและในบางแอปพลิเคชันจะมีค่าต่ำกว่านั้นมาก
EdM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.