การสุ่มตัวอย่างสำหรับการถดถอยโลจิสติกควรสะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 หรือไม่?


23

สมมติว่าฉันต้องการสร้างแบบจำลองการถดถอยโลจิสติกซึ่งสามารถประมาณความน่าจะเป็นของการเกิดสัตว์บางชนิดที่อาศัยอยู่บนต้นไม้ตามลักษณะของต้นไม้ (ความสูง fe) เช่นเคยเวลาและเงินของฉันมี จำกัด ดังนั้นฉันสามารถรวบรวมตัวอย่างขนาด จำกัด ได้เท่านั้น

ฉันมีคำถามต่อไปนี้: อัตราส่วนของ 1 และ 0 ในตัวอย่างของฉันควรสะท้อนอัตราส่วนจริงของ 1 และ 0 หรือไม่? (อย่างน้อยโดยประมาณ)ฉันสังเกตเห็นว่ามันเป็นวิธีปฏิบัติทั่วไปในการดำเนินการแบบจำลองการถดถอยโลจิสติกที่มีตัวอย่างที่สมดุล (จำนวนเท่ากับ 1 และ 0) - แต่โมเดลดังกล่าวให้ความน่าจะเป็นที่สูงเกินจริง

มีบทความ / ตำราเรียนใดบ้างที่ฉันสามารถใช้เป็น ** สนับสนุนความคิดได้ว่าแบบจำลองที่ไม่สะท้อนอัตราส่วนที่แท้จริงของ 1 และ 0 เป็น " ผิด " หรือไม่? **

และในที่สุด: เป็นไปได้หรือไม่ที่จะทำการสุ่มตัวอย่างแบบ 1: 1 แล้วแก้ไขโมเดลด้วยtauตาม Imai et al 2007

Kosuke Imai, Gary King และ Olivia Lau 2550. “ relogit: เหตุการณ์การถดถอยโลจิสติกที่หายากสำหรับตัวแปรที่ขึ้นอยู่กับ Dichotomous,” ใน Kosuke Imai, Gary King, และ Olivia Lau,“ Zelig: ซอฟต์แวร์สถิติของทุกคน,” http: //gking.harvard.edu/zelig

ป้อนคำอธิบายรูปภาพที่นี่

จุดเป็นตัวแทนของต้นไม้ (สีแดง = ครอบครอง, สีเทา = ว่าง) ฉันสามารถระบุต้นไม้ที่ถูกครอบครองทั้งหมดด้วยความแม่นยำ 100% (1 รายการ) แต่ฉันไม่สามารถวัดต้นไม้ทั้งหมดในป่าได้ โมเดลแตกต่างกันสำหรับแต่ละกลยุทธ์การสุ่มตัวอย่าง (อัตราส่วน)

คำตอบ:


15

หากเป้าหมายของแบบจำลองดังกล่าวเป็นการคาดการณ์คุณจะไม่สามารถใช้การถดถอยโลจิสติกแบบไม่ถ่วงน้ำหนักเพื่อคาดการณ์ผลลัพธ์: คุณจะเสี่ยงเกินจำนวน ความแข็งแกร่งของตัวแบบลอจิสติกคืออัตราส่วนอัตราต่อรอง (OR) - "ความชัน" ซึ่งวัดความสัมพันธ์ระหว่างปัจจัยเสี่ยงและผลลัพธ์แบบไบนารีในแบบจำลองลอจิสติก - ไม่เปลี่ยนแปลงกับการสุ่มตัวอย่างตามผล ดังนั้นถ้ากรณีถูกสุ่มตัวอย่างในอัตราส่วน 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 ต่อการควบคุมมันก็ไม่สำคัญ: OR ยังคงไม่เปลี่ยนแปลงในสถานการณ์ใดสถานการณ์หนึ่งตราบใดที่การสุ่มตัวอย่างไม่มีเงื่อนไข ในการเปิดรับ (ซึ่งจะแนะนำอคติของ Berkson) ที่จริงแล้วการสุ่มตัวอย่างตามผลนั้นเป็นความพยายามในการประหยัดต้นทุนเมื่อการสุ่มตัวอย่างแบบง่ายที่สมบูรณ์นั้นไม่เกิดขึ้น

เหตุใดการคาดการณ์ความเสี่ยงจึงมีอคติจากการสุ่มตัวอย่างตามผลลัพธ์โดยใช้แบบจำลองลอจิสติก การสุ่มตัวอย่างแบบพึ่งพาผลลัพธ์ส่งผลกระทบต่อการสกัดกั้นในโมเดลโลจิสติก สิ่งนี้ทำให้เส้นโค้งรูปตัว S ของการเชื่อมโยง "เลื่อนแกน x" โดยความแตกต่างในอัตราต่อรองของการสุ่มตัวอย่างกรณีในตัวอย่างสุ่มอย่างง่ายในประชากรและอัตราต่อรองของการสุ่มตัวอย่างกรณีในหลอก - ประชากรของการออกแบบการทดลองของคุณ (ดังนั้นถ้าคุณมีการควบคุม 1: 1 มีโอกาส 50% ในการสุ่มตัวอย่างกรณีในประชากรเทียมนี้) ในผลลัพธ์ที่หาได้ยากนี่เป็นความแตกต่างที่ยิ่งใหญ่ปัจจัย 2 หรือ 3

เมื่อคุณพูดถึงโมเดลดังกล่าวว่าเป็น "ผิด" คุณต้องมุ่งเน้นว่าวัตถุประสงค์นั้นอนุมาน (ขวา) หรือทำนาย (ผิด) นอกจากนี้ยังระบุอัตราส่วนของผลลัพธ์ต่อกรณีและปัญหา ภาษาที่คุณมักจะเห็นในหัวข้อนี้คือการเรียกการศึกษาแบบ "การควบคุมกรณี" ซึ่งเขียนขึ้นเกี่ยวกับเรื่องนี้อย่างกว้างขวาง บางทีสิ่งพิมพ์ที่ฉันโปรดปรานในหัวข้อนี้คือBreslow and Dayซึ่งจากการศึกษาสถานที่สำคัญได้ชี้ให้เห็นถึงปัจจัยเสี่ยงสำหรับสาเหตุที่หายากของโรคมะเร็ง กรณีศึกษาการควบคุมจุดประกายความขัดแย้งรอบ ๆ การตีความผิด ๆ ของการค้นพบบ่อย: โดยเฉพาะอย่างยิ่งการทำให้เกิดความสับสนหรือด้วย RR (การค้นพบที่มากเกินไป) และ "ฐานการศึกษา" ในฐานะสื่อกลางของกลุ่มตัวอย่างและประชากรให้คำวิจารณ์ที่ยอดเยี่ยมของพวกเขา อย่างไรก็ตามไม่มีการวิพากษ์วิจารณ์ใด ๆ ที่อ้างว่ากรณีศึกษาการควบคุมกรณีไม่ถูกต้องฉันหมายความว่าคุณจะทำได้อย่างไร? พวกเขาพัฒนาด้านสาธารณสุขขั้นสูงในเส้นทางที่นับไม่ถ้วน บทความ Miettenen เป็นสิ่งที่ดีที่ชี้ให้เห็นว่าคุณยังสามารถใช้แบบจำลองความเสี่ยงหรือรุ่นอื่น ๆ ในผลการสุ่มตัวอย่างขึ้นและอธิบายความแตกต่างระหว่างผลและผลการวิจัยระดับประชากรในกรณีส่วนใหญ่: มันไม่ได้จริงๆแย่ลงตั้งแต่หรือเป็นปกติพารามิเตอร์ยาก เพื่อตีความ

อาจเป็นวิธีที่ดีที่สุดและง่ายที่สุดในการเอาชนะอคติที่เกินขนาดในการทำนายความเสี่ยงโดยการใช้โอกาสในการถ่วงน้ำหนัก Scott และ Wildอภิปรายการถ่วงน้ำหนักและแสดงการแก้ไขคำสกัดกั้นและการทำนายความเสี่ยงของโมเดล นี่เป็นวิธีที่ดีที่สุดเมื่อมีความรู้เบื้องต้นเกี่ยวกับสัดส่วนของคดีในประชากร หากความชุกของผลลัพธ์เป็นจริง 1: 100 และคุณสุ่มตัวอย่างกรณีเพื่อควบคุมในแบบ 1: 1 คุณจะควบคุมน้ำหนักด้วยขนาด 100 เพื่อให้ได้พารามิเตอร์ที่สอดคล้องกันของประชากรและการทำนายความเสี่ยงที่ไม่เอนเอียง ข้อเสียของวิธีนี้คือมันไม่ได้คำนึงถึงความไม่แน่นอนในความชุกของประชากรหากมีการประเมินว่ามีข้อผิดพลาดที่อื่น นี่เป็นพื้นที่ขนาดใหญ่ของการวิจัยแบบเปิดคือLumley และ Breslowมาไกลมากกับทฤษฎีบางอย่างเกี่ยวกับการสุ่มตัวอย่างสองขั้นตอนและตัวประมาณที่แข็งแกร่งเป็นสองเท่า ฉันคิดว่ามันเป็นสิ่งที่น่าสนใจอย่างมาก โปรแกรมของ Zelig นั้นดูเหมือนจะเป็นการใช้งานคุณสมบัติน้ำหนัก (ซึ่งดูเหมือนจะซ้ำซ้อนเล็กน้อยเนื่องจากฟังก์ชัน glm ของ R ช่วยให้น้ำหนักได้)


(+1) การแก้ไขก่อนหน้านี้คุ้มค่ากับการกล่าวถึงหรือไม่ว่าเป็นวิธีที่ง่ายที่สุดในการปรับจุดตัดสำหรับการสุ่มตัวอย่างแบบควบคุมกรณีและปัญหา?
Scortchi - Reinstate Monica

@Scortchi คุณหมายถึง Bayesian logistic regression พร้อมข้อมูลก่อนการสกัดกั้นหรือไม่? หรือการเพิ่มประสิทธิภาพข้อ จำกัด ? ฉันไม่คุ้นเคยกับสิ่งที่อาจเป็น
AdamO

1
เพียงแค่การคำนวณง่ายๆที่นี่: stats.stackexchange.com/a/68726/17230 (ฉันยังไม่แน่ใจตอนนี้ที่ฉันเลือกคำศัพท์นั้นหรือมาตรฐานเป็นอย่างไร) ฉันได้ยินมาว่าการชั่งน้ำหนักทำงานได้ดีขึ้นสำหรับรุ่นที่ระบุผิด
Scortchi - Reinstate Monica

@Scortchi Ah นั่นคงเป็นเรื่องง่าย! มันควรจะดีสำหรับการทำนายตราบใดที่ไม่จำเป็นต้องมีการประเมินข้อผิดพลาด การให้น้ำหนักจะให้ SE ที่แตกต่างกันสำหรับการสกัดกั้นและความลาดชัน แต่วิธีนี้จะไม่ส่งผลใด ๆ
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.