การประมาณค่าสัมประสิทธิ์การถดถอยโลจิสติกในการออกแบบตัวควบคุมเคสเมื่อตัวแปรผลลัพธ์ไม่ใช่สถานะตัวควบคุม / ตัวควบคุม


10

พิจารณาการสุ่มตัวอย่างข้อมูลจากประชากรขนาดด้วยวิธีต่อไปนี้: สำหรับNk=1,...,N

  1. สังเกตบุคคล 'โรค' สถานะ 'sk

  2. หากพวกเขามีโรครวมพวกเขาในตัวอย่างที่มีความน่าจะเป็นpk1

  3. หากพวกเขาไม่ได้มีโรคที่รวมไว้ด้วยความน่าจะ{K0}pk0

สมมติว่าคุณสังเกตตัวแปรและไบนารี่เวกเตอร์ทำนายผล , สำหรับอาสาสมัครทดลองด้วยวิธีนี้ ตัวแปรผลลัพธ์ไม่ใช่สถานะ "โรค" ฉันต้องการประเมินพารามิเตอร์ของตัวแบบการถดถอยโลจิสติก:YiXii=1,...,n

log(P(Yi=1|Xi)P(Yi=0|Xi))=α+Xiβ

ทั้งหมดที่ฉันดูแลเกี่ยวกับการเป็นอัตราส่วน (log) ต่อรองβเบต้า} การสกัดกั้นไม่เกี่ยวข้องกับฉัน

คำถามของฉันคือ: ฉันสามารถรับการประมาณที่เหมาะสมของβโดยไม่สนใจความน่าจะเป็นการสุ่มตัวอย่าง{pi1,pi0} , i=1,...,nและปรับโมเดลให้เหมาะสม มันเป็นตัวอย่างแบบสุ่มธรรมดาเหรอ?


ฉันค่อนข้างมั่นใจว่าคำตอบของคำถามนี้คือ "ใช่" สิ่งที่ฉันกำลังมองหาคือการอ้างอิงที่ตรวจสอบสิ่งนี้

มีสองเหตุผลหลักที่ฉันมั่นใจในคำตอบ:

  1. ฉันได้ทำการศึกษาเกี่ยวกับการจำลองสถานการณ์มากมายและไม่มีใครโต้แย้งเรื่องนี้และ

  2. มันเป็นเรื่องง่ายที่จะแสดงให้เห็นว่าหากประชากรถูกควบคุมโดยแบบจำลองด้านบนแล้วรูปแบบที่ควบคุมข้อมูลตัวอย่างคือ

log(P(Yi=1|Xi)P(Yi=0|Xi))=log(pi1)log(pi0)+α+Xiβ

หากความน่าจะเป็นของการสุ่มตัวอย่างไม่ได้ขึ้นอยู่กับดังนั้นสิ่งนี้จะแสดงให้เห็นถึงการเปลี่ยนการสกัดกั้นอย่างง่ายและการประมาณจุดของจะไม่ได้รับผลกระทบอย่างชัดเจน แต่ถ้าออฟเซ็ตแตกต่างกันไปสำหรับแต่ละคนตรรกะนี้ใช้ไม่ได้เนื่องจากคุณจะได้รับการประเมินจุดที่แตกต่างกันอย่างแน่นอนแม้ว่าฉันจะคิดว่ามีบางสิ่งที่คล้ายกันก็ตาม iβ

ที่เกี่ยวข้อง: กระดาษคลาสสิกโดย Prentice และ Pyke (1979)กล่าวว่าค่าสัมประสิทธิ์การถดถอยโลจิสติกจากการควบคุมกรณี (มีสถานะโรคเป็นผล) มีการกระจายเช่นเดียวกับที่รวบรวมจากการศึกษาในอนาคต ฉันสงสัยว่าผลลัพธ์เดียวกันนี้จะนำไปใช้ที่นี่ แต่ฉันต้องยอมรับว่าฉันไม่เข้าใจกระดาษทุกบิตอย่างเต็มที่

ขอบคุณล่วงหน้าสำหรับความคิดเห็น / การอ้างอิงใด ๆ


1
คุณระบุว่า "ตัวแปรผลลัพธ์ไม่ใช่สถานะโรค " อะไรบ่งบอก? ยินดีต้อนรับกลับสู่ CV, btw Yi=1
gung - Reinstate Monica

1
Yiเป็นตัวแปรที่แตกต่างกัน สิ่งที่ฉันหมายถึงคือตัวแปรที่กำหนดความน่าจะเป็นตัวอย่างของคุณ (ปกติสถานะของโรคในการควบคุมกรณี) ไม่เหมือนกับตัวแปรผลลัพธ์ - คิดว่าการวิเคราะห์รองของชุดข้อมูล ตัวอย่างเช่นสมมติว่าตัวอย่างถูกสร้างขึ้นโดยผู้ใช้ยาอย่างเป็นระบบและชุดเพิ่มเติม (จับคู่ความถี่, จับคู่โควาเรียตบางอย่าง) อย่างเป็นระบบ แต่ตัวแปรผลลัพธ์ที่คุณกำลังศึกษาคือการวัดพฤติกรรมอื่น ๆ ในกรณีนี้รูปแบบการสุ่มตัวอย่างเป็นสิ่งที่น่ารำคาญ ขอบคุณ btw!
แมโคร

คำตอบ:


8

นี่คือรูปแบบของรูปแบบการเลือกในเศรษฐมิติ ความถูกต้องของการประมาณการโดยใช้ตัวอย่างที่เลือกไว้ที่นี่ขึ้นอยู่กับเงื่อนไขที่ ขวา) นี่คือสถานะโรค 'sPr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)Dii

หากต้องการให้รายละเอียดเพิ่มเติมให้กำหนดสัญลักษณ์ต่อไปนี้: และ ; หมายถึงเหตุการณ์ที่อยู่ในตัวอย่าง นอกจากนี้สมมติว่าเป็นอิสระจากเพื่อความเรียบง่ายπ1=Pr(Di=1)π0=Pr(Di=0)Si=1iDiXi

ความน่าจะเป็นของสำหรับหน่วยในตัวอย่างคือ ตามกฎหมายของการทำซ้ำที่มีการทำซ้ำ สมมติว่ามีเงื่อนไขเกี่ยวกับสถานะโรคและตัวแปรอื่น ๆผล เป็นอิสระจาก{i} ผลที่ตามมา, Yi=1i

Pr(Yi=1Xi,Si=1)=E(YiXi,Si=1)=E{E(YiXi,Di,Si=1)Xi,Si=1}=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1,Si=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0,Si=1),
DiXiYiSi
Pr(Yi=1Xi,Si=1)=Pr(Di=1Si=1)Pr(Yi=1Xi,Di=1)+Pr(Di=0Si=1)Pr(Yi=1Xi,Di=0).
มันง่ายที่จะเห็นว่า ที่นี่และเป็นไปตามที่คุณกำหนด ดังนั้น,
Pr(Di=1Si=1)=π1pi1π1pi1+π0pi0 and Pr(Di=0Si=1)=π0pi0π1pi1+π0pi0.
pi1pi0
Pr(Yi=1Xi,Si=1)=π1pi1π1pi1+π0pi0Pr(Yi=1Xi,Di=1)+π0pi0π1pi1+π0pi0Pr(Yi=1Xi,Di=0).
ถ้าเรามี และคุณสามารถละเว้นปัญหาการเลือกตัวอย่าง ในทางตรงกันข้ามถ้า , โดยทั่วไป ในบางกรณีให้พิจารณาโมเดลของ logit Pr(Yi=1Xi,Di=1)=Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)=Pr(Yi=1Xi),
Pr(Yi=1Xi,Di=1)Pr(Yi=1Xi,Di=0)
Pr(Yi=1Xi,Si=1)Pr(Yi=1Xi)
Pr(Yi=1Xi,Di=1)=eXiα1+eXiα and Pr(Yi=1Xi,Di=0)=eXiβ1+eXiβ.
แม้ว่าเมื่อและเป็นค่าคงที่ในการกระจายของผลลัพธ์จะไม่คงรูปแบบของ logit ที่สำคัญกว่านั้นการแทรกของพารามิเตอร์จะแตกต่างกันโดยสิ้นเชิง หวังว่าข้อโต้แย้งข้างต้นจะช่วยชี้แจงปัญหาของคุณเล็กน้อยpi1pi0i

มันคืออยากจะรวมเป็นตัวแปรอธิบายเพิ่มเติมและประเมินรูปแบบขึ้นอยู่กับขวา) ในการพิสูจน์ความถูกต้องของการใช้เราต้องพิสูจน์ว่าซึ่งเทียบเท่ากับเงื่อนไขที่เป็นสถิติที่เพียงพอของ{i} หากไม่มีข้อมูลเพิ่มเติมเกี่ยวกับกระบวนการสุ่มตัวอย่างของคุณฉันไม่แน่ใจว่าจริงหรือไม่ ลองใช้สัญกรณ์นามธรรม ตัวแปรสังเกตได้สามารถดูได้ว่าเป็นฟังก์ชันสุ่มของและตัวแปรสุ่มอื่น ๆDiPr(YiXi,Di)Pr(YiXi,Di)Pr(YiXi,Di,Si=1)=Pr(YiXi,Di)DiSiSiDiZi{i} แสดงว่าขวา) ถ้า เป็นอิสระจากเงื่อนไขบนและเรามี โดยนิยามของความเป็นอิสระ อย่างไรก็ตามหากไม่ได้เป็นอิสระจากหลังจากปรับเงื่อนไขในและ , มีข้อมูลที่เกี่ยวข้องเกี่ยวกับ และโดยทั่วไปไม่คาดหวังว่าSi=S(Di,Zi)ZiYiXiDiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ZiYiXiDiZiYiPr(YiXi,Di,S(Di,Zi))=Pr(YiXi,Di)ขวา) ดังนั้นในกรณี 'อย่างไรก็ตาม' ความไม่รู้ในการเลือกตัวอย่างอาจทำให้เข้าใจผิดสำหรับการอนุมาน ฉันไม่คุ้นเคยกับเอกสารการเลือกตัวอย่างในเศรษฐมิติ ฉันอยากจะแนะนำบทที่ 16 ของMicroeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic bookตัวแปรที่ จำกัด และมีคุณภาพในสาขาเศรษฐมิติ 'คือการปฏิบัติที่เป็นระบบของปัญหาเกี่ยวกับการเลือกตัวอย่างและผลลัพธ์ที่ไม่ต่อเนื่อง


2
ขอบคุณ นี่คือคำตอบที่ดีและทำให้รู้สึกสมบูรณ์แบบ ในใบสมัครของฉันสมมติฐานว่าไม่เป็นจริง แต่มันจะเป็นเช่นเดียวกับดีในการเพิ่มเป็นปัจจัยบ่งชี้และพิจารณาการกระจายD_i) ฉันคิดว่าคุณสามารถแสดงให้เห็นว่าถ้าคุณก็สบายดี นี่เป็นข้อสมมติฐานที่สมเหตุสมผลในกรณีของฉัน คุณคิดอย่างไร? BTW คุณจะมีข้อมูลอ้างอิงที่กล่าวถึงปัญหานี้ไหม ฉันไม่คุ้นเคยกับวรรณคดีเศรษฐมิติ P(Yi|Xi,Di=1)=P(Yi|Xi,Di=0)DiP(Yi|Xi,Di)P(Yi=1|Xi,Di,Si=1)=P(Yi=1|Xi,Di,Si=0)
มาโคร

ฉันรู้สึกสบายใจที่จะเลือกกระบวนการพิจารณาคดีเป็นเบอนูลลีเช่นภายใต้สมมติฐานการสร้างข้อมูลนี้การทดลอง bernoulli นี้ไม่มีเงื่อนไขที่เป็นอิสระจากดังนั้นฉันคิดว่าเราสบายดี ฉันขอขอบคุณสำหรับความพยายามและข้อมูลเชิงลึกของคุณเกี่ยวกับปัญหานี้และฉันกำลังรับคำตอบ สมมติว่าไม่มีใครมาพร้อมกับการอ้างอิงที่แน่นอนที่ฉันกำลังมองหา (ฉันค่อนข้างจะสามารถ "อ้างอิง" ปัญหานี้ออกไปแทนที่จะพูดนอกเรื่องด้วยการอภิปรายเพิ่มเติม) ฉันจะมอบรางวัลให้คุณด้วย ไชโย
Si|Di=d,Xi=xBernoulli(p(x,d))
Yi
มาโคร

กระบวนการคัดเลือกนี้เหมาะกับกลยุทธ์ของคุณ ตามปัญหาการเลือกปัญหาของคุณจะกลายเป็นตัวอย่างของการขาดแบบสุ่ม (MAR) ในเอกสารข้อมูลที่ขาดหายไป ขอบคุณสำหรับรางวัลของคุณ
semibruin
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.