การเปรียบเทียบค่าสัมประสิทธิ์โลจิสติกส์ในแบบจำลองที่มีตัวแปรตามต่างกันหรือไม่


14

นี่คือติดตามคำถามจากคนที่ผมถามสองสามวันที่ผ่านมา ฉันรู้สึกว่ามันทำให้เกิดความเอียงที่แตกต่างในเรื่องนี้ดังนั้นจึงมีรายการคำถามใหม่

คำถามคือ: ฉันสามารถเปรียบเทียบขนาดของสัมประสิทธิ์ในแบบจำลองที่มีตัวแปรตามที่แตกต่างกันได้หรือไม่? ตัวอย่างเช่นในตัวอย่างเดียวบอกว่าฉันต้องการที่จะรู้ว่าเศรษฐกิจเป็นตัวทำนายผลโหวตที่แข็งแกร่งในสภาผู้แทนราษฎรหรือประธานาธิบดี ในกรณีนี้ตัวแปรตามสองตัวของฉันคือคะแนนในสภา (รหัส 1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และลงคะแนนให้ประธานาธิบดี (1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และตัวแปรอิสระของฉันคือเศรษฐกิจ ฉันคาดว่าจะได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติในสำนักงานทั้งสองแห่ง แต่ฉันจะประเมินได้อย่างไรว่าจะมีผลกระทบ 'ที่ใหญ่กว่า' ในอีกที่หนึ่งมากกว่าที่อื่น นี่อาจไม่ใช่ตัวอย่างที่น่าสนใจโดยเฉพาะ แต่ฉันอยากรู้ว่ามีวิธีเปรียบเทียบหรือไม่ ฉันรู้ว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้ ดังนั้น, การเปรียบเทียบสัมประสิทธิ์ของแบบจำลองที่มีตัวแปรตามต่างกันนั้นเป็นไปได้หรือไม่? และถ้าเป็นเช่นนั้นจะทำอย่างไร?

หากสิ่งนี้ไม่สมเหตุสมผลโปรดแจ้งให้เราทราบ คำแนะนำและความคิดเห็นทั้งหมดได้รับการชื่นชม


2
คุณจะรู้ได้อย่างไรว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้
onestop

ฉันรวมสองบัญชีของคุณ คุณจะยังคงต้องลงทะเบียนตามที่ระบุไว้ในคำถามที่พบบ่อย (ขอบคุณสำหรับ @onestop ชี้ไปที่ซ้ำกัน.)
CHL

ฉันคิดว่าฉันไม่สามารถเปรียบเทียบ 'ผลกระทบ' ของตัวทำนายในแบบจำลองต่างๆได้โดยดูที่สัมประสิทธิ์จากคำตอบของคำถามก่อนหน้านี้ สิ่งต่าง ๆ สำหรับตัวอย่างของฉันด้านบน
Ejs

2
เริ่มต้นโปรดปราน - ดูเหมือนว่าเป็นคำถามที่สำคัญที่มีสามคำตอบที่แตกต่างกันมากไม่มีใครที่มีคะแนนเดียว เราทำได้ดีกว่า ลิงค์กระดาษของ Andy W ในคำถามที่เกี่ยวข้องนี้ดูเหมือนจะเกี่ยวข้องกัน
Matt Parker

คำตอบ:


4

คำตอบสั้น ๆ คือ "ใช่คุณทำได้" - แต่คุณควรเปรียบเทียบค่าประมาณความน่าจะเป็นสูงสุด (MLEs) ของ "รุ่นใหญ่" กับตัวแปรทั้งหมดในรุ่นใดรุ่นหนึ่งที่พอดีกับทั้งสองแบบ

นี่เป็นวิธี "แบบกึ่งทางการ" เพื่อให้ได้ทฤษฎีความน่าจะเป็นที่จะตอบคำถามของคุณ

ในตัวอย่างและY 2เป็นตัวแปรประเภทเดียวกัน (เศษส่วน / เปอร์เซ็นต์) ดังนั้นจึงเปรียบเทียบกันได้ ฉันจะสมมติว่าคุณพอดีกับรุ่นเดียวกันกับทั้งสอง ดังนั้นเราจึงมีสองรุ่น:Y1Y2

l o g ( p 1 i

M1:Y1ผม~Bผมn(n1ผม,พี1ผม)
M2:Y2iBฉันn(n2i,p2i)log(p 2 i
ล.โอก.(พี1ผม1-พี1ผม)=α1+β1Xผม
M2:Y2ผม~Bผมn(n2ผม,พี2ผม)
ล.โอก.(พี2ผม1-พี2ผม)=α2+β2Xผม

ดังนั้นคุณมีสมมติฐานที่คุณต้องการประเมิน:

H0:β1>β2

{Y1ผม,Y2ผม,Xผม}ผม=1n

P=PR(H0|{Y1ผม,Y2ผม,Xผม}ผม=1n,ผม)

H0

P=Pr(H0,α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

สมมติฐานนั้น จำกัด ขอบเขตของการรวมกลุ่มดังนั้นเราจึงมี:

P=β2Pr(α1,α2,β1,β2|{Y1i,Y2i,Xi}i=1n,I)dα1dα2dβ1dβ2

Because the probability is conditional on the data, it will factor into the two separate posteriors for each model

Pr(α1,β1|{Y1i,Xi,Y2i}i=1n,I)Pr(α2,β2|{Y2i,Xi,Y1i}i=1n,I)

Now because there is no direct links between Y1i and α2,β2, only indirect links through Xi, which is known, it will drop out of the conditioning in the second posterior. same for Y2i in the first posterior.

From standard logistic regression theory, and assuming uniform prior probabilities, the posterior for the parameters is approximately bi-variate normal with mean equal to the MLEs, and variance equal to the information matrix, denoted by V1 and V2 - which do not depend on the parameters, only the MLEs. so you have straight-forward normal integrals with known variance matrix. αj marginalises out with no contribution (as would any other "common variable") and we are left with the usual result (I can post the details of the derivation if you want, but its pretty "standard" stuff):

P=Φ(β^2,MLE-β^1,MLEV1:β,β+V2:β,β)

ที่ไหน Φ()เป็นเพียง CDF ปกติมาตรฐาน นี่คือการเปรียบเทียบปกติของการทดสอบหมายถึงปกติ แต่โปรดทราบว่าวิธีการนี้ต้องการการใช้ชุดตัวแปรการถดถอยในแต่ละชุด ในกรณีหลายตัวแปรที่มีตัวทำนายหลายตัวหากคุณมีตัวแปรการถดถอยที่แตกต่างกันอินทิกรัลจะมีประสิทธิภาพเท่ากับการทดสอบด้านบน แต่จาก MLEs ของสอง betas จาก "โมเดลขนาดใหญ่" ซึ่งรวมถึงโควาเรียทั้งหมดจากทั้งสองรุ่น


3

ทำไมจะไม่ล่ะ? แบบจำลองนี้ประมาณว่าการเปลี่ยนแปลง 1 หน่วยในตัวทำนายแบบจำลองใด ๆ จะมีผลต่อความน่าจะเป็นของ "1" สำหรับตัวแปรผลลัพธ์ ฉันจะสมมติว่าแบบจำลองเหมือนกัน - พวกเขามีตัวทำนายแบบเดียวกันในตัว วิธีที่ให้ข้อมูลมากที่สุดในการเปรียบเทียบขนาดสัมพัทธ์ของตัวทำนายใด ๆ ในแบบจำลอง 2 ตัวคือการใช้แบบจำลองในการคำนวณ (ไม่ว่าจะแบบกำหนดขึ้นเองหรือดีกว่าโดยการจำลอง) เท่าใดการเปลี่ยนแปลงที่เพิ่มขึ้นอย่างมีนัยสำคัญ (เช่น +/- 1 SD) เครื่องมือทำนายมีผลต่อความน่าจะเป็นของตัวแปรผลลัพธ์ที่เกี่ยวข้อง - & เปรียบเทียบมัน! คุณจะต้องการกำหนดช่วงความมั่นใจสำหรับการประมาณการทั้งสองรวมถึงเพื่อให้คุณสามารถพึงพอใจกับตัวเองว่าความแตกต่างนั้น "สำคัญ" ในทางปฏิบัติและสถิติ


ขอบคุณ dmk8 มีประโยชน์มาก จุดติดตาม / คำถามบางอย่าง: นี่คือสิ่งที่มักจะหมายถึงเมื่ออ้างถึงการเปลี่ยนแปลงตัวแปรของดอกเบี้ย (ตัวอย่างเช่นเศรษฐกิจจากเลวถึงดี) ในขณะที่ถือตัวแปรควบคุมทั้งหมดตามความหมายของมัน? คุณหมายถึงอะไรโดยเด็ดขาด? ฉันจะกำหนดช่วงความมั่นใจรอบความน่าจะเป็นได้อย่างไร
Ejs

2
ปรึกษาราชา เขาจะไม่ทำให้ผิดหวัง King, G. , Tomz, M. , & Wittenberg., J. (2000) ใช้ประโยชน์สูงสุดจากการวิเคราะห์ทางสถิติ: ปรับปรุงการตีความและการนำเสนอ Am เจ. วิทย์, 44 (2), 347-361
dmk38

2

ฉันคิดว่าโดย "ตัวแปรอิสระของฉันคือเศรษฐกิจ" คุณกำลังใช้ชวเลขสำหรับการคาดการณ์เฉพาะบางอย่าง

ในระดับหนึ่งฉันเห็นว่าไม่มีอะไรผิดปกติกับการสร้างข้อความเช่น

X ทำนาย Y1 ด้วยอัตราต่อรองที่ _ และช่วงความเชื่อมั่น 95% ที่ [_, _] ในขณะที่ X คาดการณ์ Y2 ด้วยอัตราต่อรองที่ _ และช่วงความมั่นใจ 95% ที่ [_, _]

คำแนะนำล่าสุดของ @dmk38 มีประโยชน์มากในเรื่องนี้

คุณอาจต้องการสร้างมาตรฐานสัมประสิทธิ์เพื่อช่วยในการเปรียบเทียบ

ในอีกระดับหนึ่งให้ระวังการใช้สถิติเชิงอนุมาน (ข้อผิดพลาดมาตรฐานp- value, CIs) อย่างแท้จริงเมื่อตัวอย่างของคุณเป็นตัวอย่างที่ไม่ใช่แบบสุ่มของประชากรปีที่คุณอาจต้องการสรุป


ใช่ 'เศรษฐกิจ' เป็นการจดชวเลขเพื่อรับรู้ถึงสภาพเศรษฐกิจของชาติ คำแนะนำเดียวกันนี้ใช้หรือไม่เมื่อมีตัวทำนายอื่น ๆ (การควบคุม) รวมอยู่ในโมเดล?
Ejs

@Ejs - ฉันเกรงว่าจะไม่มีคำตอบสั้น ๆ สำหรับคำถามสุดท้ายของคุณ คุณกำลังเข้าสู่ความหมายของการประเมินความสัมพันธ์เมื่อใช้การควบคุมเชิงสถิติ - หัวข้อที่ซับซ้อนอย่างน่าประหลาดที่ควรค่าแก่การศึกษาอย่างละเอียด นอกจากนี้คุณยังอาจได้รับหัวข้อการเลือกตัวแปรซึ่งเป็นหัวข้อใหญ่เช่นกัน imho แหล่งที่ดีที่สุดสำหรับนักเรียนที่มีความมุ่งมั่นของหัวข้อเหล่านี้คือ Pedhazur ของamazon.com/Multiple-regression-behavioral-research-Pedhazur/...
rolando2

1

ให้เราบอกว่าความสนใจอยู่ที่การเปรียบเทียบคนสองกลุ่ม: กลุ่มที่มี X1=1 และผู้ที่มี X1=0.

เลขชี้กำลังของ β1สัมประสิทธิ์ที่สอดคล้องกันถูกตีความเป็นอัตราส่วนของอัตราต่อรองของความสำเร็จสำหรับผู้ที่มี X1=1 เหนือโอกาสแห่งความสำเร็จสำหรับผู้ที่มี X1=0, เงื่อนไขในตัวแปรอื่น ๆ ในรูปแบบ

ดังนั้นหากคุณมีสองรุ่นที่มีตัวแปรขึ้นอยู่กับการตีความที่แตกต่างกัน β1การเปลี่ยนแปลงเนื่องจากมันไม่ได้ถูก จำกัด ตามตัวแปรชุดเดียวกัน ดังนั้นการเปรียบเทียบจึงไม่ตรง ...


สิ่งนี้มีความหมายต่อข้อเสนอแนะของ roland2 หรือไม่?
Ejs

@Ejs คุณอ้างถึงขั้นตอนมาตรฐานหรือไม่ คำตอบของฉันช่วยได้ไหม? ฉันเข้าใจผิดคำถามหรือไม่?
ocram
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.