การเปรียบเทียบค่าสัมประสิทธิ์โลจิสติกส์ในแบบจำลองที่มีตัวแปรตามต่างกันหรือไม่

14

นี่คือติดตามคำถามจากคนที่ผมถามสองสามวันที่ผ่านมา ฉันรู้สึกว่ามันทำให้เกิดความเอียงที่แตกต่างในเรื่องนี้ดังนั้นจึงมีรายการคำถามใหม่

คำถามคือ: ฉันสามารถเปรียบเทียบขนาดของสัมประสิทธิ์ในแบบจำลองที่มีตัวแปรตามที่แตกต่างกันได้หรือไม่? ตัวอย่างเช่นในตัวอย่างเดียวบอกว่าฉันต้องการที่จะรู้ว่าเศรษฐกิจเป็นตัวทำนายผลโหวตที่แข็งแกร่งในสภาผู้แทนราษฎรหรือประธานาธิบดี ในกรณีนี้ตัวแปรตามสองตัวของฉันคือคะแนนในสภา (รหัส 1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และลงคะแนนให้ประธานาธิบดี (1 สำหรับพรรคประชาธิปัตย์และ 0 สำหรับพรรครีพับลิกัน) และตัวแปรอิสระของฉันคือเศรษฐกิจ ฉันคาดว่าจะได้ผลลัพธ์ที่มีนัยสำคัญทางสถิติในสำนักงานทั้งสองแห่ง แต่ฉันจะประเมินได้อย่างไรว่าจะมีผลกระทบ 'ที่ใหญ่กว่า' ในอีกที่หนึ่งมากกว่าที่อื่น นี่อาจไม่ใช่ตัวอย่างที่น่าสนใจโดยเฉพาะ แต่ฉันอยากรู้ว่ามีวิธีเปรียบเทียบหรือไม่ ฉันรู้ว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้ ดังนั้น, การเปรียบเทียบสัมประสิทธิ์ของแบบจำลองที่มีตัวแปรตามต่างกันนั้นเป็นไปได้หรือไม่? และถ้าเป็นเช่นนั้นจะทำอย่างไร?

หากสิ่งนี้ไม่สมเหตุสมผลโปรดแจ้งให้เราทราบ คำแนะนำและความคิดเห็นทั้งหมดได้รับการชื่นชม

regression logistic

— Ejs
แหล่งที่มา

2

คุณจะรู้ได้อย่างไรว่าไม่มีใครสามารถดูขนาดของสัมประสิทธิ์ได้

— onestop

ฉันรวมสองบัญชีของคุณ คุณจะยังคงต้องลงทะเบียนตามที่ระบุไว้ในคำถามที่พบบ่อย (ขอบคุณสำหรับ @onestop ชี้ไปที่ซ้ำกัน.)

— CHL

ฉันคิดว่าฉันไม่สามารถเปรียบเทียบ 'ผลกระทบ' ของตัวทำนายในแบบจำลองต่างๆได้โดยดูที่สัมประสิทธิ์จากคำตอบของคำถามก่อนหน้านี้ สิ่งต่าง ๆ สำหรับตัวอย่างของฉันด้านบน

— Ejs

2

เริ่มต้นโปรดปราน - ดูเหมือนว่าเป็นคำถามที่สำคัญที่มีสามคำตอบที่แตกต่างกันมากไม่มีใครที่มีคะแนนเดียว เราทำได้ดีกว่า ลิงค์กระดาษของ Andy W ในคำถามที่เกี่ยวข้องนี้ดูเหมือนจะเกี่ยวข้องกัน

— Matt Parker

4

คำตอบสั้น ๆ คือ "ใช่คุณทำได้" - แต่คุณควรเปรียบเทียบค่าประมาณความน่าจะเป็นสูงสุด (MLEs) ของ "รุ่นใหญ่" กับตัวแปรทั้งหมดในรุ่นใดรุ่นหนึ่งที่พอดีกับทั้งสองแบบ

นี่เป็นวิธี "แบบกึ่งทางการ" เพื่อให้ได้ทฤษฎีความน่าจะเป็นที่จะตอบคำถามของคุณ

ในตัวอย่างและเป็นตัวแปรประเภทเดียวกัน (เศษส่วน / เปอร์เซ็นต์) ดังนั้นจึงเปรียบเทียบกันได้ ฉันจะสมมติว่าคุณพอดีกับรุ่นเดียวกันกับทั้งสอง ดังนั้นเราจึงมีสองรุ่น: $Y_{1}$ $Y_{2}$

M_{1} : Y_{1 ผม} ~ B ผม n (n_{1 ผม}, {พี}_{1 ผม})

$M_{1}:Y_{1i}\sim Bin(n_{1i},p_{1i})$

ล. โอ ก. (\frac{{พี}_{1 ผม}}{1 - {พี}_{1 ผม}}) = α_{1} + β_{1} X_{ผม}

$log\left(\frac{p_{1i}}{1-p_{1i}}\right)=\alpha_{1}+\beta_{1}X_{i}$

M_{2} : Y_{2 ผม} ~ B ผม n (n_{2 ผม}, {พี}_{2 ผม})

$M_{2}:Y_{2i}\sim Bin(n_{2i},p_{2i})$

ล. โอ ก. (\frac{{พี}_{2 ผม}}{1 - {พี}_{2 ผม}}) = α_{2} + β_{2} X_{ผม}

$log\left(\frac{p_{2i}}{1-p_{2i}}\right)=\alpha_{2}+\beta_{2}X_{i}$

ดังนั้นคุณมีสมมติฐานที่คุณต้องการประเมิน:

H_{0} : β_{1} > β_{2}

$H_{0}:\beta_{1}>\beta_{2}$

$\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n}$

P = P R (H_{0} | {Y_{1 ผม}, Y_{2 ผม}, X_{ผม}}_{ผม = 1}^{n}, ผม)

$P=Pr(H_0|\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n},I)$

$H_0$

P = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} P r (H_{0}, α_{1}, α_{2}, β_{1}, β_{2} | {Y_{1 i}, Y_{2 i}, X_{i}}_{i = 1}^{n}, I) d α_{1} d α_{2} d β_{1} d β_{2}

$P=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} Pr(H_0,\alpha_{1},\alpha_{2},\beta_{1},\beta_{2}|\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n},I) d\alpha_{1}d\alpha_{2}d\beta_{1}d\beta_{2}$

สมมติฐานนั้น จำกัด ขอบเขตของการรวมกลุ่มดังนั้นเราจึงมี:

P = \int_{- \infty}^{\infty} \int_{β_{2}}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} P r (α_{1}, α_{2}, β_{1}, β_{2} | {Y_{1 i}, Y_{2 i}, X_{i}}_{i = 1}^{n}, I) d α_{1} d α_{2} d β_{1} d β_{2}

$P=\int_{-\infty}^{\infty} \int_{\beta_{2}}^{\infty} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} Pr(\alpha_{1},\alpha_{2},\beta_{1},\beta_{2}|\{Y_{1i},Y_{2i},X_{i}\}_{i=1}^{n},I) d\alpha_{1}d\alpha_{2}d\beta_{1}d\beta_{2}$

Because the probability is conditional on the data, it will factor into the two separate posteriors for each model

P r (α_{1}, β_{1} | {Y_{1 i}, X_{i}, Y_{2 i}}_{i = 1}^{n}, I) P r (α_{2}, β_{2} | {Y_{2 i}, X_{i}, Y_{1 i}}_{i = 1}^{n}, I)

$Pr(\alpha_{1},\beta_{1}|\{Y_{1i},X_{i},Y_{2i}\}_{i=1}^{n},I)Pr(\alpha_{2},\beta_{2}|\{Y_{2i},X_{i},Y_{1i}\}_{i=1}^{n},I)$

Now because there is no direct links between $Y_{1i}$ and $\alpha_{2},\beta_{2}$ , only indirect links through $X_{i}$ , which is known, it will drop out of the conditioning in the second posterior. same for $Y_{2i}$ in the first posterior.

From standard logistic regression theory, and assuming uniform prior probabilities, the posterior for the parameters is approximately bi-variate normal with mean equal to the MLEs, and variance equal to the information matrix, denoted by $V_{1}$ and $V_{2}$ - which do not depend on the parameters, only the MLEs. so you have straight-forward normal integrals with known variance matrix. $\alpha_{j}$ marginalises out with no contribution (as would any other "common variable") and we are left with the usual result (I can post the details of the derivation if you want, but its pretty "standard" stuff):

P = Φ (\frac{{\hat{β}}_{2, M L E} - {\hat{β}}_{1, M L E}}{\sqrt{V_{1 : β, β} + V_{2 : β, β}}})

$P=\Phi\left(\frac{\hat{\beta}_{2,MLE}-\hat{\beta}_{1,MLE}}{\sqrt{V_{1:\beta,\beta}+V_{2:\beta,\beta}}}\right)$

ที่ไหน $\Phi()$ เป็นเพียง CDF ปกติมาตรฐาน นี่คือการเปรียบเทียบปกติของการทดสอบหมายถึงปกติ แต่โปรดทราบว่าวิธีการนี้ต้องการการใช้ชุดตัวแปรการถดถอยในแต่ละชุด ในกรณีหลายตัวแปรที่มีตัวทำนายหลายตัวหากคุณมีตัวแปรการถดถอยที่แตกต่างกันอินทิกรัลจะมีประสิทธิภาพเท่ากับการทดสอบด้านบน แต่จาก MLEs ของสอง betas จาก "โมเดลขนาดใหญ่" ซึ่งรวมถึงโควาเรียทั้งหมดจากทั้งสองรุ่น

— probabilityislogic
แหล่งที่มา

3

ทำไมจะไม่ล่ะ? แบบจำลองนี้ประมาณว่าการเปลี่ยนแปลง 1 หน่วยในตัวทำนายแบบจำลองใด ๆ จะมีผลต่อความน่าจะเป็นของ "1" สำหรับตัวแปรผลลัพธ์ ฉันจะสมมติว่าแบบจำลองเหมือนกัน - พวกเขามีตัวทำนายแบบเดียวกันในตัว วิธีที่ให้ข้อมูลมากที่สุดในการเปรียบเทียบขนาดสัมพัทธ์ของตัวทำนายใด ๆ ในแบบจำลอง 2 ตัวคือการใช้แบบจำลองในการคำนวณ (ไม่ว่าจะแบบกำหนดขึ้นเองหรือดีกว่าโดยการจำลอง) เท่าใดการเปลี่ยนแปลงที่เพิ่มขึ้นอย่างมีนัยสำคัญ (เช่น +/- 1 SD) เครื่องมือทำนายมีผลต่อความน่าจะเป็นของตัวแปรผลลัพธ์ที่เกี่ยวข้อง - & เปรียบเทียบมัน! คุณจะต้องการกำหนดช่วงความมั่นใจสำหรับการประมาณการทั้งสองรวมถึงเพื่อให้คุณสามารถพึงพอใจกับตัวเองว่าความแตกต่างนั้น "สำคัญ" ในทางปฏิบัติและสถิติ

— dmk38
แหล่งที่มา

ขอบคุณ dmk8 มีประโยชน์มาก จุดติดตาม / คำถามบางอย่าง: นี่คือสิ่งที่มักจะหมายถึงเมื่ออ้างถึงการเปลี่ยนแปลงตัวแปรของดอกเบี้ย (ตัวอย่างเช่นเศรษฐกิจจากเลวถึงดี) ในขณะที่ถือตัวแปรควบคุมทั้งหมดตามความหมายของมัน? คุณหมายถึงอะไรโดยเด็ดขาด? ฉันจะกำหนดช่วงความมั่นใจรอบความน่าจะเป็นได้อย่างไร

— Ejs

2

ปรึกษาราชา เขาจะไม่ทำให้ผิดหวัง King, G. , Tomz, M. , & Wittenberg., J. (2000) ใช้ประโยชน์สูงสุดจากการวิเคราะห์ทางสถิติ: ปรับปรุงการตีความและการนำเสนอ Am เจ. วิทย์, 44 (2), 347-361

— dmk38

2

ฉันคิดว่าโดย "ตัวแปรอิสระของฉันคือเศรษฐกิจ" คุณกำลังใช้ชวเลขสำหรับการคาดการณ์เฉพาะบางอย่าง

ในระดับหนึ่งฉันเห็นว่าไม่มีอะไรผิดปกติกับการสร้างข้อความเช่น

X ทำนาย Y1 ด้วยอัตราต่อรองที่ _ และช่วงความเชื่อมั่น 95% ที่ [_, _] ในขณะที่ X คาดการณ์ Y2 ด้วยอัตราต่อรองที่ _ และช่วงความมั่นใจ 95% ที่ [_, _]

คำแนะนำล่าสุดของ @dmk38 มีประโยชน์มากในเรื่องนี้

คุณอาจต้องการสร้างมาตรฐานสัมประสิทธิ์เพื่อช่วยในการเปรียบเทียบ

ในอีกระดับหนึ่งให้ระวังการใช้สถิติเชิงอนุมาน (ข้อผิดพลาดมาตรฐานp- value, CIs) อย่างแท้จริงเมื่อตัวอย่างของคุณเป็นตัวอย่างที่ไม่ใช่แบบสุ่มของประชากรปีที่คุณอาจต้องการสรุป

— rolando2
แหล่งที่มา

ใช่ 'เศรษฐกิจ' เป็นการจดชวเลขเพื่อรับรู้ถึงสภาพเศรษฐกิจของชาติ คำแนะนำเดียวกันนี้ใช้หรือไม่เมื่อมีตัวทำนายอื่น ๆ (การควบคุม) รวมอยู่ในโมเดล?

— Ejs

@Ejs - ฉันเกรงว่าจะไม่มีคำตอบสั้น ๆ สำหรับคำถามสุดท้ายของคุณ คุณกำลังเข้าสู่ความหมายของการประเมินความสัมพันธ์เมื่อใช้การควบคุมเชิงสถิติ - หัวข้อที่ซับซ้อนอย่างน่าประหลาดที่ควรค่าแก่การศึกษาอย่างละเอียด นอกจากนี้คุณยังอาจได้รับหัวข้อการเลือกตัวแปรซึ่งเป็นหัวข้อใหญ่เช่นกัน imho แหล่งที่ดีที่สุดสำหรับนักเรียนที่มีความมุ่งมั่นของหัวข้อเหล่านี้คือ Pedhazur ของamazon.com/Multiple-regression-behavioral-research-Pedhazur/...

— rolando2

1

ให้เราบอกว่าความสนใจอยู่ที่การเปรียบเทียบคนสองกลุ่ม: กลุ่มที่มี $X_{1} = 1$ และผู้ที่มี $X_{1} = 0$ .

เลขชี้กำลังของ $\beta_{1}$ สัมประสิทธิ์ที่สอดคล้องกันถูกตีความเป็นอัตราส่วนของอัตราต่อรองของความสำเร็จสำหรับผู้ที่มี $X_{1} = 1$ เหนือโอกาสแห่งความสำเร็จสำหรับผู้ที่มี $X_{1} = 0$ , เงื่อนไขในตัวแปรอื่น ๆ ในรูปแบบ

ดังนั้นหากคุณมีสองรุ่นที่มีตัวแปรขึ้นอยู่กับการตีความที่แตกต่างกัน $\beta_{1}$ การเปลี่ยนแปลงเนื่องจากมันไม่ได้ถูก จำกัด ตามตัวแปรชุดเดียวกัน ดังนั้นการเปรียบเทียบจึงไม่ตรง ...

— ocram
แหล่งที่มา

สิ่งนี้มีความหมายต่อข้อเสนอแนะของ roland2 หรือไม่?

— Ejs

@Ejs คุณอ้างถึงขั้นตอนมาตรฐานหรือไม่ คำตอบของฉันช่วยได้ไหม? ฉันเข้าใจผิดคำถามหรือไม่?

— ocram