การเปรียบเทียบค่าสัมประสิทธิ์การถดถอยโลจิสติกในแบบจำลอง?


11

ฉันได้พัฒนาโมเดล logit เพื่อนำไปใช้กับชุดข้อมูลข้ามภาคหกชุด สิ่งที่ฉันพยายามเปิดเผยคือการเปลี่ยนแปลงผลกระทบที่สำคัญของตัวแปรอิสระ (IV) ที่กำหนดต่อการควบคุมตัวแปรตาม (DV) สำหรับคำอธิบายอื่น ๆ ในช่วงเวลาและเวลาที่ต่างกัน

คำถามของฉันคือ:

  • ฉันจะประเมินขนาดที่เพิ่มขึ้น / ลดลงในความสัมพันธ์ระหว่าง IV และ DV ได้อย่างไร
  • ฉันสามารถดูขนาด (สัมประสิทธิ์) ที่แตกต่างกันของค่าสัมประสิทธิ์ของแบบจำลองหรือฉันจำเป็นต้องทำตามกระบวนการอื่นหรือไม่?
  • ถ้าฉันต้องการทำอย่างอื่นมันคืออะไรและสามารถทำได้ / ฉันจะทำใน SPSS ได้อย่างไร?

    นอกจากนี้ภายในรุ่นเดียว

  • ฉันสามารถเปรียบเทียบขนาดสัมพัทธ์ของตัวแปรอิสระตามคะแนนที่ไม่ได้มาตรฐานได้หรือไม่หากทั้งหมดถูกเข้ารหัส 0-1 หรือฉันจำเป็นต้องแปลงให้เป็นคะแนนมาตรฐานหรือไม่
  • มีปัญหาเกี่ยวข้องกับคะแนนมาตรฐานหรือไม่

2
บทความนี้อาจเป็นที่สนใจdx.doi.org/10.1093/esr/jcp006 การเปรียบเทียบเอฟเฟกต์ระหว่างแบบจำลอง Logistic นั้นซับซ้อนกว่าในกรณี OLS มาก!
Andy W

คำตอบ:


13

ฉันจะเน้นคำถามสามข้อแรกของคุณเป็นหลัก คำตอบสั้น ๆ คือ: (1) คุณต้องเปรียบเทียบผลกระทบของ IV ต่อ DV ในแต่ละช่วงเวลา แต่ (2) การเปรียบเทียบขนาดเท่านั้นที่สามารถนำไปสู่ข้อสรุปที่ผิดและ (3) มีหลายวิธีในการทำเช่นนั้น ฉันทามติใดที่ไม่ถูกต้อง

ด้านล่างนี้ฉันอธิบายว่าทำไมคุณไม่สามารถเปรียบเทียบขนาดสัมประสิทธิ์และชี้ให้คุณเห็นวิธีแก้ปัญหาบางอย่างที่คิดมาจนถึงตอนนี้

ตาม Allison (1999) ซึ่งแตกต่างจาก OLS, ค่าสัมประสิทธิ์การถดถอยโลจิสติกได้รับผลกระทบจากความแตกต่างที่ไม่ได้รับการบันทึกแม้ว่าความแตกต่างดังกล่าวจะไม่เกี่ยวข้องกับตัวแปรที่น่าสนใจ

เมื่อคุณพอดีกับการถดถอยโลจิสติกเช่น:

LN(11-พีผม)=β0+β1x1ผม

Y* * * *1Y* * * *

Y* * * *=α0+α1x1ผม+σε

ε

αβ

βJ=αJσJ=1,...,J.

σβσ

เนื่องจากการเปรียบเทียบอาจให้ข้อสรุปที่ไม่ถูกต้องหากรูปแบบที่ไม่มีผู้สังเกตการณ์แตกต่างกันไปในแต่ละกลุ่มประเทศหรือช่วงเวลา การเปรียบเทียบโดยใช้แบบจำลองที่แตกต่างกันและการใช้เงื่อนไขการโต้ตอบภายในตัวแบบเดียวกันประสบปัญหานี้ นอกจาก logit สิ่งนี้ยังนำไปใช้กับลูกพี่ลูกน้อง probit, clog-log, cauchit และโดยการขยายเพื่อแยกแบบจำลองเวลาอันตรายโดยประมาณโดยใช้ฟังก์ชันลิงค์เหล่านี้ โมเดล logit ที่สั่งซื้อจะได้รับผลกระทบ

วิลเลียมส์ (2009) ให้เหตุผลว่าการแก้ปัญหาคือการสร้างแบบจำลองการเปลี่ยนแปลงที่ไม่ได้สังเกตผ่านรูปแบบทางเลือกที่แตกต่างกัน (อาคา, แบบจำลองระดับสถานที่ตั้ง) และให้ Stata เพิ่มบนเรียกoglm ว่า (วิลเลียมส์ 2010) ใน R โมเดลตัวเลือกที่ต่างกันสามารถเข้ากันได้กับhetglm()ฟังก์ชั่นของglmxแพคเกจซึ่งมีให้ผ่าน CRAN ทั้งสองโปรแกรมใช้งานง่ายมาก สุดท้าย Williams (2009) กล่าวถึงPLUMกิจวัตรของ SPSS สำหรับการปรับโมเดลเหล่านี้ แต่ฉันไม่เคยใช้มันและไม่สามารถแสดงความคิดเห็นได้ว่ามันใช้งานง่ายแค่ไหน

อย่างไรก็ตามมีกระดาษทำงานอย่างน้อยหนึ่งฉบับที่แสดงให้เห็นว่าการเปรียบเทียบโดยใช้แบบจำลองทางเลือกต่างกันสามารถมีความลำเอียงได้มากขึ้นถ้าสมการแปรปรวนเป็นแบบผิดพลาดหรือมีข้อผิดพลาดในการวัด

อารมณ์ (2010) แสดงรายการโซลูชันอื่น ๆ ที่ไม่เกี่ยวข้องกับการสร้างแบบจำลองความแปรปรวน แต่ใช้การเปรียบเทียบการเปลี่ยนแปลงความน่าจะเป็นที่คาดการณ์ไว้

เห็นได้ชัดว่ามันเป็นปัญหาที่ไม่ได้ตัดสินและฉันมักจะเห็นเอกสารในการประชุมในสาขาของฉัน (สังคมวิทยา) ขึ้นมาด้วยโซลูชั่นที่แตกต่างกันสำหรับมัน ฉันขอแนะนำให้คุณดูว่าผู้คนในสาขาของคุณทำอะไรแล้วตัดสินใจว่าจะจัดการกับมันอย่างไร

อ้างอิง


ฉันกำลังพยายามใช้โซลูชัน Williams (2009) ใน R และดูเหมือนว่าแพ็คเกจ glmx รุ่นใหม่ไม่มีฟังก์ชัน hetprob () อีกต่อไป แค่อยากตรวจสอบว่าคุณรู้จักทางเลือกอื่นสำหรับสิ่งนี้หรือไม่?
AliCivil

1
ฉันไม่ได้ใช้ glmx สักพักและไม่รู้ว่ามันเปลี่ยนไป ตอนนี้สามารถใช้งานผ่าน CRAN แล้วและฟังก์ชั่นที่ใช้สำหรับโปรตุแกส hereroskedastic เรียกว่า hetglm () เห็นได้ชัดว่า ฉันจะอัปเดตคำตอบนี้เพื่อสะท้อนในภายหลัง (ประมาณเวลานอนที่นี่) ฉันหวังว่าสิ่งนี้จะช่วยได้ในตอนนี้
เคนจิ

3

มีการเปลี่ยนแปลงในชุดข้อมูลหรือไม่? ฉันสามารถตอบได้โดยไม่ต้องดูข้อมูล! ใช่. มี มีขนาดใหญ่แค่ไหน นั่นคือกุญแจสำคัญ สำหรับฉันวิธีที่จะดูคือการมอง คุณจะมีอัตราต่อรองสำหรับแต่ละตัวแปรอิสระสำหรับแต่ละชุดข้อมูล - พวกเขาแตกต่างกันในวิธีที่ผู้คนจะสนใจหรือไม่? ทีนี้เป็นเรื่องจริงที่แต่ละคนจะมีข้อผิดพลาดมาตรฐานและอื่น ๆ และอาจมีวิธีที่จะดูว่าพวกเขามีความแตกต่างทางสถิติอย่างมีนัยสำคัญหรือไม่ แต่เป็นคำถามที่น่าสนใจหรือไม่ ถ้าเป็นเช่นนั้นวิธีหนึ่งในการทดสอบอย่างง่ายดายด้วยซอฟต์แวร์คือการรวมการศึกษาทั้งหมดและรวมถึง "การศึกษา" เป็นตัวแปรอิสระอีกตัวหนึ่ง จากนั้นคุณสามารถทดสอบการโต้ตอบได้ถ้าต้องการ คุณต้องการทำสิ่งนี้หรือไม่ขึ้นอยู่กับคำถามที่สำคัญของคุณ

ในการเปรียบเทียบตัวแปรภายในตัวแบบปัญหาหลักที่มีคะแนนมาตรฐานคือพวกมันได้มาตรฐานในตัวอย่างเฉพาะของคุณ ดังนั้นการประมาณค่าพารามิเตอร์และอื่น ๆ จึงเป็นค่าเบี่ยงเบนมาตรฐานของตัวแปรในตัวอย่างเฉพาะของคุณ แม้ว่าตัวอย่างของคุณจะเป็นกลุ่มตัวอย่างที่สุ่มจากประชากรบางกลุ่ม แต่ก็จะมีค่าเบี่ยงเบนมาตรฐานที่แตกต่างกันเล็กน้อยจากกลุ่มตัวอย่างอื่น ๆ สิ่งนี้ทำให้เกิดความสับสน

อีกปัญหาคือคำถามที่ว่า "ขนาดญาติ" หมายถึงอะไร หาก IV ของคุณเป็นสิ่งที่เข้าใจได้ดีคุณสามารถเปรียบเทียบ ORs ในช่วงที่มีความหมายบางอย่างได้


มีประโยชน์นั่นขอบคุณ Peter เหตุผลที่ฉันถามคำถามแรกคือเพราะฉันเห็นอย่างชัดเจนว่า - การเปรียบเทียบค่าสัมประสิทธิ์ของแบบจำลองในตัวอย่างและการเปรียบเทียบระหว่างแบบจำลองจากตัวอย่างที่แตกต่างกัน - ในเอกสารอ้างอิง ฉันไม่รู้สึกว่ามันเป็นวิธีการที่เหมาะสมและเห็นได้ชัดว่าฉันถูกต้อง เกี่ยวกับรายละเอียดทางเทคนิคฉันไม่สามารถประมาณแบบจำลองกับตัวอย่างทั้งหกและคำศัพท์โต้ตอบระหว่างตัวทำนายหลักที่ฉันต้องการเปรียบเทียบและตัวแปรที่ระบุแต่ละตัวอย่าง (แทนช่วงเวลาที่แตกต่างกัน) นั่นคือสิ่งที่คุณกำลังพูด? ฉันจำเป็นต้องใช้ตัวแปรสำหรับแต่ละ s
Ejs

สวัสดี @ejs คุณจะต้องเขียนโค้ด "ตัวอย่าง" เช่นเดียวกับตัวแปรเด็ดขาดอื่น ๆ - การเข้ารหัสแบบจำลองหรือการเข้ารหัสแบบเอฟเฟกต์หรืออะไรก็ตาม
Peter Flom

เกี่ยวกับการโต้ตอบ .... ใช่พวกเขาอาจตีความได้ยาก ฉันชอบวิธีกราฟิกเพื่อแสดงสิ่งที่พวกเขาหมายถึง
Peter Flom

3

Guilherme ใช้เงินที่นี่ ในขณะที่คำตอบอื่น ๆ มีประโยชน์โปรดทราบว่าการถดถอยโลจิสติกส์ (และการถดถอยเชิงเส้นทั้งหมดเช่นปัวซองสำหรับเรื่องนั้น) นั้นแตกต่างจากการถดถอยเชิงเส้น อาจมีปัญหาร้ายแรงเกี่ยวกับปัจจัยการปรับขนาด logit เมื่อใช้การวิเคราะห์เดียวกันในชุดข้อมูลหกชุดจากนั้นเรียกใช้การวิเคราะห์นั้นในชุดข้อมูลที่รวมกัน การเปลี่ยนแปลงค่าสัมประสิทธิ์อาจไม่เกี่ยวข้องกับความแตกต่างที่มีความหมาย (แม้ว่าจะมีนัยสำคัญทางสถิติหรือสำคัญยิ่งก็ตาม) พวกเขาอาจมีทุกอย่างที่เกี่ยวข้องกับความหลากหลายที่แตกต่างกันในกลุ่มตัวอย่าง คุณต้องทดสอบอย่างนั้น นักวิจัยหลายคน (ถ้าไม่ใช่มากที่สุด) ในสาขาวิทยาศาสตร์สังคมและนโยบายไม่สนใจสิ่งนี้ Guilherme ให้บทความเกี่ยวกับเชื้อที่ฉันแนะนำให้ทุกคนดู ข้อเสนอแนะของ Peters นั้นใช้งานได้จริง แต่เพียงการเข้ารหัสตัวแปรดัมมี่สำหรับตัวอย่างข้อมูลที่มาจากจะไม่ระบุความแตกต่างนี้ในปัจจัยการปรับสเกล คุณสามารถทำได้ในการถดถอยเชิงเส้นและความแตกต่างไม่ควรส่งผลกระทบต่อค่าสัมประสิทธิ์ของคุณ แต่ที่นี่มันอาจ

อีกมุมมองหนึ่งต่อผลกระทบของความแตกต่างที่ไม่ได้สังเกตเห็นที่ไม่ซ้ำกันในการ logit และการถดถอยเชิงเส้นคือผลของการถดถอยที่แตกต่างกันในแต่ละชุดข้อมูล หากคุณไม่มีตัวแปรเดียวกันหรือเป็นไปได้ว่าตัวแปรเหล่านั้นวัดต่างกันแสดงว่าคุณมีรูปแบบของการละเว้นอคติตัวแปร ซึ่งแตกต่างจากการถดถอยเชิงเส้นตัวแปร orthogonal ที่ถูกละเว้นไปยัง regressor หลักของคุณยังคงสามารถตั้งค่าการประเมินของคุณ ในฐานะที่เป็น Cramer ทำให้มัน:

β^β^

แครมเมอร์ยังชี้ให้เห็นถึงแม้ว่าการประมาณค่าสัมประสิทธิ์จะเอนเอียงลงเมื่อละเว้นตัวแปร นี่เป็นเรื่องที่ค่อนข้างซับซ้อนและคุณควรอ่านบทความเพื่อหาคำอธิบายที่ชัดเจนยิ่งขึ้น - ประเด็นโดยรวมคืออย่าดูที่อัตราต่อรองหรืออัตราต่อรองเท่านั้น พิจารณาความน่าจะเป็นที่คาดการณ์และอนุพันธ์ ดูคำสั่ง margin ใน Stata สำหรับรายละเอียดเพิ่มเติม JD Long มีกระดาษที่ให้รายละเอียดที่นี่

ในที่สุดก็มีเอกสารจำนวนมากที่คุณสามารถใช้กับ Google เพื่อพูดคุยเกี่ยวกับเงื่อนไขการโต้ตอบในโมเดล logit ความเข้าใจของฉันคือการที่ใช้สัมประสิทธิ์ logit ในการทำงานร่วมกันเป็นแนวทาง แต่ไม่ชัดเจนโดยเฉพาะถ้าคุณต้องการดูค่าสัมประสิทธิ์เป็นอัตราต่อรองแบบเอ็กซ์โปเนนเชีย เมื่อดูที่ความน่าจะเป็นที่คาดการณ์และผลกระทบโดยเฉลี่ยจะดีกว่า (อีกครั้งให้ดูเอกสารเกี่ยวกับคำสั่งสำหรับการบันทึก logata ของ Stata แม้ว่าคุณจะใช้ SPSS สิ่งนี้จะยังคงมีประโยชน์)

ฉันไม่คุ้นเคยกับ SPSS มากพอที่จะรู้ว่าแพคเกจนั้นสามารถจัดการกับปัญหาเหล่านี้ได้อย่างไร แต่ฉันจะพูดแบบนี้: เมื่อคุณเข้าสู่ประเด็นทางสถิติที่ลึกกว่าเช่นนี้มันเป็นข้อบ่งชี้ว่าถึงเวลาแล้วที่คุณจะย้ายไปอีก แพ็คเกจที่ยืดหยุ่นและซับซ้อนเช่น Stata หรือ R


+1 สำหรับการแนะนำเอฟเฟ็กต์ส่วนเพิ่มและสำหรับการแนะนำให้ย้ายเข้าสู่อาร์
เคนจิ

1

เครื่องมืออื่นที่อาจมีประโยชน์คือสัมประสิทธิ์การถดถอยแบบมาตรฐานหรืออย่างน้อยก็เป็นรุ่นหลอกแบบคร่าวๆ คุณสามารถรับหนึ่งเวอร์ชันดังกล่าวได้โดยการคูณสัมประสิทธิ์ของคุณโดยการเบี่ยงเบนมาตรฐานของตัวทำนาย (มีรุ่นอื่นและมีการถกเถียงกันบ้างเกี่ยวกับสิ่งที่ดีที่สุดเช่น Menard 2002, Logistic Regression Analysis ( Google books )) สิ่งนี้จะช่วยให้คุณประเมินความแข็งแรงของผลกระทบจากการศึกษา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.