การตรวจสอบความทนทานของการถดถอยโลจิสติกกับการละเมิดความเป็นเชิงเส้นของ logit


10

ฉันกำลังทำการถดถอยโลจิสติกด้วยผลลัพธ์ไบนารี (เริ่มต้นและไม่เริ่ม) การผสมผสานของผู้ทำนายของฉันนั้นล้วน แต่เป็นตัวแปรแบบต่อเนื่องหรือแบบแบ่งขั้ว

การใช้วิธี Box-Tidwell หนึ่งในเครื่องมือทำนายอย่างต่อเนื่องของฉันอาจละเมิดสมมติฐานของความเป็นเชิงเส้นของ logit ไม่มีข้อบ่งชี้จากสถิติความดีพอดีว่าเป็นปัญหา

ฉันได้เรียกใช้โมเดลการถดถอยอีกครั้งโดยแทนที่ตัวแปรต่อเนื่องดั้งเดิมด้วย: ประการแรกการแปลงรากที่สองและที่สองคือตัวแปรที่มีการแบ่งขั้ว

ในการตรวจสอบผลลัพธ์ดูเหมือนว่าความดีของพอดีช่วยปรับปรุงเล็กน้อย แต่เศษเหลือเป็นปัญหา การประมาณพารามิเตอร์, ข้อผิดพลาดมาตรฐานและยังคงคล้ายกัน การตีความข้อมูลไม่เปลี่ยนแปลงตามสมมติฐานของฉันทั้ง 3 แบบประสบการณ์(β)

ดังนั้นในแง่ของประโยชน์ของผลลัพธ์และความหมายในการตีความข้อมูลของฉันมันดูเหมือนว่าจะเหมาะสมที่จะรายงานตัวแบบการถดถอยโดยใช้ตัวแปรต่อเนื่องดั้งเดิม

ฉันสงสัยว่านี้:

  1. การถดถอยโลจิสติกส์แข็งแกร่งเมื่อใดเมื่อเปรียบเทียบกับการละเมิดความเป็นเส้นตรงของข้อสมมติฐาน logit
  2. จากตัวอย่างข้างต้นของฉันดูเหมือนจะยอมรับได้หรือไม่ที่จะรวมตัวแปรต่อเนื่องดั้งเดิมไว้ในโมเดล
  3. มีการอ้างอิงหรือคำแนะนำสำหรับการแนะนำเมื่อเป็นที่พอใจหรือไม่ที่จะยอมรับว่าแบบจำลองนั้นมีความทนทานต่อการละเมิดความเป็นเส้นตรงของ logit หรือไม่?

คำตอบ:


16

สมมติฐานเชิงเส้นตรงมีการละเมิดโดยทั่วไปในการถดถอยว่าควรเรียกว่าเซอร์ไพรซ์แทนที่จะเป็นข้อสันนิษฐาน เช่นเดียวกับตัวแบบการถดถอยอื่น ๆ ตัวแบบโลจิสติกส์นั้นไม่ทนทานต่อความไม่เชิงเส้นเมื่อคุณสมมติว่าเป็นเส้นตรง แทนที่จะตรวจจับแบบไม่เชิงเส้นโดยใช้ส่วนที่เหลือหรือความดีของรถโดยสารของการทดสอบแบบเต็มมันจะดีกว่าที่จะใช้การทดสอบโดยตรง ตัวอย่างเช่นขยายตัวพยากรณ์อย่างต่อเนื่องโดยใช้เส้นโค้งการถดถอยและทำการทดสอบประกอบของคำศัพท์ไม่เชิงเส้นทั้งหมด ดีกว่ายังไม่ทดสอบคำศัพท์และคาดหวังว่าความไม่เชิงเส้น วิธีนี้ดีกว่าการลองใช้ตัวเลือกความชันเดี่ยวที่แตกต่างกันของการแปลงเช่นสแควร์รูทบันทึก ฯลฯ เพราะการอนุมานทางสถิติเกิดขึ้นหลังจากการวิเคราะห์เช่นนี้จะไม่ถูกต้องเพราะมันไม่มีองศาอิสระที่ใหญ่พอ

นี่คือตัวอย่างในอาร์

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

คำตอบของคุณสมเหตุสมผลดี - ขอบคุณ! คุณสามารถแนะนำให้ใช้ไวยากรณ์ใน SPSS ได้หรือไม่ ฉันโชคไม่ดีที่ไม่มีการเข้าถึง (หรือทักษะ) เพื่อใช้ประโยชน์จากอาร์
เอลิซาเบ ธ สั้น

1
มันคุ้มค่ากับเวลาที่จะเรียนรู้ R และฉันมีเอกสารประกอบคำบรรยายมากมายที่เกี่ยวข้องกับการสร้างแบบจำลองโลจิสติกและแพ็คเกจ rms นี่คงเป็นเรื่องยากที่จะทำใน SPSS
Frank Harrell

@ Frankankarrell: f <- lrm(y ~ ...บรรทัดมีข้อผิดพลาดobject 'y' not found- คุณสามารถแก้ไขได้หรือไม่
arielf

1
นั่นเป็นข้อผิดพลาด R ขั้นพื้นฐานที่ไม่ซ้ำกับrmsแพ็คเกจของฉัน ใช้เวลาทำความรู้จักกับ R โดยเริ่มจากวัสดุมากมายสำหรับlmฟังก์ชั่นการถดถอยพื้นฐาน
Frank Harrell

1
ตัวอย่างในหน้าช่วยเหลือของซอฟต์แวร์จำลองข้อมูลดังกล่าวดังนั้นให้ดูตัวอย่างทั้งหมดในบริบท ทำเช่นrequire(rms)นั้น?lrmแล้วexamples(lrm)
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.