ฉันควรตรวจสอบสมมติฐานของ linearity กับ logit สำหรับตัวแปรอิสระอย่างต่อเนื่องในการวิเคราะห์การถดถอยโลจิสติกอย่างไร


13

ฉันสับสนกับข้อสมมติของความเป็นเชิงเส้นต่อ logit สำหรับตัวแปรทำนายอย่างต่อเนื่องในการวิเคราะห์การถดถอยโลจิสติก เราจำเป็นต้องตรวจสอบความสัมพันธ์เชิงเส้นในขณะที่คัดกรองผู้ทำนายที่มีศักยภาพโดยใช้การวิเคราะห์การถดถอยโลจิสติกที่ไม่เปลี่ยนแปลงหรือไม่?

ในกรณีของฉันฉันใช้การวิเคราะห์การถดถอยโลจิสติกหลายครั้งเพื่อระบุปัจจัยที่เกี่ยวข้องกับภาวะโภชนาการ (ผลแบบคู่) ของผู้เข้าร่วม ตัวแปรอย่างต่อเนื่องรวมถึงอายุ, คะแนนการดูดซับของชาร์ลสัน, ดัชนีบาร์เทล, ความแข็งแรงของมือ, คะแนน GDS, ค่าดัชนีมวลกายเป็นต้นขั้นตอนแรกของฉันคือการคัดกรองตัวแปรที่สำคัญโดยใช้การถดถอยโลจิสติกอย่างง่าย ฉันต้องตรวจสอบสมมติฐานเชิงเส้นตรงในระหว่างการวิเคราะห์การถดถอยโลจิสติกอย่างง่ายสำหรับตัวแปรต่อเนื่องแต่ละตัวหรือไม่ หรือฉันควรตรวจสอบในรูปแบบการถดถอยโลจิสติกหลายขั้นสุดท้าย?

นอกจากนี้เพื่อความเข้าใจของฉันเราต้องเปลี่ยนตัวแปรต่อเนื่องที่ไม่ใช่เชิงเส้นก่อนที่จะใส่ลงในโมเดล ฉันสามารถจัดหมวดหมู่ตัวแปรต่อเนื่องแบบไม่เชิงเส้นแทนการแปลงได้หรือไม่?


1
คุณไม่ควรจัดหมวดหมู่ดีกว่าลอง splines!
kjetil b halvorsen

คำตอบ:


11

ดังที่ฉันได้อธิบายรายละเอียดในหนังสือกลยุทธ์การสร้างแบบจำลองการถดถอย (มีรุ่นที่ 2 2015-09-04, มี e-book อยู่ตอนนี้) กระบวนการของการพยายามเปลี่ยนตัวแปรก่อนที่จะสร้างแบบจำลองนั้นประสบปัญหาซึ่งเป็นหนึ่งในสิ่งที่สำคัญที่สุด ของประเภทข้อผิดพลาดฉันและช่วงความมั่นใจ การจัดหมวดหมู่ทำให้เกิดปัญหาที่รุนแรงยิ่งขึ้นโดยเฉพาะการขาดความพอดีและความเด็ดขาด

แทนที่จะคิดเกี่ยวกับสิ่งนี้เป็นปัญหา "ตรวจสอบการขาดความพอดี" จะเป็นการดีกว่าถ้าคิดว่าเป็นการระบุรุ่นที่น่าจะพอดี วิธีหนึ่งในการทำเช่นนี้คือการจัดสรรพารามิเตอร์ให้กับส่วนต่าง ๆ ของแบบจำลองที่มีแนวโน้มว่าจะแข็งแกร่งและไม่ทราบว่าเส้นตรงเป็นเส้นสมมุติที่สมเหตุสมผล ในกระบวนการนี้เราจะตรวจสอบขนาดตัวอย่างที่มีประสิทธิภาพ (ในกรณีของคุณคือจำนวนขั้นต่ำของเหตุการณ์และจำนวนที่ไม่ใช่เหตุการณ์) และช่วยให้เกิดความซับซ้อนในระดับที่เนื้อหาข้อมูลของข้อมูลอนุญาต (โดยใช้เหตุการณ์ 15: 1: กฎพารามิเตอร์ นิ้วหัวแม่มือ) โดยการระบุล่วงหน้าแบบจำลองพารามิเตอร์เสริมแบบยืดหยุ่นหนึ่งจะผิดในกรณีที่มันสำคัญ การโต้ตอบควรกำหนดไว้ล่วงหน้าโดยทั่วไปแล้วจะพูด

คุณสามารถตรวจสอบว่าจำเป็นต้องมีความไม่เชิงเส้นในโมเดลด้วยการทดสอบอย่างเป็นทางการ (ทำง่ายด้วยrmsแพ็คเกจR ) หรือไม่ แต่การลบคำดังกล่าวออกไปเมื่อไม่มีนัยสำคัญจะสร้างการบิดเบือนเชิงอนุมานที่ฉันระบุไว้ข้างต้น

รายละเอียดเพิ่มเติมสามารถดูได้ที่บันทึกหลักสูตรการเชื่อมโยงจากhttp://biostat.mc.vanderbilt.edu/rms


ขออภัยที่ไม่ได้กล่าวถึงก่อนหน้านี้ แต่ฉันไม่คุ้นเคยกับ R และใช้ SPSS สำหรับการวิเคราะห์ จากการแก้ปัญหาที่ให้ไว้หมายความว่าถ้าฉันใช้ขนาดตัวอย่างที่มีประสิทธิภาพ (15: 1) ฉันสามารถรวมปัจจัยที่สำคัญทั้งหมด (จากการตรวจสอบ) โดยไม่ต้องตรวจสอบความเป็นเชิงเส้นของพวกเขาหรือไม่
Sze Lin Tan

จากการวิเคราะห์การถดถอยโลจิสติกที่ไม่สามารถเปลี่ยนแปลงได้ที่ฉันได้ทำในกรณีของฉัน BMI เส้นรอบวงน่องเส้นรอบวงต้นแขนกลางทั้งหมดล้วนมีส่วนสำคัญในรูปแบบการถดถอยโลจิสติกอย่างง่ายของภาวะโภชนาการ (p <0.05) แต่พวกเขากลับกลายเป็นไม่ตรงกับข้อสมมติเชิงเส้นตรงเมื่อฉันตรวจสอบสมมติฐานโดยใช้วิธี Box-Tidwell (สำหรับแต่ละโมเดลโลจิสติกแบบง่าย) ดังนั้นฉันไม่แน่ใจว่าฉันควรดำเนินการวิเคราะห์การถดถอยโลจิสติกหลายครั้งกับตัวทำนายเหล่านี้หรือไม่
Sze Lin Tan

5
มันไม่ถูกต้องในการสร้างแบบจำลองบนพื้นฐานของการวิเคราะห์ที่ไม่แปรเปลี่ยน คุณกำลังใช้ชุดตัวเลือกเพื่อส่งต่อการถดถอยแบบขั้นตอนซึ่งทราบว่าเป็นสาเหตุของปัญหา
Frank Harrell

8

การถดถอยโลจิสติกไม่ถือว่าความสัมพันธ์เชิงเส้นระหว่างตัวแปรที่ขึ้นกับและอิสระ มันถือว่าความสัมพันธ์เชิงเส้นระหว่างอัตราต่อรองของตัวแปรตามและตัวแปรอิสระ (นี่คือปัญหาส่วนใหญ่กับตัวแปรอิสระอย่างต่อเนื่อง) มีการทดสอบที่เรียกว่า Box-Tidwell ที่คุณสามารถใช้สำหรับสิ่งนี้ คำสั่ง stata คือ boxtid ฉันไม่ทราบคำสั่ง SPSS ขออภัย

สิ่งนี้อาจเป็นประโยชน์ - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm


ลิงก์เสีย
Alexey Shrub

1

ฉันคิดว่าเราควรพล็อตตัวแปรต่อเนื่องและตรวจสอบความเป็นเชิงเส้นก่อนที่จะใช้พวกมันในตัวแบบการถดถอย หากความเป็นเชิงเส้นดูเหมือนเป็นข้อสันนิษฐานที่สมเหตุสมผลฉันคิดว่านี่อาจจะยังคงอยู่ในรูปแบบการถดถอยหลายตัวแปรขั้นสุดท้ายในกรณีส่วนใหญ่และถ้าไม่ฉันคิดว่านี่อาจเกิดจากการปฏิสัมพันธ์ที่คุณสามารถแก้ไขได้

ใช่การจัดหมวดหมู่ตัวแปรต่อเนื่องที่ไม่ใช่เชิงเส้นเป็นหนึ่งตัวเลือก ปัญหาเกี่ยวกับสิ่งนี้คือหมวดหมู่ในกรณีส่วนใหญ่อาจดูไม่มีเหตุผลและคะแนนแตกต่างกันเล็กน้อยระหว่างหมวดหมู่อาจนำไปสู่ผลลัพธ์ที่แตกต่างกัน (โดยเฉพาะเกี่ยวกับนัยสำคัญทางสถิติ) และขึ้นอยู่กับจำนวนหมวดหมู่และขนาดของข้อมูลของคุณ คุณอาจสูญเสียข้อมูลที่มีค่ามากในข้อมูล

อีกทางเลือกหนึ่งคือการใช้โมเดลเสริมทั่วไปซึ่งเป็นรูปแบบการถดถอยที่สามารถระบุได้ว่าเป็นการถดถอยโลจิสติก แต่คุณสามารถรวมตัวแปรอิสระที่ไม่ใช่เชิงเส้นเป็น "ฟังก์ชั่นที่ราบรื่น" ในทางเทคนิคแล้วมันไม่ซับซ้อนมากใน R แต่ฉันไม่รู้เกี่ยวกับแพ็คเกจซอฟต์แวร์อื่น ๆ แบบจำลองเหล่านี้จะระบุความสัมพันธ์ที่ไม่เป็นเชิงเส้นกับตัวแปรตาม แต่ข้อเสียเปรียบอาจเป็นไปได้ว่าคุณจะไม่ได้ตัวเลขที่เรียบร้อยและเป็นระเบียบในผลลัพธ์ของคุณจนถึงปัจจุบัน แต่เป็นเส้นโค้งภาพที่ทดสอบความสำคัญทางสถิติ ดังนั้นขึ้นอยู่กับความสนใจของคุณในการหาผลกระทบของตัวแปรที่ไม่เป็นเชิงเส้นกับตัวแปรผลลัพธ์

สุดท้ายคุณสามารถใช้โมเดลเสริมทั่วไปตามที่อธิบายไว้ข้างต้นเพื่อทดสอบสมมติฐานของลิเนียริตี้ในโมเดลการถดถอยโลจิสติกของคุณอย่างน้อยถ้าคุณใช้ R

ลองดูที่หนังสือเล่มนี้ (เขตข้อมูลที่แตกต่างจากของคุณและของฉัน แต่ไม่สำคัญเลย): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / โทษ = sr_1_1? เช่น = UTF8 & qid = 1440928328 & sr = 8-1 และคำหลัก = zuur + นิเวศวิทยา


ฉันไม่คุ้นเคยกับ R และใช้ SPSS สำหรับการวิเคราะห์ ขออภัยที่ไม่ได้กล่าวถึงก่อนหน้านี้ ฉันสามารถใช้วิธี Box-Tidwell (โดยการสร้างคำโต้ตอบระหว่างตัวแปรต่อเนื่องกับบันทึกธรรมชาติของตัวเองและเพิ่มคำปฏิสัมพันธ์ลงในโมเดล) เพื่อตรวจสอบสมมติฐานเชิงเส้นตรงหรือไม่
Sze Lin Tan

1

เนื่องจากฉันไม่ทราบข้อมูลของคุณฉันไม่ทราบว่าการรวมสามตัวแปรเหล่านั้น - ตัวแปรพื้นฐานบันทึกธรรมชาติและคำโต้ตอบ - จะมีปัญหา อย่างไรก็ตามฉันรู้ว่าในอดีตเมื่อฉันได้พิจารณาการรวมสามคำฉันมักจะสูญเสียการติดตามแนวคิดของสิ่งที่ฉันวัด คุณต้องมีการจัดการที่ดีกับสิ่งที่คุณกำลังวัดหรือคุณจะมีปัญหาในการอธิบายการค้นพบของคุณ หวังว่าจะช่วย!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.