การเลือกแบบจำลอง: การถดถอยโลจิสติก


13

สมมติว่าเรามีตัวแปรและผลไบนารีตัวแปรYโควาเรียเหล่านี้บางประเภทมีหลายระดับ อื่น ๆ อย่างต่อเนื่อง คุณจะเลือกรุ่นที่ดีที่สุดได้อย่างไร กล่าวอีกนัยหนึ่งคุณจะเลือกเพื่อนร่วมรัฐใดที่จะรวมอยู่ในแบบจำลองได้อย่างไรx 1 , , x n ynx1,,xny

คุณจะสร้างแบบจำลองกับ covariates แต่ละรายการโดยใช้การถดถอยโลจิสติกอย่างง่ายและเลือกอันที่มีความสัมพันธ์สำคัญหรือไม่?y


1
นอกเหนือจากคำตอบของฉันด้านล่าง (หรืออื่น ๆ หากพวกเขาปรากฏ) ต่อไปนี้มีการอภิปรายที่ดีของการเลือกรูปแบบ (แม้ว่าไม่ได้มุ่งเน้นไปที่การถดถอยโลจิสติกต่อ se) stats.stackexchange.com/questions/18214/ …
gung - Reinstate Monica

2
ฉันจะอ้างถึง @jthetzel จากความเห็นเมื่อเร็ว ๆ นี้ในเว็บไซต์นี้: "เป็นคำถามที่ดี แต่สิ่งที่มากที่สุดที่นี่เรียนในหลักสูตรมหาวิทยาลัยระยะยาวภาคการศึกษาและบางส่วนได้ใช้เวลาเรียนอาชีพ" มันเหมือนกับนั่งลงกับใครสักคนแล้วพูดว่า "คุณช่วยสอนฉันภาษาสวาฮีลีในบ่ายวันนี้ได้ไหม" ไม่ใช่ว่า Gung ไม่ได้ให้คะแนนที่ดีในคำตอบของเขา มันเป็นแค่ดินแดนที่กว้างใหญ่
rolando2

2
นี่เป็นกระทู้ที่ในขณะที่คำถามที่เฉพาะเจาะจงมากมีคำแนะนำจากฉันโดยทั่วไป: stats.stackexchange.com/questions/17068/ …ฉันจะให้ความคิดของฉันด้านล่าง
Fomite

โอเคฉันคิดว่าฉันจะใช้ AIC เป็นเกณฑ์เท่านั้น แบบเต็มมี AIC ต่ำที่สุด นอกจากนี้ AIC ก็ค่อนข้างแตกต่างจากกันและกัน
โธมัส

คำตอบ:


10

นี่อาจไม่ใช่สิ่งที่ดีที่จะทำ เมื่อมองไปที่บุคคลที่แปรเปลี่ยนมาก่อนแล้วจึงสร้างแบบจำลองที่มีนัยสำคัญเทียบเท่ากับกระบวนการค้นหาอัตโนมัติ ในขณะที่วิธีการนี้ใช้งานง่ายการอ้างถึงที่ทำจากโพรซีเดอร์นี้จะไม่ถูกต้อง (เช่นค่า p จริงนั้นแตกต่างจากที่รายงานโดยซอฟต์แวร์) ปัญหาถูกขยายให้ใหญ่ขึ้นเท่าขนาดของชุดเริ่มต้นของ covariates คือ หากคุณทำเช่นนี้ (และน่าเสียดายที่หลายคนทำ) คุณไม่สามารถใช้โมเดลที่เป็นผลลัพธ์ได้อย่างจริงจัง แต่คุณจะต้องทำการศึกษาใหม่ทั้งหมดรวบรวมตัวอย่างที่เป็นอิสระและปรับรุ่นก่อนหน้าให้เหมาะสมเพื่อทดสอบ อย่างไรก็ตามสิ่งนี้ต้องการทรัพยากรจำนวนมากและยิ่งกว่านั้นเนื่องจากกระบวนการมีข้อบกพร่องและรุ่นก่อนหน้าน่าจะเป็นรุ่นที่ไม่ดีเปลืองทรัพยากรมาก

วิธีที่ดีกว่าคือการประเมินแบบจำลองที่คุณสนใจอย่างมาก จากนั้นใช้เกณฑ์ข้อมูลที่ลงโทษความยืดหยุ่นของโมเดล (เช่น AIC) เพื่อตัดสินระหว่างโมเดลเหล่านั้น สำหรับการถดถอยโลจิสติก AIC คือ:

AIC=2×ln(likelihood)+2k

โดยคือจำนวนโควาเรียตที่รวมอยู่ในแบบจำลองนั้น คุณต้องการโมเดลที่มีค่าน้อยที่สุดสำหรับ AIC ทุกสิ่งเท่าเทียมกัน อย่างไรก็ตามมันไม่ง่ายเสมอไป ระวังเมื่อหลายรุ่นมีค่าที่คล้ายกันสำหรับ AIC แม้ว่าหนึ่งอาจจะต่ำที่สุด k

ฉันรวมสูตรสมบูรณ์สำหรับ AIC ไว้ที่นี่เพราะซอฟต์แวร์ที่แตกต่างกันให้ข้อมูลต่างกัน คุณอาจต้องคำนวณจากโอกาสที่จะเกิดขึ้นหรือคุณอาจได้คะแนน AIC ขั้นสุดท้ายหรืออะไรก็ตาม


6
ฉันชอบ AIC แต่ระวังว่าการคำนวณ AIC ในรุ่นที่ระบุไว้ล่วงหน้ามากกว่า 2 แบบนั้นส่งผลให้เกิดปัญหาหลายหลาก
Frank Harrell

1
@ FrankHarrell เคล็ดลับดี!
gung - Reinstate Monica

9

มีหลายวิธีในการเลือกตัวแปรที่จะไปในตัวแบบการถดถอยความเหมาะสมบางตัวแย่และแย่มาก หนึ่งอาจเพียงแค่เรียกดูสิ่งพิมพ์ของ Sander Greenland ซึ่งส่วนใหญ่เกี่ยวข้องกับการเลือกตัวแปร

อย่างไรก็ตามโดยทั่วไปแล้วฉันมีกฎทั่วไปอยู่สองสามข้อ:

  • อัลกอริทึมอัตโนมัติเช่นที่มาในแพ็คเกจซอฟต์แวร์อาจเป็นแนวคิดที่ไม่ดี
  • การใช้เทคนิคการวิเคราะห์แบบจำลองเช่น gung แนะนำเป็นวิธีที่ดีในการประเมินตัวเลือกการเลือกตัวแปรของคุณ
  • คุณควรใช้การผสมผสานระหว่างความเชี่ยวชาญในสาขาวิชาผู้ค้นหาวรรณกรรมกราฟอะคริลิกกำกับ ฯลฯ เพื่อแจ้งการเลือกตัวแปรของคุณ

3
ใส่ดีโดยเฉพาะอย่างยิ่งจุดที่ 1 และ 3 เทคนิคการวิเคราะห์แบบจำลองสามารถส่งผลให้ความล้มเหลวในการรักษาข้อผิดพลาดประเภทที่ 1
Frank Harrell

3
ใส่ @Epigrad ดี ฉันจะเพิ่มจุดหนึ่งแม้ว่า อัลกอริทึมอัตโนมัติน่าสนใจมากเมื่อปัญหาของคุณมีขนาดใหญ่ พวกเขาอาจเป็นวิธีเดียวที่เป็นไปได้ในการเลือกรูปแบบในบางกรณี ตอนนี้ผู้คนกำลังวิเคราะห์ชุดข้อมูลขนาดใหญ่ที่มีตัวแปรที่มีศักยภาพนับพันและการสังเกตนับล้านครั้ง ความเชี่ยวชาญของเนื้อหาสาระในสัญชาตญาณ 1,000 มิติเป็นอย่างไร และสิ่งที่คุณจะพบคือแม้ว่าคุณจะทำด้วยตัวเอง (เช่นกับนักวิเคราะห์) พวกเขาก็จะสร้างกฎทางลัดสำหรับการเลือกตัวแปร ส่วนที่ยากคือเข้ารหัสทางเลือกเหล่านั้นจริงๆ
ความน่าจะเป็นทางการ

1
@probabilityislogic ฉันจะเห็นด้วยกับที่ จริงๆแล้วฉันคิดว่าเทคนิคแบบดั้งเดิมนั้นไม่เหมาะสำหรับชุดข้อมูลขนาดใหญ่มาก แต่มีแนวโน้มที่จะถอยกลับไปใช้เทคนิคที่คล้อยตามกันมากขึ้นทำให้ฉันตกใจ หากอัลกอริทึมอัตโนมัติสามารถตั้งค่าข้อมูลให้มี 10 ตัวแปรก็ไม่มีเหตุผลที่จะไม่สามารถตั้งค่าให้เป็นหนึ่งเดียวกับ 10,000 ความสำคัญในปัจจุบันเกี่ยวกับการได้มาซึ่งข้อมูลขนาดใหญ่มากกว่าการวิเคราะห์ในบางส่วนทำให้ฉันค่อนข้างขี้ตกใจ
Fomite

2
@probabilityislogic ในตอนนี้ฉันพบว่าตัวเองทำงานกับชุดข้อมูลที่มีตัวแปรที่เป็นไปได้มากกว่า 10s จาก 1000s> <
Fomite

2

คุณจะเลือกรุ่นที่ดีที่สุดได้อย่างไร

มีข้อมูลไม่เพียงพอที่จะตอบคำถามนี้ หากคุณต้องการได้รับผลกระทบเชิงสาเหตุกับyคุณจะต้องใช้การถดถอยที่สะท้อนถึงสิ่งที่ทราบเกี่ยวกับการรบกวน หากคุณต้องการคาดการณ์ AIC จะเป็นวิธีการที่เหมาะสม

วิธีการเหล่านี้ไม่เหมือนกัน บริบทจะเป็นตัวกำหนดว่าวิธีการใดในการเลือกตัวแปรจะเหมาะสมหรือไม่มาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.