“ การถดถอยแบบขั้นตอน” ทำงานอย่างไร


11

ฉันใช้รหัส R ต่อไปนี้เพื่อให้พอดีกับโมเดล probit:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

ฉันต้องการที่จะรู้ว่าสิ่งที่ทำstepwiseและbackward/forwardทำสิ่งที่แน่นอนและวิธีการเลือกตัวแปร?


7
ความคิดเห็นบางส่วนโดย Frank Harrell ( stats.stackexchange.com/users/4253/frank-harrell ) เกี่ยวกับสาเหตุที่การถดถอยแบบขั้นตอนไม่ดี: stata.com/support/faqs/statistics/stepwise-regression-problems

4
นอกจากลิงค์ของ BabakP แล้วยังสามารถดูโพสต์นี้จากเว็บไซต์
COOLSerdash

3
อีกโพสต์เกี่ยวกับปัญหาเกี่ยวกับ stepwise (และย้อนหลังและไปข้างหน้าด้วย) เป็นกระดาษที่ฉันเขียนกับ David Cassell: หยุด Stepwise
Peter Flom

@ PeterFlom เพื่ออ้างอิงบทความนี้ฉันมีปัญหาบางอย่างเข้าใจการอ้างอิงที่เหมาะสม คุณกรุณาระบุไว้ที่นี่ได้ไหม ขอบคุณ
doug.numbers

2
@ doug.numbers มันถูกนำเสนอสถานที่ต่าง ๆ และเผยแพร่เป็นส่วนหนึ่งของการดำเนินการประชุม หากคุณใช้ Google "Flom, Cassell, Stepwise" คุณจะได้รับตำแหน่งที่นำเสนอและคุณสามารถจัดรูปแบบได้อย่างไรก็ตามคุณจัดรูปแบบการอ้างอิงไปยังงานนำเสนอที่เผยแพร่
Peter Flom

คำตอบ:


10

หลักการเลือกแบบขั้นตอน

  1. คุณพอดีกับโมเดลที่มีตัวแปรทั้งหมดที่คุณต้องการ นี่คือรุ่นที่ดีที่สุดของคุณในปัจจุบัน
  2. คุณลบตัวแปรหนึ่งตัว (หรือเพิ่มหนึ่งตัวในบรรดาตัวแปรที่ไม่ได้ใช้ในรุ่นที่ดีที่สุดในปัจจุบัน) และสำหรับแต่ละตัวแปรคุณจะพอดีกับโมเดลใหม่และคุณเปรียบเทียบกับแต่ละตัวแปรใหม่และตัวแปรเดิมตามBIC (หรือตัวแปรใด ๆ เกณฑ์อื่น ๆ เช่นAIC ) คุณได้รับ "รุ่นที่ดีที่สุดในปัจจุบัน" อีกรุ่นหนึ่ง

คุณทำซ้ำ 2. จนกว่าจะไม่มีการลด BIC คุณมี BIC ขั้นต่ำในท้องถิ่นซึ่งหมายความว่าคุณอาจไม่ได้รูปแบบที่ดีที่สุดในบรรดาตัวเลือกย่อยของตัวแปร แต่อย่างไรก็ตามมักจะมีมากเกินไปดังนั้นนี่เป็นวิธีเพิ่มประสิทธิภาพบิตโดยไม่ต้องทำงานมากเกินไป

ดูการถดถอยแบบขั้นตอนและการเลือกรุ่นบนวิกิพีเดีย


5

การถดถอยแบบขั้นตอนนั้นเหมาะสมกับโมเดลการถดถอยโดยการเพิ่ม / ปล่อย covariates ทีละหนึ่งตามเกณฑ์ที่ระบุ (ในตัวอย่างของคุณเหนือเกณฑ์จะเป็นไปตาม BIC)

โดยการระบุล่วงหน้าคุณกำลังบอกRว่าคุณต้องการเริ่มต้นด้วยโมเดลที่ง่ายที่สุด (เช่นหนึ่ง covariate) และจากนั้นเพิ่มหนึ่ง covariate ทีละครั้งที่รักษาเฉพาะคนที่ส่งผลในการปรับปรุงรูปแบบ BIC

ด้วยการระบุย้อนหลังคุณกำลังบอกRว่าคุณต้องการเริ่มต้นด้วยโมเดลเต็มรูปแบบ (เช่นโมเดลที่มี covariates ทั้งหมด) จากนั้นปล่อย covariates หนึ่งครั้งในเวลาหนึ่งซึ่งส่งผลให้การปรับปรุงใน BIC

การถดถอยแบบขั้นตอนอาจเป็นขั้นตอนทางสถิติที่อันตรายมากเพราะไม่ใช่ขั้นตอนการเลือกรุ่นที่ดีที่สุด วิธีการนี้อาจนำไปสู่การเลือกรุ่นที่แย่มากเพราะมันไม่ได้ช่วยปกป้องคุณจากปัญหาเช่นการเปรียบเทียบหลาย ๆ แบบ


ขอบคุณ แล้วถอยหลังไปข้างหน้าล่ะ?
มาห์มุด

คุณหมายถึงอะไรย้อนหลัง / ไปข้างหน้า?

หนึ่งในวิธีการ stpewise () ใน R คือ 'ย้อนกลับ / ไปข้างหน้า'! มันเป็นการรวมกันของทั้งสอง?
มาห์มุด

2
ขอโทษด้วยตอนนี้ฉันเข้าใจสิ่งที่คุณถาม ใช่ถ้าคุณระบุทั้งคู่มันจะใช้ทั้งไปข้างหน้าและข้างหลังและเลือกหนึ่งรายการด้วยเกณฑ์ที่ดีที่สุด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.