อะไรคือทางเลือกที่ทันสมัยใช้ง่ายในการถดถอยแบบขั้นตอน


76

ฉันมีชุดข้อมูลที่มีตัวแปรอิสระประมาณ 30 ตัวและต้องการสร้างโมเดลเชิงเส้นทั่วไป (GLM) เพื่อสำรวจความสัมพันธ์ระหว่างพวกเขากับตัวแปรตาม

ฉันรู้ว่าวิธีการที่ฉันถูกสอนสำหรับสถานการณ์นี้ถดถอยแบบขั้นตอนขณะนี้ถือว่าบาปสถิติ

ควรใช้วิธีการแบบจำลองที่ทันสมัยในสถานการณ์นี้อย่างไร


4
คนอื่นพูดถึงกระบวนการทางสถิติซึ่งอาจเป็นประโยชน์ แต่ก่อนอื่นผมขอถามว่าคุณมีทฤษฎีเกี่ยวกับจุดแข็งและรูปร่างของความสัมพันธ์ระหว่างตัวแปรหรือไม่ ตัวอย่างของคุณใหญ่แค่ไหน คุณมีเหตุผลที่จะหลีกเลี่ยงโมเดลที่ซับซ้อนหรือไม่?
Michael Bishop

2
มีใครคิดว่าค่าเฉลี่ยของแบบจำลองเป็นทางเลือกในการต่อสู้ปัญหาอคติทดสอบก่อนและปัญหาสเปคพลาดหรือไม่? การพูดตัวแปรทั้งหมดอย่างคร่าวๆเป็นตัวทำนายที่เป็นไปได้และคุณอาจประมาณความน่าจะเป็นที่พวกมันจะมีประโยชน์ ดังนั้นตัวประมาณแบบรวมไม่เพียง แต่ปรับปรุงประสิทธิภาพการพยากรณ์เท่านั้น แต่ยังสร้างการประมาณค่าคุณสมบัติที่ดีสำหรับพารามิเตอร์ของตัวแปรภายใต้ "ขอบเขต"
Dmitrij Celov

1
การหดตัว ไม่มีใครใช้ stepwise อีกต่อไปหวังว่า
Aksakal

คำตอบ:


56

มีหลายทางเลือกที่จะมีการถดถอยแบบขั้นตอน สิ่งที่ฉันเคยเห็นมากที่สุดคือ:

  • ความคิดเห็นของผู้เชี่ยวชาญในการตัดสินใจว่าจะรวมตัวแปรใดในโมเดล
  • บางส่วนน้อยถดถอยสี่เหลี่ยม คุณจะได้รับตัวแปรแฝงและทำการถดถอยกับพวกมัน คุณสามารถทำPCAด้วยตัวเองแล้วใช้ตัวแปรหลัก
  • ตัวย่อการหดตัวและการเลือกน้อยที่สุด (LASSO)

ทั้งการถดถอย PLSและLASSOถูกนำไปใช้ในแพ็คเกจ R เช่น

PLS : http://cran.r-project.org/web/packages/pls/และ

LARS : http://cran.r-project.org/web/packages/lars/index.html

ถ้าคุณเพียงต้องการที่จะสำรวจความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ (เช่นคุณไม่จำเป็นต้องทดสอบนัยสำคัญทางสถิติ) ผมยังอยากจะแนะนำเครื่องเรียนรู้วิธีการเช่นป่าสุ่มหรือการจำแนกประเภทการถดถอย / ต้นไม้ ป่าสุ่มยังสามารถประมาณความสัมพันธ์ที่ไม่เป็นเชิงเส้นที่ซับซ้อนระหว่างตัวแปรตามและตัวแปรอิสระของคุณซึ่งอาจไม่ได้รับการเปิดเผยโดยเทคนิคเชิงเส้น (เช่นการถดถอยเชิงเส้น )

จุดเริ่มต้นที่ดีในการเรียนรู้ของเครื่องอาจเป็นมุมมองงานของ Machine Learning บน CRAN:

มุมมองงานการเรียนรู้ของเครื่อง : http://cran.r-project.org/web/views/MachineLearning.html


10
แพ็คเกจ glmnet นั้นใช้งานได้อย่างรวดเร็วเช่นกัน
David J. Harris

2
ฉันจะเตือนว่าภายในชุมชนตัวแปรแฝง PLSers ก่อตัวเป็นกลุ่มที่แยกตัวเองออกมาและไม่สามารถเจาะวรรณกรรมร้ายแรง (ซึ่งฉันหมายถึงตัวอย่างเช่นทฤษฎีแบบอะซิมิดติกของตัวประมาณกำลังสองน้อยที่สุดในผลงานของไมเคิล Browne, Peter Bentler, Albert Satorra และ Alex Shapiro และแบบจำลองตัวแปรเครื่องมือของ Ken Bollen เพื่อตั้งชื่อสิ่งที่สำคัญที่สุดสองสามชิ้น) ถึงกระนั้นแปลก PLS ดูเหมือนจะเป็นวิธีการที่ยอมรับได้ในวงการสถิติซึ่งโดยทั่วไปจะรักษามาตรฐานความเข้มงวดสูงกว่าชุมชนแบบจำลองตัวแปรแฝง
StasK

6
องค์ประกอบของการเรียนรู้ทางสถิติมีการเปรียบเทียบ differend ตัวแปรการเลือกและการหดตัวของวิธีการนี้: (OLS) เซตที่ดีที่สุดสัน, เชือก, PLS, PCR
cbeleites

19

ตัวเลือกที่คุณอาจพิจารณาสำหรับการเลือกตัวแปรและกูก็คือสุทธิยืดหยุ่น มันใช้งานใน R ผ่านแพ็คเกจglmnet


16

การหาค่าเฉลี่ยของแบบจำลองเป็นวิธีหนึ่งในการดำเนินการ (วิธีการสารสนเทศเชิงทฤษฎี) แพคเกจ R glmulti สามารถดำเนินการแบบจำลองเชิงเส้นสำหรับทุกชุดของตัวแปรทำนายและดำเนินการหาค่าเฉลี่ยของแบบจำลองสำหรับผลลัพธ์เหล่านี้

ดูhttp://sites.google.com/site/mcgillbgsa/workshops/glmulti

อย่าลืมตรวจสอบความสัมพันธ์ระหว่างตัวแปรตัวทำนายก่อน ปัจจัยเงินเฟ้อความแปรปรวน (มีอยู่ในแพ็คเกจ R "รถยนต์") มีประโยชน์ที่นี่


ขอบคุณ มันเข้ากับโมเดลที่เป็นไปได้จริง ๆ หรือไม่? แม้ว่าจะไม่มีการโต้ตอบนั่นก็เกี่ยวกับโมเดลหนึ่งพันล้านชิ้นในกรณีนี้
ปีเตอร์เอลลิส

AFAIK สามารถทำได้ แต่มีตัวเลือกขั้นตอนวิธีเชิงพันธุกรรมที่ลดเวลาได้อย่างมากในการประเมินทุกรุ่น ดู www.jstatsoft.org/v34/i12/paper
OliP

3
ยังMuMIn, AICcmodavgแพคเกจแม้จะglmultiเป็นฉลาดเกี่ยวกับชุดโมเดลขนาดใหญ่
Ben Bolker

8

@ โยฮันเนสให้คำตอบที่ดีเยี่ยม หากคุณเป็นผู้ใช้ SAS ดังนั้น LASSO จะพร้อมใช้งานผ่าน PROC GLMSELECT และบางส่วนกำลังสองน้อยที่สุดผ่าน PROC PLS

David Cassell และฉันได้นำเสนอเกี่ยวกับ LASSO (และ Least Angle Regression) ที่กลุ่มผู้ใช้ SAS สองกลุ่ม มีให้ที่นี่แล้ว


7

การสนทนาที่น่าสนใจ การติดป้ายการถดถอยแบบขั้นตอนในฐานะที่เป็นสถิติเชิงบาปนั้นเป็นเพียงถ้อยคำทางศาสนา - ตราบใดที่ใคร ๆ ก็รู้ว่าพวกเขากำลังทำอะไรและวัตถุประสงค์ของการฝึกมีความชัดเจน ลำเอียงและไม่รับประกันการใช้ประโยชน์สูงสุดเป็นต้น แต่กระนั้นก็สามารถพูดได้หลายสิ่งหลายอย่างที่เราทำ ฉันไม่เห็น CCA ที่กล่าวถึงปัญหาพื้นฐานเพิ่มเติมของโครงสร้างสหสัมพันธ์ในพื้นที่ covariate รับประกันว่าจะได้รับประโยชน์สูงสุดได้รับมาบ้างแล้วและมันก็เป็นส่วนหนึ่งของการเรียนรู้ มันถูกใช้งานบนแพลตฟอร์มที่หลากหลายรวมถึง R

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.