การคำนวณเซตย่อยที่ดีที่สุดของตัวทำนายสำหรับการถดถอยเชิงเส้น


9

สำหรับการเลือกตัวทำนายในการถดถอยเชิงเส้นหลายตัวแปรด้วย p ตัวทำนายที่เหมาะสมวิธีการใดบ้างที่สามารถหาเซตย่อย 'ที่เหมาะสมที่สุด' ของตัวทำนายโดยไม่ต้องทดสอบทั้งหมดอย่างชัดเจน 2pย่อย? ใน 'การเอาตัวรอดวิเคราะห์' Hosmer & Lemeshow อ้างอิงถึงวิธีของ Kuk แต่ฉันไม่พบกระดาษต้นฉบับ ทุกคนสามารถอธิบายวิธีนี้หรือเป็นเทคนิคที่ทันสมัยกว่านี้ได้อีกหรือไม่ อาจมีข้อผิดพลาดกระจายตามปกติ


1
คุณหมายถึงเอกสารต่อไปนี้? Kuk, AYC (1984) การถดถอยชุดย่อยทั้งหมดในรูปแบบความเป็นอันตรายตามสัดส่วน Biometrika, 71, 587-592
chl

ใช่แน่นอน. ฉันเดาว่าฉันจะต้องขุดกระดาษนั่นขึ้นมา มันดูเก่าไปหน่อย
shabbychef

2
ค้นหาบทความนี้ในขณะเดียวกันวิธีเชือกสำหรับการเลือกตัวแปรในโมเดลสรั่งจาก Tibshirani (Stat Med 1997 16:.. 385-395) j.mp/bw0mB9 HTH
chl

1
และนี่หนึ่งเมื่อเร็ว ๆ นี้ (เชื่อมโยงอย่างใกล้ชิดกับpenalizedแพคเกจ R), j.mp/cooIT3 บางทีคนนี้เกินไปj.mp/bkDQUj ไชโย
CHL

คำตอบ:


12

ฉันไม่เคยได้ยินเกี่ยวกับวิธีการของ Kuk แต่ประเด็นสำคัญในปัจจุบันคือการลดขนาด L1 เหตุผลที่ว่าถ้าคุณใช้ค่าปรับของค่าสัมบูรณ์ของสัมประสิทธิ์การถดถอยค่าที่ไม่สำคัญควรเป็นศูนย์

เทคนิคเหล่านี้มีชื่อตลก ๆ : Lasso, LARS, Dantzig selector คุณสามารถอ่านเอกสารได้ แต่จุดเริ่มต้นที่ดีคือองค์ประกอบของการเรียนรู้ทางสถิติบทที่ 3


2
BTW แพคเกจ R ที่ถูกลงโทษ ( j.mp/bdQ0Rp ) รวมถึงการประเมินการลงโทษแบบ l1 / l2 สำหรับโมเดลเชิงเส้นทั่วไปและแบบคอคส์
chl

ติดอยู่ในที่ดิน MATLAB การดำเนินการด้วยตัวเอง ...
shabbychef

LARS ยอดเยี่ยม BTW สิ่งที่ยอดเยี่ยมมาก ไม่แน่ใจว่าฉันอาจติดขัดลงในกรอบของรูปแบบ Cox ปกติอันตรายสรรพสินค้าใหญ่ที่ ...
shabbychef

2
ซอฟต์แวร์ Glmnet มีโมเดล Cox ของ Lasso'd: cran.r-project.org/web/packages/glmnet/index.htmlนอกจากนี้ยังมีรุ่น MATLAB (ไม่แน่ใจว่าเป็นรุ่น cox หรือไม่): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne

3

นี่เป็นหัวข้อใหญ่ ดังที่ได้กล่าวไว้ก่อนหน้านี้ Hastie, Tibshirani และ Friedman ให้คำแนะนำที่ดีใน Ch3 ขององค์ประกอบของการเรียนรู้ทางสถิติ

คะแนนน้อย 1) คุณหมายถึงอะไรโดย "ดีที่สุด" หรือ "ดีที่สุด" สิ่งที่ดีที่สุดในแง่หนึ่งอาจไม่ดีที่สุดในอีกแง่หนึ่ง เกณฑ์ทั่วไปสองข้อคือความแม่นยำในการทำนาย (การทำนายตัวแปรผลลัพธ์) และสร้างค่าประมาณที่ไม่เอนเอียงของสัมประสิทธิ์ วิธีการบางอย่างเช่น Lasso & Ridge Regression ย่อมสร้างตัวประมาณค่าสัมประสิทธิ์ความเอนเอียงอย่างหลีกเลี่ยงไม่ได้

2) วลี "ชุดย่อยที่ดีที่สุด" สามารถใช้ในประสาทสัมผัสทั้งสองได้ โดยทั่วไปจะอ้างถึงชุดย่อยที่ดีที่สุดในการทำนายทั้งหมดซึ่งปรับเกณฑ์การสร้างแบบจำลอง โดยเฉพาะอย่างยิ่งมันสามารถอ้างถึงอัลกอริทึมที่มีประสิทธิภาพของ Furnival และ Wilson สำหรับการค้นหาเซตย่อยในจำนวนปานกลาง (~ 50) ของตัวทำนายเชิงเส้น (ถดถอยโดย Leaps และขอบเขต Technometrics, Vol. 16, No. 4 (Nov. , 1974), pp. 499-51)

http://www.jstor.org/stable/1267601


1) ใช่คำถามค่อนข้างคลุมเครือ มีดังที่คุณพูดถึงคำจำกัดความจำนวนมากของ 'ดีที่สุด': ผ่านเกณฑ์ข้อมูลการตรวจสอบข้ามเป็นต้นวิธีการแก้ปัญหาส่วนใหญ่ที่ฉันได้เห็นถึงปัญหาดำเนินการโดยการเพิ่ม / กำจัดตัวทำนายแบบขั้นตอน: การบวก / ลบผ่านเดี่ยว อย่างไรก็ตาม Hosmer & Lemeshow อ้างอิงถึงวิธีการนี้ (ตัวแปรของงานโดย Lawless & Singhal) ซึ่ง 'Magically' เลือกทำนายโดยการคำนวณ MLR (modulo บางอย่าง) ผมอยากรู้มากเกี่ยวกับวิธีการนี้ ...
shabbychef

0

สิ่งที่ฉันได้เรียนรู้ว่าตอนแรกใช้ Best Subsets Approach เป็นเครื่องมือคัดกรองจากนั้นขั้นตอนการเลือกแบบขั้นตอนสามารถช่วยให้คุณตัดสินใจได้ว่าแบบจำลองใดบ้างที่เป็นแบบจำลองย่อยที่ดีที่สุด (ในขณะนี้ หากแบบจำลองใดแบบหนึ่งตรงตามเงื่อนไขของแบบจำลองทำได้ดีในการสรุปแนวโน้มของข้อมูลและที่สำคัญที่สุดคือช่วยให้คุณตอบคำถามการวิจัยของคุณแล้วแสดงความยินดีกับงานที่ทำ


1
ฉันคิดว่าคุณอาจเข้าใจผิดในเรื่องนี้ ชุดย่อยที่ดีที่สุดนั้นมีราคาแพงกว่าการคำนวณแบบเป็นขั้นตอน แต่จะต้องจับสิ่งใดก็ได้ตามขั้นตอนดังนั้นคุณจะใช้แบบขั้นตอนเพื่อคัดกรองและชุดย่อยที่ดีที่สุดหลังจากนั้น FWIW ผมไม่เห็นด้วย w / การใช้งานที่ไร้เดียงสาของกลยุทธ์เหล่านี้สำหรับเหตุผลที่ผมหารือในคำตอบของฉันที่นี่: อัลกอริทึมสำหรับการเลือกรูปแบบอัตโนมัติ
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.