ตัวแปรสำคัญในตัวแบบการถดถอยเชิงเส้นหรือไม่?


9

ฉันมีโมเดลการถดถอยเชิงเส้นพร้อมตัวอย่างและการสังเกตตัวแปรและฉันต้องการทราบว่า:

  1. ตัวแปรเฉพาะนั้นมีความสำคัญเพียงพอที่จะรวมอยู่ในโมเดลหรือไม่
  2. ควรรวมตัวแปรอื่น (พร้อมข้อสังเกต) ไว้ในโมเดลหรือไม่

สถิติใดสามารถช่วยฉันได้บ้าง จะทำให้พวกเขามีประสิทธิภาพมากที่สุดได้อย่างไร?

คำตอบ:


26

ความสำคัญทางสถิติมักไม่ใช่พื้นฐานที่ดีสำหรับการพิจารณาว่าควรรวมตัวแปรไว้ในแบบจำลองหรือไม่ การทดสอบทางสถิติถูกออกแบบมาเพื่อทดสอบสมมติฐานไม่ใช่เลือกตัวแปร ฉันรู้ว่าหนังสือเรียนจำนวนมากพูดถึงการเลือกตัวแปรโดยใช้การทดสอบทางสถิติ แต่นี่เป็นวิธีที่ไม่ดี ดูกลยุทธ์การสร้างแบบจำลองการถดถอยหนังสือของ Harrell ด้วยเหตุผลบางประการ วันนี้การเลือกตัวแปรตาม AIC (หรือสิ่งที่คล้ายกัน) มักจะต้องการ


จริงๆแล้วเพื่อความจำที่ดีที่สุดของฉัน Harrell ไม่สนับสนุนการใช้ AIC ฉันเดาว่าการตรวจสอบข้ามอาจเป็นวิธีที่ปลอดภัยที่สุด
Tal Galili

1
AIC นั้นเทียบเท่ากับ CV ดูคำตอบstats.stackexchange.com/questions/577/... ฉันตรวจสอบ Harrell ก่อนที่ฉันจะเขียนคำตอบนั้นและฉันไม่เห็นความท้อแท้ของ AIC เขาเตือนเกี่ยวกับการทดสอบความสำคัญหลังจากการเลือกตัวแปรด้วย AIC หรือวิธีอื่นใด
Rob Hyndman

@Tal: บางทีจากหนึ่งในเอกสารของเขามากกว่าหนังสือ RMS ฉันจำได้ว่า Harrell คัดค้านการใช้ AIC เพียงแค่เลือกระหว่างสระว่ายน้ำหลายรุ่น ฉันคิดว่าประเด็นของเขาคือคุณต้องเพิ่มตัวแปรในแต่ละครั้งและเปรียบเทียบแบบจำลองทั้งสองอย่างเป็นระบบหรือใช้กลยุทธ์ที่คล้ายกัน (ต้องมีความชัดเจนนี้สอดคล้องกับคำตอบของร็อบ.)
อาร์

เมื่อทำการค้นหาอย่างรวดเร็วฉันพบว่า Harrell เขียนข้อความต่อไปนี้ "ระวังการเลือกรูปแบบบนพื้นฐานของค่า P, R-square, R-square บางส่วน, AIC, BIC, สัมประสิทธิ์การถดถอยหรือ Cp ของ Mallows" เขาเขียนสิ่งนั้นในวันที่ 12/14/08 ในรายชื่อรับเมลชื่อ [R] การรับค่า p สำหรับสัมประสิทธิ์จากฟังก์ชัน LRM (การออกแบบบรรจุภัณฑ์) - ธรรมดา ฉันเดาว่าฉันเข้าใจความหมายของเขาผิด
Tal Galili

2
@Tal, @Rob: ในเธรดนั้นเขาพูดว่า "ให้แน่ใจว่าใช้หลักการลำดับชั้น" บางทีอาจจะเป็นที่น่าสนใจ, การสนทนานี้จาก medstats (เลื่อนลงสำหรับการตอบสนองของฮาร์เรล): groups.google.com/group/medstats/browse_thread/thread/...
ARS

4

ฉันแสดงความคิดเห็นที่สองของ Rob ทางเลือกที่นิยมมากขึ้นคือการรวมตัวแปรทั้งหมดของคุณและย่อให้เหลือ 0 ดู Tibshirani, R. (1996) การหดตัวและการเลือกการถดถอยผ่านเชือก

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
มีวิธีที่จะวัดจำนวนวันนี้ "ชอบมากขึ้น" คืออะไร?
Tal Galili

ฉันคิดว่ามันเป็นที่ยอมรับว่าถูกต้องทางวิทยาศาสตร์มากขึ้นในหลาย ๆ ด้านในแง่ที่ว่าวิธีการหดตัวนั้นถูกใช้ในเอกสารสถิติที่ใช้ล่าสุดมากกว่าวิธี * .IC นั่นแสดงให้เห็นว่าฉันทามติทางทฤษฎีอย่างแน่นอน
user603

1
@ user603 - คุณยังมีข้อได้เปรียบในการคำนวณขนาดใหญ่ที่อาจเกิดขึ้นกับวิธีการหดตัว ไม่จำเป็นต้องค้นหามากกว่า2พีแบบจำลอง
ความน่าจะเป็นทาง

3

สำหรับส่วนที่ 1 คุณกำลังมองหาF-ทดสอบ คำนวณผลรวมสแควร์สที่เหลือของคุณจากแบบจำลองแต่ละแบบและคำนวณค่าสถิติ F ซึ่งคุณสามารถใช้เพื่อค้นหาค่า p จากการแจกแจงแบบ F หรือการแจกแจงโมฆะแบบอื่น ๆ ที่คุณสร้างขึ้นเอง


1

โหวตอีกครั้งสำหรับคำตอบของ Rob

นอกจากนี้ยังมีแนวคิดที่น่าสนใจในวรรณคดี "ความสำคัญเชิงสัมพันธ์" งานนี้พัฒนาวิธีการที่จะค้นหาว่ามีความสำคัญมากเพียงใดที่เกี่ยวข้องกับตัวทำนายจำนวนตัวเลือกแต่ละตัว มีวิธีการแบบเบย์และบ่อยครั้ง ตรวจสอบแพ็คเกจ "relaimpo" ใน R เพื่อรับการอ้างอิงและรหัส


1

ฉันชอบคำตอบของ Rob และถ้าคุณใช้ SAS แทน R คุณสามารถใช้ PROC GLMSELECT สำหรับรุ่นที่จะใช้กับ PROC GLM แม้ว่ามันจะทำงานได้ดีสำหรับรุ่นอื่น ๆ เช่นกัน ดู

Flom and Cassell "หยุดแบบขั้นตอน: ทำไมวิธีการเลือกแบบขั้นตอนไม่ดีและสิ่งที่คุณควรใช้" นำเสนอในกลุ่มต่าง ๆ ล่าสุด NESUG 2009

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.