รุ่นเชิงเส้นคลาสสิก - การเลือกรูปแบบ


16

ฉันมีโมเดลเชิงเส้นแบบคลาสสิกโดยมี 5 regressors ที่เป็นไปได้ พวกเขาไม่เกี่ยวข้องกันและมีความสัมพันธ์ค่อนข้างต่ำกับการตอบสนอง ฉันมาถึงแบบจำลองที่มี 3 regressors มีค่าสัมประสิทธิ์นัยสำคัญสำหรับสถิติ t (p <0.05) การเพิ่มตัวแปรที่เหลืออย่างใดอย่างหนึ่งหรือทั้งสองอย่างให้ค่า p> 0.05 สำหรับสถิติ t สำหรับตัวแปรเพิ่ม สิ่งนี้ทำให้ฉันเชื่อว่าโมเดล 3 ตัวแปรนั้น "ดีที่สุด"

อย่างไรก็ตามการใช้คำสั่ง anova (a, b) ใน R โดยที่ a คือโมเดลตัวแปร 3 ตัวและ b เป็นรูปแบบเต็มค่า p สำหรับสถิติ F คือ <0.05 ซึ่งบอกให้ฉันชอบแบบเต็มมากกว่าตัวแปร 3 ตัว แบบ ฉันจะกระทบยอดความขัดแย้งที่เห็นได้ชัดเหล่านี้ได้อย่างไร

ขอบคุณ PS Edit: พื้นหลังเพิ่มเติมบางส่วน นี่คือการบ้านดังนั้นฉันจะไม่โพสต์รายละเอียด แต่เราไม่ได้รับรายละเอียดเกี่ยวกับสิ่งที่ตัวแทนเป็นตัวแทน - พวกเขามีหมายเลขเพียง 1 ถึง 5 เราถูกขอให้ "หาแบบจำลองที่เหมาะสมให้เหตุผล"


6
แบบจำลองที่เหมาะสมอาจถูกนำมาใช้เพื่อหมายถึงแบบจำลองที่ใช้ตัวแปรที่ระบุล่วงหน้าทั้งหมดได้อย่างมีประสิทธิภาพ (การบัญชีสำหรับความไม่เชิงเส้น ฯลฯ ) ฉันหวังว่าผู้สอนของคุณเข้าใจว่าการเลือกตัวแปรแบบขั้นตอนนั้นไม่ถูกต้อง ไม่กี่คนที่ทำ
Frank Harrell

1
สวัสดีอีกครั้งและขอบคุณ ขออภัยสำหรับทุกอย่างไปมา คำแนะนำยังบอกว่า "ไม่จำเป็นต้องมีโมเดล" ดีที่สุด "หนึ่งรูปแบบและคุณไม่จำเป็นต้องรวมตัวทำนายทั้งหมดไว้ด้วย นอกจากนี้ยังไม่มี collinearity หรือ nonlinearlity ที่จริงแล้วตัวทำนายทั้ง 5 ตัวนั้นสร้างขึ้นโดยการจำลองแบบอิสระจากการแจกแจงแบบปกติ ดังนั้นความสัมพันธ์ระหว่างตัวทำนายและการตอบสนองก็มีน้อย (มากที่สุดคือน้อยกว่า 0.1) ตามสัญชาตญาณของฉันบอกว่าโมเดล "ดีที่สุด" อาจเป็นค่าเฉลี่ยตัวอย่าง (การปรับ r กำลังสองน้อยกว่า 0.03)
P Sellaz

@P Sellaz: เนื่องจากนี่เป็นการทำการบ้านโดยใช้ข้อมูลจำลองสถานการณ์สัญชาตญาณของคุณอาจให้บริการคุณได้ดีที่นี่ เขียนคำอธิบายที่สมเหตุสมผลสำหรับสัญชาตญาณของคุณ
ซัค

1
โดยทั่วไปคุณไม่สามารถไปตามเนื่องจากขนาดใหญ่เท่าใดนั้นขึ้นอยู่กับบริบท แต่ขึ้นอยู่กับว่าการจำลองนั้นควรจะถูกดำเนินการอย่างไรคุณมีความถูกต้องว่าค่าเฉลี่ยโดยรวมอาจเป็นสิ่งที่จำเป็น R2
Frank Harrell

1
โดยทั่วไปแล้วมันถูกต้องที่ไม่ต้องรวมตัวทำนายทั้งหมดเพื่อให้ทำงานได้ดี แต่ข้อมูลไม่สามารถบอกคุณได้ว่าจะใช้ตัวทำนายใด
Frank Harrell

คำตอบ:


18

ปัญหาเริ่มขึ้นเมื่อคุณค้นหาตัวแบบที่ลดลงและใช้ข้อมูลมากกว่าความรู้ในเรื่องที่จะเลือกตัวทำนาย การเลือกตัวแปรแบบขั้นตอนโดยไม่มีการเปลี่ยนแปลงพร้อมกันเพื่อลงโทษสำหรับการเลือกตัวแปรถึงแม้ว่าจะใช้บ่อยเป็นวิธีการที่ไม่ถูกต้อง มีการเขียนมากเกี่ยวกับเรื่องนี้ ไม่มีเหตุผลที่จะเชื่อได้ว่าโมเดล 3 ตัวแปรนั้น "ดีที่สุด" และไม่มีเหตุผลที่จะไม่ใช้รายการดั้งเดิมของตัวทำนายล่วงหน้าที่ระบุไว้ล่วงหน้า ค่า P ที่คำนวณหลังจากใช้ P-values ​​เพื่อเลือกตัวแปรไม่ถูกต้อง สิ่งนี้ถูกเรียกว่า "การจุ่มสองเท่า" ในวรรณคดีเกี่ยวกับภาพถ่าย

นี่คือการเปรียบเทียบ สมมติว่ามีความสนใจในการเปรียบเทียบ 6 ทรีทเม้นต์ แต่ใช้ pairwise t-tests เพื่อเลือกทรีทเม้นต์ที่ "แตกต่าง" ทำให้ชุดลดลง 4 ทรีทเม้นต์ จากนั้นนักวิเคราะห์ทดสอบความแตกต่างโดยรวมด้วยอิสรภาพ 3 องศา การทดสอบ F นี้จะมีข้อผิดพลาดประเภทที่สูงเกินจริง การทดสอบ F ต้นฉบับที่มี 5 df นั้นค่อนข้างถูกต้อง

ดูhttp://www.stata.com/support/faqs/stat/stepwise.htmlและตามสำหรับข้อมูลเพิ่มเติม


1
ขอบคุณสำหรับการตอบกลับของคุณ. ฉันได้เพิ่มการแก้ไขคำถามเดิม ฉันหวังว่าตกลง คำแนะนำเพิ่มเติมใด ๆ ที่จะได้รับการต้อนรับมากที่สุด
P Sellaz

6

คำตอบเดียวก็คือ "สิ่งนี้ไม่สามารถทำได้หากไม่มีความรู้ในเรื่อง" น่าเสียดายที่มีโอกาสได้รับ F จากการมอบหมาย ถ้าฉันไม่ใช่อาจารย์ของคุณ จากนั้นมันก็จะได้เอ

R2

จากนั้นก็มี

ทำนาย 5 ทั้งหมดถูกสร้างขึ้นโดยการจำลองแบบอิสระจากการแจกแจงแบบปกติ

ถ้าคุณรู้สิ่งนี้ (นั่นคืออาจารย์ของคุณบอกคุณ) และถ้าโดย "อิสระ" คุณหมายถึง "ไม่เกี่ยวข้องกับ DV" คุณจะรู้ว่าแบบจำลองที่ดีที่สุดคือแบบที่ไม่มีผู้ทำนายและสัญชาตญาณของคุณนั้นถูกต้อง


สวัสดีปีเตอร์และขอบคุณ N คือ 900 ข้อมูลทั้งหมดถูกสร้างโดยการจำลอง ฉันรู้เรื่องนี้เพราะเราต้องทำ simulatons ด้วยตัวเอง พวกเขาควรจะแสดงข้อมูลจริงเท่าที่การบ้านนี้เกี่ยวข้อง มีการจำลอง 100 ครั้งและ 5 ที่มีความสัมพันธ์มากที่สุดกับการตอบสนอง (ยังจำลอง แต่เพียงครั้งเดียวเท่านั้น) ได้รับเลือกเป็นผู้ลงทะเบียน
P Sellaz

1
เพียงแค่ให้แน่ใจว่าคุณต้องจำลองการเชื่อมต่อระหว่าง X และ Y ใด ๆ จากนั้นในขณะที่คนอื่น ๆ บอกว่าแบบจำลองการถดถอยนั้นไม่เกี่ยวข้องและค่าเฉลี่ยโดยรวมก็เพียงพอแล้ว
Frank Harrell

1
ใช่พวกเขาเป็นอิสระอย่างสมบูรณ์ เราเลือกข้อมูลที่มีความสัมพันธ์มากที่สุด 5 อันดับในฐานะผู้ลงทะเบียนผู้สมัครซึ่งเราต้อง "หาแบบจำลองที่เหมาะสมให้เหตุผล" แต่เรา "ไม่จำเป็นต้องรวมตัวทำนายทั้ง 5"
P Sellaz

ดูเหมือนว่าอาจารย์ของคุณอาจเป็น a) สับสนโดยสิ้นเชิงหรือ b) ทำสิ่งที่ค่อนข้างน่าสนใจ ยากที่จะบอกว่า หากเขา / เธอตั้งใจที่จะแสดงสิ่งต่าง ๆ ที่ @FrankHarrell และฉันและคนอื่น ๆ ชี้ให้เห็นดีแล้ว! (นั่นคือข) OTOH ถ้าเขา / เธอตั้งใจจะให้เป็น "ของจริง" ที่ถดถอยแล้วเอ่อมันเป็น)
Peter Flom - Reinstate Monica

1
เราจะแจ้งให้คุณทราบว่ามันคือเมื่อเอกสารที่มีการทำเครื่องหมาย :)
P Sellaz

4

คุณอาจลองทำการตรวจสอบข้าม เลือกชุดย่อยของกลุ่มตัวอย่างค้นหาโมเดล "ดีที่สุด" สำหรับชุดย่อยนั้นโดยใช้การทดสอบแบบ F หรือ t จากนั้นนำไปใช้กับชุดข้อมูลเต็มรูปแบบ (การตรวจสอบความถูกต้องไขว้เต็มอาจมีความซับซ้อนมากกว่านี้ สิ่งนี้จะช่วยบรรเทาปัญหาการทดสอบแบบขั้นตอนบางอย่าง

ดูหมายเหตุเกี่ยวกับสมการถดถอยการคัดกรองโดย David Freedman สำหรับการจำลองความคิดเล็ก ๆ น้อย ๆ ที่น่ารักของความคิดนี้


2

ฉันชอบวิธีที่ใช้ในcaretแพ็คเกจ: กำจัดคุณลักษณะแบบเรียกซ้ำ คุณสามารถอ่านเพิ่มเติมเกี่ยวกับเรื่องนี้ได้ในบทความสั้นๆ แต่นี่เป็นกระบวนการพื้นฐาน: การเลือกตัวแปร

แนวคิดพื้นฐานคือการใช้เกณฑ์ (เช่นสถิติ t) เพื่อกำจัดตัวแปรที่ไม่สำคัญและดูว่าจะปรับปรุงความแม่นยำในการทำนายของโมเดลได้อย่างไร คุณพันสิ่งทั้งหมดไว้ในลูปการสุ่มตัวอย่างอีกครั้งเช่นการตรวจสอบความถูกต้องข้าม นี่คือตัวอย่างการใช้แบบจำลองเชิงเส้นเพื่อจัดอันดับตัวแปรในลักษณะที่คล้ายกับสิ่งที่คุณอธิบาย:

#Setup
set.seed(1)
p1 <- rnorm(50)
p2 <- rnorm(50)
p3 <- rnorm(50)
p4 <- rnorm(50)
p5 <- rnorm(50)
y <- 4*rnorm(50)+p1+p2-p5

#Select Variables
require(caret)
X <- data.frame(p1,p2,p3,p4,p5)
RFE <- rfe(X,y, sizes = seq(1,5), rfeControl = rfeControl(
                    functions = lmFuncs,
                    method = "repeatedcv")
                )
RFE
plot(RFE)

#Fit linear model and compare
fmla <- as.formula(paste("y ~ ", paste(RFE$optVariables, collapse= "+")))
fullmodel <- lm(y~p1+p2+p3+p4+p5,data.frame(y,p1,p2,p3,p4,p5))
reducedmodel <- lm(fmla,data.frame(y,p1,p2,p3,p4,p5))
summary(fullmodel)
summary(reducedmodel)

ในตัวอย่างนี้ algorythm ตรวจพบว่ามีตัวแปร "สำคัญ" 3 ตัว แต่จะได้รับเพียง 2 ตัวเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.