ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ
- รุ่นที่ 1 มีสามทำนาย,
x1a
,x2b
และx2c
- แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติม
x2a
และx2b
มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น 5 และ 30) ความคิดแรกของฉันคือใช้ Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )เป็นตัวประมาณและบูตมัน แต่ฉันไม่แน่ใจว่าสิ่งนี้จะเหมาะสมหรือไม่
คำถาม
- คือประมาณการที่เหมาะสมของΔ ρ 2 ?
- วิธีที่สามารถช่วงความเชื่อมั่นจะได้รับสำหรับประชากรเปลี่ยนแปลง R-ตาราง (เช่น )?
- จะร่วมมือมีความเหมาะสมสำหรับการคำนวณช่วงความเชื่อมั่น?
การอ้างอิงถึงแบบจำลองหรือวรรณกรรมที่ตีพิมพ์ใด ๆ ก็ยินดีต้อนรับมากที่สุด
รหัสตัวอย่าง
ถ้าช่วยได้ฉันสร้างชุดข้อมูลจำลองขึ้นมาใน R ซึ่งสามารถใช้แสดงคำตอบได้:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
เหตุผลที่เกี่ยวข้องกับ bootstrap
ฉันใช้ bootstrap กับข้อมูลประมาณ 300 รายและตัวทำนาย 5 ตัวในรูปแบบง่าย ๆ และตัวทำนาย 30 ตัวในแบบเต็ม ในขณะที่ค่าประมาณตัวอย่างโดยใช้ความแตกต่าง r-square คือ0.116
ช่วงความเชื่อมั่นที่เพิ่มขึ้นนั้นใหญ่กว่า CI95% (0.095 ถึง 0.214) ส่วนใหญ่และค่าเฉลี่ยของ bootstraps อยู่ใกล้กับค่าประมาณตัวอย่าง ค่อนข้างค่าเฉลี่ยของกลุ่มตัวอย่างที่ถูกเร่งดูเหมือนจะอยู่กึ่งกลางในการประมาณตัวอย่างของความแตกต่างระหว่าง r-squares ในกลุ่มตัวอย่าง นี่คือความจริงที่ว่าฉันใช้ตัวอย่างที่ปรับ r-squares เพื่อประมาณความแตกต่าง
ที่น่าสนใจผมพยายามเป็นทางเลือกของการคำนวณเป็น
- คำนวณตัวอย่างการเปลี่ยนแปลง r-square
- ปรับการเปลี่ยนแปลง r-square ตัวอย่างโดยใช้สูตร r-square ที่ปรับตามมาตรฐาน
เมื่อนำไปใช้ข้อมูลตัวอย่างนี้ลดประมาณการของไปแต่ช่วงความเชื่อมั่นดูเหมือนเหมาะสมสำหรับวิธีการที่ผมกล่าวถึงครั้งแรก CI95% (0.062, 0.179) โดยมีค่าเฉลี่ยอยู่ที่ 0.118.082
ในวงกว้างฉันกังวลว่าการบูตสแตรปถือว่าสมมติว่ากลุ่มตัวอย่างเป็นประชากรดังนั้นการประมาณการว่าการลดลงสำหรับการ overfitting อาจไม่ได้ผลอย่างเหมาะสม