พลังของการทดสอบการถดถอย F คืออะไร?

11

การทดสอบ F แบบคลาสสิกสำหรับชุดย่อยของตัวแปรในการถดถอยหลายชั้นมีรูปแบบ ที่คือผลรวมของความคลาดเคลื่อนกำลังสองภายใต้โมเดล 'ลดลง' ซึ่งทำรังอยู่ภายใน 'ใหญ่' รุ่นและคือองศาอิสระของทั้งสองโมเดล ภายใต้สมมติฐานว่างว่าตัวแปรพิเศษในโมเดล 'ใหญ่' ไม่มีกำลังอธิบายเชิงเส้นสถิติจะถูกกระจายเป็น F กับและองศาอิสระ

F = \frac{(SSE (R) - SSE (B)) / (d f_{R} - d f_{B})}{SSE (B) / d f_{B}},

$F = \frac{(\mbox{SSE}(R) - \mbox{SSE}(B))/(df_R - df_B)}{\mbox{SSE}(B)/df_B},$

SSE (R)

$\mbox{SSE}(R)$

B

$B$

d f

$df$

d f_{R} - d f_{B}

$df_R - df_B$

d f_{B}

$df_B$

การกระจายตัวคืออะไรภายใต้ทางเลือก ฉันคิดว่ามันไม่ใช่แบบกึ่งกลาง F (ฉันหวังว่าจะไม่ใช่แบบไม่เป็นศูนย์กลางเป็นสองเท่า) แต่ฉันไม่สามารถค้นหาการอ้างอิงใด ๆ ว่าพารามิเตอร์ที่ไม่ใช่ศูนย์กลางคืออะไร ฉันจะคิดว่ามันขึ้นอยู่กับการถดถอยจริงค่าสัมประสิทธิ์และอาจจะเกี่ยวกับการออกแบบเมทริกซ์แต่นอกเหนือจากนั้นผมไม่แน่ใจว่า $\beta$ $X$

— shabbychef
แหล่งที่มา

9

พารามิเตอร์ noncentrality คือ , การฉายสำหรับโมเดลที่ จำกัด คือ , เป็นเวกเตอร์ของพารามิเตอร์ที่แท้จริง, คือเมทริกซ์การออกแบบสำหรับโมเดลที่ไม่ จำกัด (จริง), เป็นบรรทัดฐาน: $\delta^{2}$ $P_{r}$ $\beta$ $X$ $|| x ||$

δ^{2} = \frac{| | X β - P_{r} X β | |^{2}}{σ^{2}}

$\delta^{2} = \frac{|| X \beta - P_{r} X \beta ||^{2}}{\sigma^{2}}$

$E(y | X) = X \beta$ $X$ $X \beta$ $y$ $P_{r} X \beta$ $\hat{y}$ $X \beta - P_{r} X \beta$ $y - \hat{y}$ $|| X \beta - P_{r} X \beta ||^{2}$ $X \beta$ $X_{r}$ $P_{r} X \beta = X \beta$ $0$

คุณควรพบสิ่งนี้ใน Mardia, Kent & Bibby (1980) การวิเคราะห์หลายตัวแปร

— Caracal
แหล่งที่มา

ที่ดี! บรรทัดฐานควรจะยกกำลังสองหรือไม่? มิฉะนั้นดูเหมือนว่าหน่วยมีความสำคัญ? คุณรัฐมันคือ 'ผลรวมของสี่เหลี่ยม' ดังนั้นผมคิดว่ามันเป็นบรรทัดฐานยืด ..

— shabbychef

@ shabbychef แน่นอนว่าคุณพูดถูกต้องขอบคุณที่จับได้!

— caracal

7

δ^{2} = \frac{| | X β_{1} - X β_{2} | |^{2}}{σ^{2}},

$\delta^2 = \frac{||X\beta_1 - X\beta_2||^2}{\sigma^2},$

เชิงประจักษ์ CDF ของสิ่งที่ควรเป็นปกติ

นี่คือรหัส R (ให้อภัยสไตล์ฉันยังคงเรียนรู้):

#sum of squares
sum2 <- function(x) { return(sum(x * x)) }
#random integer between n and 2n
rint <- function(n) { return(ceiling(runif(1,min=n,max=2*n))) }
#generate random instance from linear model plus noise.
#n observations of p2 vector
#regress against all variables and against a subset of p1 of them
#compute the F-statistic for the test of the p2-p1 marginal variables
#compute the p-value under the putative non-centrality parameter
gend <- function(n,p1,p2,sig = 1) {
 beta2 <- matrix(rnorm(p2,sd=0.1),nrow=p2)
 beta1 <- matrix(beta2[1:p1],nrow=p1)
 X <- matrix(rnorm(n*p2),nrow=n,ncol=p2)
 yt1 <- X[,1:p1] %*% beta1
 yt2 <- X %*% beta2
 y <- yt2 + matrix(rnorm(n,mean=0,sd=sig),nrow=n)
 ncp <- (sum2(yt2 - yt1)) / (sig ** 2)
 bhat2 <- lm(y ~ X - 1)
 bhat1 <- lm(y ~ X[,1:p1] - 1)
 SSE1 <- sum2(bhat1$residual)
 SSE2 <- sum2(bhat2$residual)
 df1 <- bhat1$df.residual
 df2 <- bhat2$df.residual
 Fstat <- ((SSE1 - SSE2) / (df1 - df2)) / (SSE2 / bhat2$df.residual)
 pval <- pf(Fstat,df=df1-df2,df2=df2,ncp=ncp)
 return(pval)
}
#call the above function, but randomize the problem size (within reason)
genr <- function(n,p1,p2,sig=1) {
 use.p1 <- rint(p1)
 use.p2 <- use.p1 + rint(p2 - p1)
 return(gend(n=rint(n),p1=use.p1,p2=use.p2,sig=sig+runif(1)))
}
ntrial <- 4096
ssize <- 256
z <- replicate(ntrial,genr(ssize,p1=4,p2=10))
plot(ecdf(z))

— shabbychef
แหล่งที่มา

2

+1 สำหรับการติดตามด้วยรหัส ดูดีอยู่เสมอว่า

— mpiktas