การถดถอยแบบขั้นตอนจัดเตรียมการประมาณแบบเอนเอียงของประชากร r-square หรือไม่?

ในด้านจิตวิทยาและสาขาอื่น ๆ รูปแบบของการถดถอยแบบขั้นตอนมักถูกใช้ซึ่งเกี่ยวข้องกับสิ่งต่อไปนี้:

ดูตัวทำนายที่เหลือ (ไม่มีตัวแบบในตอนแรก) และระบุตัวทำนายที่ทำให้เกิดการเปลี่ยนแปลง r-square ที่ใหญ่ที่สุด
หากค่า p ของการเปลี่ยนแปลง r-square น้อยกว่าอัลฟา (โดยทั่วไปคือ. 05) ให้รวมตัวทำนายนั้นและกลับไปที่ขั้นตอนที่ 1 มิฉะนั้นหยุด

ตัวอย่างเช่นดูขั้นตอนนี้ในโปรแกรม SPSS

ขั้นตอนการวิพากษ์วิจารณ์เป็นประจำด้วยเหตุผลที่หลากหลาย (ดูการสนทนานี้ในเว็บไซต์ Stata พร้อมการอ้างอิง )

โดยเฉพาะอย่างยิ่งเว็บไซต์ Stata สรุปความคิดเห็นหลายประการโดย Frank Harrell ฉันสนใจข้อเรียกร้อง:

[การถดถอยแบบขั้นตอน] ให้ค่า R-squared ที่มีความเอนเอียงไม่ดีที่จะสูง

โดยเฉพาะบางส่วนของการวิจัยในปัจจุบันของฉันมุ่งเน้นไปที่การประมาณการประชากร R-ตาราง จากประชากร r-square ฉันอ้างถึงเปอร์เซ็นต์ของความแปรปรวนที่อธิบายโดยข้อมูลประชากรที่สร้างสมการในประชากร วรรณกรรมที่มีอยู่ส่วนใหญ่ที่ฉันกำลังตรวจสอบได้ใช้ขั้นตอนการถดถอยแบบขั้นตอนและฉันต้องการทราบว่าการประเมินที่ให้นั้นมีความลำเอียงหรือไม่และถ้าเป็นเช่นนั้น โดยเฉพาะอย่างยิ่งการศึกษาทั่วไปจะมีตัวทำนาย 30 ตัว n = 200 อัลฟาของการป้อน. 05 และการประมาณ r-square ประมาณ. 50

สิ่งที่ฉันรู้

Asymptotically ตัวทำนายใด ๆ ที่ไม่มีสัมประสิทธิ์เป็นศูนย์จะเป็นตัวทำนายนัยสำคัญทางสถิติและ r-square จะปรับ r-square ให้เท่ากัน ดังนั้นการถดถอยแบบขั้นตอน asymptotically ควรประเมินสมการการถดถอยที่แท้จริงและประชากรที่แท้จริง r-square
ด้วยขนาดตัวอย่างที่เล็กลงการละเว้นที่เป็นไปได้ของตัวทำนายบางตัวจะส่งผลให้ r-square มีขนาดเล็กกว่าตัวทำนายทั้งหมดที่รวมอยู่ในแบบจำลอง แต่ด้วยความเอนเอียงปกติของ r-square สำหรับข้อมูลตัวอย่างจะเพิ่ม r-square ดังนั้นความคิดที่ไร้เดียงสาของฉันคือศักยภาพกองกำลังฝ่ายตรงข้ามทั้งสองอาจอยู่ภายใต้เงื่อนไขบางประการส่งผลให้เกิด r-square ที่ไม่มีอคติ และโดยทั่วไปทิศทางของอคตินั้นจะเกิดขึ้นกับคุณลักษณะต่าง ๆ ของข้อมูลและเกณฑ์การรวมอัลฟา
การตั้งค่าเกณฑ์การรวมอัลฟาที่เข้มงวดยิ่งขึ้น (เช่น. 01, .001, ฯลฯ ) ควรต่ำกว่าที่คาดการณ์ไว้ r-square เนื่องจากความน่าจะเป็นที่จะรวมตัวทำนายใด ๆ ในรุ่นข้อมูลใด ๆ จะน้อยลง
โดยทั่วไป r-square เป็นการประมาณค่าแบบเอนเอียงของประชากร r-square และระดับของความลำเอียงนี้เพิ่มขึ้นเมื่อมีตัวทำนายมากขึ้นและขนาดตัวอย่างที่เล็กลง

คำถาม

ในที่สุดคำถามของฉัน:

r-square จากการถดถอยแบบขั้นตอนส่งผลให้การประมาณประชากรแบบ r-square มากน้อยแค่ไหน?
ขอบเขตนี้เกี่ยวข้องกับขนาดตัวอย่างจำนวนตัวทำนายเกณฑ์รวมอัลฟาหรือคุณสมบัติของข้อมูลในระดับใด
มีการอ้างอิงใด ๆ ในหัวข้อนี้หรือไม่?

— Jeromy Anglim
แหล่งที่มา

รุ่นหลักของ Stata คำถามที่พบบ่อยคุณดำรงฟิกแฟรงก์ Harrell หนังสือ 2001 กลยุทธ์การสร้างแบบจำลองการถดถอย นิวยอร์ก: สปริงเกอร์ซึ่งเป็นข้อมูลอ้างอิงที่ฉันจะเริ่มจากที่นี่

— Nick Cox

ฉันขอแนะนำให้อ่านหนังสือโดย @FrankHarrell ซึ่ง Nick Cox กล่าวถึงที่นั่น; ฉันมอบหมายให้นักเรียนระดับสูงกว่าปริญญาตรีของฉันเป็นประจำและให้เกียรตินักเรียนที่อ่านมัน (โดยเฉพาะตอนที่ 4) ว่า R ^ 2 นั้นมีความลำเอียงต่อการเลือกตัวแปรค่อนข้างง่ายที่จะเห็นโดยการจำลองชุดข้อมูลจำนวนมาก (เช่น n = 100, p = 50) ที่มีสหสัมพันธ์ของประชากรเป็นศูนย์แล้วทำตามขั้นตอนการเลือกตัวแปรที่คุณต้องการแสดง มันบน

— Glen_b -Reinstate Monica

ตามที่บันทึกความคิดเห็นการจำลองสามารถแสดงให้เห็นว่าในสถานการณ์ที่รู้จักการถดถอยแบบขั้นตอนจะประเมินค่าสูงไป

และพวกเขาสามารถแสดงได้ว่าเท่าไหร่ แต่มันไม่สามารถแสดงได้ว่ามีอัตราเงินเฟ้อมากน้อยเพียงใดในสถานการณ์ที่คุณไม่รู้ว่าค่าประชากรควรเป็นอย่างไร นั่นคือไม่เพียง แต่เป็นผลมาจากการลำเอียงแบบขั้นตอนพวกมันมีความลำเอียงในรูปแบบที่ยากมาก

R^{2}

$R^2$

— Peter Flom - Reinstate Monica

หากประชากร R ^ 2 เป็นศูนย์ฉันจะคิดว่าตัวอย่าง R ^ 2 นั้นมีความเอนเอียงแม้ว่าคุณจะไม่ได้ใช้การเลือกแบบขั้นตอน ฉันสงสัยว่า (แต่ไม่แน่ใจ) ว่ามันจะมีอคติถ้าประชากร R ^ 2 ไม่ใช่ศูนย์

— mark999

R^{2}

$R^2$

คำตอบ:

$R^2$ $R^2$ $R^2$

— Frank Harrell
แหล่งที่มา

โดยเฉพาะอย่างยิ่งเมื่อจำนวนผู้ทำนายผู้สมัครเกินจำนวนการสังเกต!

— Alexis

ภาพรวม

$R^2$ $\rho^2$

$R^2$ $\rho^2$ $R^2$ $\rho^2$ $R^2$ $R^2$ $R^2$ $\rho^2$

$R^2$

ที่กล่าวว่าเพื่อวัตถุประสงค์ในทางปฏิบัติปรับ $R^2$ $\rho^2$ $\rho^2$

การจำลอง

การจำลองต่อไปนี้มีตัวทำนายที่ไม่เกี่ยวข้องที่สี่ซึ่งประชากร r-square คือ 40% ผู้ทำนายสองคนอธิบาย 20% ต่อคนทำนายอีกสองคนอธิบาย 0% การจำลองสร้างชุดข้อมูล 1,000 ชุดและประมาณการถดถอยแบบขั้นตอน r-square เป็นเปอร์เซ็นต์สำหรับแต่ละชุดข้อมูล

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

รหัสต่อไปนี้จะคืนค่า r-square ด้วยอัลฟ่าสำหรับรายการ. 01, .001, .0001 และ .00001

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

ผลลัพธ์ต่อไปนี้ระบุถึงความเอนเอียงสำหรับแต่ละห้าอัลฟาของรายการ โปรดทราบว่าฉันได้คูณ r-square ด้วย 100 เพื่อให้เห็นความแตกต่างได้ง่ายขึ้น

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias

ผลการวิจัยชี้ให้เห็นว่าค่าอัลฟาของรายการที่. 01 และ. 001 มีผลเป็นอคติเชิงบวกและค่าอัลฟาของรายการที่มีค่า. 0001 และ. 000000 มีค่าเป็นลบ ดังนั้นอัลฟาของรายการประมาณ. 0005 จะส่งผลให้การถดถอยแบบขั้นตอนที่เป็นกลาง

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

ข้อสรุปหลัก ๆ ที่ฉันได้รับจากเรื่องนี้คือการถดถอยแบบขั้นตอนไม่ได้ลำเอียงในทิศทางเฉพาะ อย่างน้อยก็จะมีอคติค่อนข้างน้อยสำหรับทุกคนยกเว้นค่า p-value ของการทำนาย ฉันเห็นด้วยกับ @Peter Flom ว่าในโลกแห่งความจริงเราไม่รู้กระบวนการสร้างข้อมูล อย่างไรก็ตามฉันคิดว่าการสำรวจโดยละเอียดมากขึ้นเกี่ยวกับความลำเอียงนี้แตกต่างกันอย่างไร n, อัลฟาของการเข้า, กระบวนการสร้างข้อมูลและขั้นตอนการถดถอยแบบขั้นตอน

อ้างอิง

Harrell, FE (2001) กลยุทธ์การสร้างแบบจำลองการถดถอย: ด้วยการประยุกต์ใช้กับตัวแบบเชิงเส้นการถดถอยแบบโลจิสติกและการวิเคราะห์การอยู่รอด สปริงเกอร์

— Jeromy Anglim
แหล่งที่มา

มันยังคงลำเอียง (ฉันบอก) คุณเพิ่งลดอคติลงได้มาก

— Jeremy Miles

@JeremyMiles ใช่ แต่มันไม่ได้ลำเอียงโดยเนื้อแท้ในทิศทางที่เฉพาะเจาะจง

— Jeromy Anglim

ฉันสนใจที่จะเห็น @FrankHarrell

— Glen_b -Reinstate Monica

S W (p)

$SW(p)$

R^{2}

$R^2$

p

$p$

p

$p$

S W (p)

$SW(p)$

p

$p$

S W (p)

$SW(p)$

p

$p$

— whuber

@whuber ฉันปรับแต่งย่อหน้าสุดท้ายเพื่อหวังว่าจะได้คะแนนที่คุณพูดชัดเจนขึ้น

— Jeromy Anglim