วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square


10

ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ

  • รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c
  • แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b

มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ(1)2ρ(2)2Δρ2=ρ(2)2ρ(1)2

ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น 5 และ 30) ความคิดแรกของฉันคือใช้ Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )เป็นตัวประมาณและบูตมัน แต่ฉันไม่แน่ใจว่าสิ่งนี้จะเหมาะสมหรือไม่Δρ2Δradj2=radj(2)2radj(1)2

คำถาม

  • คือประมาณการที่เหมาะสมของΔ ρ 2 ?Δradj2Δρ2
  • วิธีที่สามารถช่วงความเชื่อมั่นจะได้รับสำหรับประชากรเปลี่ยนแปลง R-ตาราง (เช่น )?Δρ2
  • จะร่วมมือมีความเหมาะสมสำหรับการคำนวณช่วงความเชื่อมั่น?Δρ2

การอ้างอิงถึงแบบจำลองหรือวรรณกรรมที่ตีพิมพ์ใด ๆ ก็ยินดีต้อนรับมากที่สุด

รหัสตัวอย่าง

ถ้าช่วยได้ฉันสร้างชุดข้อมูลจำลองขึ้นมาใน R ซึ่งสามารถใช้แสดงคำตอบได้:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

เหตุผลที่เกี่ยวข้องกับ bootstrap

ฉันใช้ bootstrap กับข้อมูลประมาณ 300 รายและตัวทำนาย 5 ตัวในรูปแบบง่าย ๆ และตัวทำนาย 30 ตัวในแบบเต็ม ในขณะที่ค่าประมาณตัวอย่างโดยใช้ความแตกต่าง r-square คือ0.116ช่วงความเชื่อมั่นที่เพิ่มขึ้นนั้นใหญ่กว่า CI95% (0.095 ถึง 0.214) ส่วนใหญ่และค่าเฉลี่ยของ bootstraps อยู่ใกล้กับค่าประมาณตัวอย่าง ค่อนข้างค่าเฉลี่ยของกลุ่มตัวอย่างที่ถูกเร่งดูเหมือนจะอยู่กึ่งกลางในการประมาณตัวอย่างของความแตกต่างระหว่าง r-squares ในกลุ่มตัวอย่าง นี่คือความจริงที่ว่าฉันใช้ตัวอย่างที่ปรับ r-squares เพื่อประมาณความแตกต่าง

ที่น่าสนใจผมพยายามเป็นทางเลือกของการคำนวณเป็นΔρ2

  1. คำนวณตัวอย่างการเปลี่ยนแปลง r-square
  2. ปรับการเปลี่ยนแปลง r-square ตัวอย่างโดยใช้สูตร r-square ที่ปรับตามมาตรฐาน

เมื่อนำไปใช้ข้อมูลตัวอย่างนี้ลดประมาณการของไปแต่ช่วงความเชื่อมั่นดูเหมือนเหมาะสมสำหรับวิธีการที่ผมกล่าวถึงครั้งแรก CI95% (0.062, 0.179) โดยมีค่าเฉลี่ยอยู่ที่ 0.118Δρ2.082

ในวงกว้างฉันกังวลว่าการบูตสแตรปถือว่าสมมติว่ากลุ่มตัวอย่างเป็นประชากรดังนั้นการประมาณการว่าการลดลงสำหรับการ overfitting อาจไม่ได้ผลอย่างเหมาะสม


"อย่างไรก็ตามฉันกังวลว่าการกำหนดค่าประชากรที่ปรับแล้วอาจเป็นปัญหา" - ทำไม
มกราคม

@ มกราคมฉันได้แก้ไขคำถามและพยายามที่จะพูดถึงความกังวลของฉันเกี่ยวกับการเริ่มต้นด้วยการปรับ r-Square
Jeromy Anglim

อะไรคือสิ่งที่ประชากร R ยืด ? ฉันได้ดูคำจำกัดความที่ให้ไว้ที่นี่แต่สำหรับฉันความแปรปรวนไม่สมเหตุสมผลเพราะy ฉันไม่ได้กระจายตัวเหมือนกัน σy2yi
Stéphane Laurent

@ StéphaneLaurentเป็นอัตราร้อยละของความแปรปรวนที่อธิบายในประชากรโดยสมการการถดถอยของประชากร หรือคุณอาจนิยามแบบ asymptotically เป็นสัดส่วนของความแปรปรวนที่อธิบายในตัวอย่างของคุณเมื่อขนาดตัวอย่างของคุณเข้าใกล้อนันต์ ดูเพิ่มเติมคำตอบนี้เกี่ยวกับการประมาณการเป็นกลางของประชากร R-ตาราง มันมีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งในจิตวิทยาที่เรามักจะสนใจในความสัมพันธ์ที่แท้จริงมากกว่าที่จะใช้สมการทำนายของเรา
Jeromy Anglim

3
F-ทดสอบอาจจะคิดว่าการทดสอบสมมติฐาน 0 สามารถใช้เพื่อรับข้อผิดพลาดมาตรฐานและช่วงความมั่นใจที่คุณกำลังมองหา? Δρ2=0
Maarten Buis

คำตอบ:


3

ประชากรR2

ฉันแรกพยายามที่จะเข้าใจความหมายของประชากร R-Squared

การแสดงความคิดเห็นของคุณ:

หรือคุณอาจนิยามแบบ asymptotically เป็นสัดส่วนของความแปรปรวนที่อธิบายในตัวอย่างของคุณเมื่อขนาดตัวอย่างของคุณเข้าใกล้อนันต์

ฉันคิดว่าคุณหมายถึงนี่เป็นข้อ จำกัด ของตัวอย่างเมื่อมีคนหนึ่งที่จำลองแบบจำลองซ้ำหลายครั้งอย่างไม่ จำกัด (ด้วยตัวทำนายที่เหมือนกันในการทำซ้ำแต่ละครั้ง) R2

แล้วสูตรสำหรับค่าซีมโทติคของตัวอย่างคืออะไร? เขียนโมเดลเชิงเส้นของคุณY = μ + σ Gในhttps://stats.stackexchange.com/a/58133/8402และใช้สัญลักษณ์เช่นเดียวกับลิงก์นี้ จากนั้นหนึ่งสามารถตรวจสอบว่าตัวอย่างR 2ไปที่p o p R 2 : = λR²Y=μ+σG
R2popR2:=λn+λY=μ+σG

ตัวอย่าง:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

R2

Y=μ+σGH1:μW1H0:μW0

R2H1popR12:=λ1n+λ1λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=(μiμ¯)2

R2 H0R2H0H1


ขอบคุณStéphane ฉันจะต้องคิดเกี่ยวกับสิ่งที่คุณพูด เกี่ยวกับคำถามของคุณ ฉันคิดว่ากระบวนการสร้างข้อมูลจริงไม่เป็นที่รู้จัก แต่มันก็เหมือนกันสำหรับทั้งสองรุ่น แต่มีสัดส่วนความแปรปรวนที่แท้จริงที่อธิบายโดยการถดถอยเชิงเส้นในรุ่น 1 และรุ่น 2
Jeromy Anglim

R2

1
@JeromyAnglim การศึกษาของบทความนี้ดูเหมือนจะใกล้เคียงกับสิ่งที่คุณกำลังมองหา (ด้วยการทำนายแบบสุ่ม)
Stéphane Laurent

ขอบคุณ กระดาษ Algina, Keselman และ Penfield มีประโยชน์มาก ฉันได้เพิ่มความคิดเห็นลงในคำตอบของฉันเกี่ยวกับเรื่องนี้
Jeromy Anglim

@JeromyAnglim ดังนั้นสมมติฐานเกี่ยวกับตัวทำนายคืออะไร พวกมันถูกสร้างขึ้นตามการกระจายแบบเกาส์หลายตัวแปร?
Stéphane Laurent

1

แทนที่จะตอบคำถามที่คุณถามฉันจะถามว่าทำไมคุณถึงถามคำถามนั้น ฉันถือว่าคุณต้องการทราบว่า

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

อย่างน้อยก็ดีเหมือนกัน

mod.large <- lm(y ~ ., data=x)

yที่อธิบาย เนื่องจากแบบจำลองเหล่านี้ซ้อนกันวิธีที่ชัดเจนในการตอบคำถามนี้ดูเหมือนจะเป็นการวิเคราะห์ความแปรปรวนเปรียบเทียบกับแบบเดียวกันกับที่คุณอาจทำการวิเคราะห์ความเบี่ยงเบนสำหรับ GLM สองตัวเช่น

anova(mod.small, mod.large)

จากนั้นคุณสามารถใช้การปรับปรุง R-Square ตัวอย่างระหว่างแบบจำลองเป็นแบบคาดเดาที่ดีที่สุดของคุณในสิ่งที่การปรับปรุงแบบพอดีจะอยู่ในประชากรโดยสมมติว่าคุณสามารถเข้าใจความรู้สึกของประชากร โดยส่วนตัวฉันไม่แน่ใจว่าฉันจะทำได้ แต่ด้วยวิธีนี้มันไม่สำคัญว่าจะด้วยวิธีใด

โดยทั่วไปหากคุณสนใจในปริมาณประชากรคุณอาจสนใจในการทำให้เป็นเรื่องทั่วไปดังนั้นการวัดความพอดีของตัวอย่างไม่ใช่สิ่งที่คุณต้องการ แต่ 'แก้ไข' ตัวอย่างเช่นการตรวจสอบความถูกต้องของปริมาณที่ประเมินการเรียงลำดับและปริมาณของข้อผิดพลาดจริงที่คุณคาดว่าจะทำจากตัวอย่างเช่น MSE จะได้สิ่งที่คุณต้องการ

แต่มันเป็นไปได้ทีเดียวที่ฉันขาดอะไรบางอย่างที่นี่ ...


ฉันขอขอบคุณคำตอบของคุณและอาจเป็นคำแนะนำที่ดีสำหรับผู้อื่น แต่บริบทการวิจัยของฉันหมายความว่าฉันสนใจกฎหมายในพื้นที่สามเหลี่ยมปากแม่น้ำ ในขณะที่นักสถิติส่วนใหญ่มักจะเกี่ยวข้องกับการทำนายประโยชน์ของแบบจำลอง (เช่น cross-validated delta r-square), ฉันเป็นนักวิทยาศาสตร์ทางจิตวิทยาและสนใจในทรัพย์สินของประชากรโดยเฉพาะ นอกจากนี้ฉันไม่สนใจนัยสำคัญทางสถิติของการปรับปรุง ฉันสนใจขนาดของการปรับปรุง และฉันพบว่า delta-r-square เป็นเมตริกที่มีประโยชน์สำหรับการทำดัชนีขนาดของการปรับปรุง
Jeromy Anglim

เกี่ยวกับ MSE การศึกษาทางจิตวิทยาที่แตกต่างกันใช้มาตรการในการวัดที่แตกต่างกันมาก ดังนั้นจึงมีสิ่งที่ดึงดูดไม่ว่าจะถูกหรือผิดต่อมาตรการที่เป็นมาตรฐานเช่น r-square
Jeromy Anglim

ยุติธรรมเพียงพอโดยเฉพาะกับ MSE ฉันยังคงสับสนเล็กน้อยจากความสนใจในการทำ bootstrapping และการอนุมานประชากร แต่ขาดความสนใจในการทดสอบตั้งแต่บางทีไร้เดียงสาสิ่งเหล่านี้ดูเหมือนจะเป็นข้อกังวลที่เท่าเทียมกันที่แตกต่างกัน ฉันยังมีปัญหาในการแยกแยะตัวอย่างจากการคาดคะเนกับประชากรอย่างแน่นหนา แต่นั่นอาจเป็นสาเหตุของการเบส์เซียนลัทธิเหยียดเข่ากาแฟล่วงหน้า
conjugateprior

บางทีฉันอาจจะพูดเร็ว ในบริบทการวิจัยของฉันมักจะมีหลักฐานมากมายที่เดลต้า - โร - สแควร์มากกว่าศูนย์ คำถามที่น่าสนใจคือระดับของการเพิ่มขึ้นคืออะไร คือมันเป็นการเพิ่มขึ้นเล็กน้อยหรือเพิ่มขึ้นตามความหมายในทางทฤษฎี ดังนั้นความมั่นใจหรือช่วงเวลาที่น่าเชื่อถือทำให้ฉันประเมินความไม่แน่นอนเกี่ยวกับการเพิ่มขึ้นนั้น ฉันยังไม่ได้คืนดีกับสิ่งที่ฉันทำที่นี่ด้วยความเข้าใจของฉันเกี่ยวกับสถิติแบบเบย์ แต่ฉันต้องการ
Jeromy Anglim

1

ρ2

bootstrap r-square ที่ปรับเป็นสองเท่า

เดาที่ดีที่สุดในปัจจุบันของฉันที่คำตอบคือการทำ bootstrap r-square ปรับสองครั้ง ฉันใช้งานเทคนิค มันเกี่ยวข้องกับต่อไปนี้:

  • สร้างชุดตัวอย่างบูตสแตรปจากข้อมูลปัจจุบัน
  • สำหรับแต่ละตัวอย่าง bootstrapped:
    • คำนวณ r-square ที่ปรับเป็นครั้งแรกสำหรับทั้งสองรุ่น
    • คำนวณ r-square ที่ปรับค่าที่สองบนค่า r-square ที่ปรับแล้วจากขั้นตอนก่อนหน้า
    • Δρ2

เหตุผลก็คือการปรับ r-square ครั้งแรกจะลบความเอนเอียงที่แนะนำโดยการบูทยาง (เช่น bootstrapping สมมติว่าตัวอย่าง r-square คือประชากร r-square) การปรับ r-square ครั้งที่สองทำการแก้ไขมาตรฐานที่ใช้กับตัวอย่างปกติเพื่อประมาณค่าประชากร r-square

ณ จุดนี้สิ่งที่ฉันเห็นคือการใช้อัลกอริทึมนี้สร้างการประมาณที่เหมาะสม (เช่นค่าเฉลี่ย theta_hat ใน bootstrap นั้นใกล้กับตัวอย่าง theta_hat มาก) ข้อผิดพลาดมาตรฐานสอดคล้องกับสัญชาตญาณของฉัน ฉันยังไม่ได้ทดสอบว่าจะให้ความคุ้มครองที่เหมาะสมซึ่งเป็นที่ทราบกันดีว่ากระบวนการสร้างข้อมูลหรือไม่และฉันก็ยังไม่แน่ใจทั้งหมด ณ จุดนี้ว่าการโต้แย้งสามารถพิสูจน์ได้จากหลักการแรก

หากใครเห็นเหตุผลใด ๆ ที่ทำให้วิธีการนี้เป็นปัญหาฉันก็ยินดีที่จะรับฟัง

การจำลองโดย Algina และคณะ

Δρ2

Smithson (2001) เกี่ยวกับการใช้พารามิเตอร์ noncentrality

R2f2R2

อ้างอิง

  • Algina, J. , Keselman, HJ, & Penfield, RD Confidence Intervals สำหรับค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณหลายส่วน ไฟล์ PDF
  • Smithson, M. (2001) แก้ไขช่วงความเชื่อมั่นที่ถูกต้องสำหรับขนาดและพารามิเตอร์ผลกระทบการถดถอยต่างๆ: ความสำคัญของการแจกแจงแบบไม่รวมศูนย์ในช่วงเวลาคำนวณ การวัดทางการศึกษาและจิตวิทยา, 61 (4), 605-632

1
ดูเหมือนว่าไม่มีใครที่นี่ (รวมถึงคุณ) รู้ความหมายของประชากร R-squared ของคุณ ดังนั้น IMHO นี่เป็นวิธีที่มีปัญหาอย่างมาก
Stéphane Laurent

@ StéphaneLaurentขอบคุณสำหรับสิ่งนั้น ฉันยอมรับว่าจนถึงตอนนี้ฉันยังไม่เห็นประชากร r-square เป็นสมบัติของการต่อสู้ ตัวอย่างเช่นฉันสามารถเสนอกระบวนการสร้างข้อมูลและจะมี r-square ที่เข้าหาเนื่องจากขนาดตัวอย่างของฉันเข้าใกล้อินฟินิตี้ และฉันก็สมมติว่ามีกระบวนการสร้างข้อมูลสำหรับข้อมูลของฉันและดังนั้นหากเป็นไปได้ที่จะได้รับตัวอย่างที่ไม่มีที่สิ้นสุดฉันสามารถคำนวณประชากรที่แท้จริงได้
Jeromy Anglim

ใช่ แต่ฉันอยู่ภายใต้การแสดงผลของคุณคุณก็ถือว่าเป็นกระบวนการสร้างตัวทำนาย ฉันไม่สามารถคิดได้ว่ามันจะสมเหตุสมผลกับโมเดลเชิงเส้นทั่วไปได้อย่างไร
Stéphane Laurent
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.