สูตรสำหรับช่วงความมั่นใจ 95% สำหรับ


13

ฉันค้นหาและค้นหาบน stats.stackexchange แต่ไม่พบสูตรการคำนวณช่วงความมั่นใจ 95% สำหรับค่าสำหรับการถดถอยเชิงเส้น ทุกคนสามารถให้ได้หรือไม่R2

ยิ่งไปกว่านั้นสมมติว่าฉันใช้การถดถอยเชิงเส้นด้านล่างในอาร์ฉันจะคำนวณช่วงความมั่นใจ 95% สำหรับค่าโดยใช้รหัส R ได้อย่างไรR2

lm_mtcars <- lm(mpg ~ wt, mtcars)

1
คุณรู้ไหมว่าความสัมพันธ์ระหว่างสหสัมพันธ์และนั้นคือคุณกำลังหาค่าสัมประสิทธิ์สหสัมพันธ์เพื่อให้ได้ดังนั้นทำไมไม่คำนวณช่วงความเชื่อมั่นของแล้วยกกำลังสองขีด จำกัด ล่างและบนของช่วง? R 2 R 2 rrR2R2r

1
@ ศูนย์: ที่จะทำงานในการถดถอยเชิงเส้นอย่างง่ายนั่นคือด้วยการทำนายเดียวและสกัดกั้น มันจะไม่ทำงานสำหรับการถดถอยเชิงเส้นหลายครั้งพร้อมตัวทำนายมากกว่าหนึ่งตัว
Stephan Kolassa

@StephanKolassa จริงมาก! ฉันเดาว่าฉันกำลังอ้างอิงมันจากRรหัสของเขาซึ่งมีเพียง regressor เดียว แต่นั่นเป็นจุดที่ดีมากที่จะชี้แจง


คุณสามารถใช้ฟังก์ชัน R ขนาดเล็กมากgithub.com/mayer79/R-confidence-intervals-R-squaredตามคุณสมบัติของการกระจาย F ที่ไม่ใช่ส่วนกลาง
Michael M

คำตอบ:


16

คุณสามารถบูตมันได้ตลอดเวลา:

> library(boot)
> foo <- boot(mtcars,function(data,indices)
        summary(lm(mpg~wt,data[indices,]))$r.squared,R=10000)

> foo$t0
[1] 0.7528328

> quantile(foo$t,c(0.025,0.975))
     2.5%     97.5% 
0.6303133 0.8584067

Carpenter & Bithell (2000, Statistics in Medicine)ให้ข้อมูลเบื้องต้นเกี่ยวกับช่วงความเชื่อมั่นในการบูตบู๊ตที่อ่านได้แม้จะไม่ได้เน้นไปที่พิเศษR2


1
(+1) มันอาจจะเป็นที่น่าสนใจว่าสูตรตัวอย่างที่ยกมาโดย @Durden กับและจะช่วยให้ช่วงเวลา(0.546,0.960)มันจะถูกต้องเกือบจะสมบูรณ์แบบถ้าเราเอาตัวคูณของคูณ SE ในสูตรนั้น! k = 1 ( 0.546 , 0.960 ) 2n=32k=1(0.546,0.960)2
whuber

ก็อาจจะเป็นที่น่าสังเกตว่าคุณจะได้รับชนิดอื่น ๆ ของช่วงความเชื่อมั่น (เช่น BCa) จากบูต resampling boot.ci()การกระจายการใช้
Jeffrey Girard

7

ใน R คุณสามารถใช้CI.Rsq()ฟังก์ชันที่จัดทำโดยแพ็คเกจไซโครเมท สำหรับสูตรที่ใช้ดูโคเฮนและคณะ (2003) , การวิเคราะห์การถดถอยพหุ / สหสัมพันธ์ประยุกต์สำหรับพฤติกรรมศาสตร์ , หน้า 88:

SER2=4R2(1R2)2(nk1)2(n21)(n+3)

จากนั้น 95% CI คือคุณR2±2SER2


3
(1)ถูกยกกำลังสองในการอ้างอิงของคุณ (2) เป็นสิ่งสำคัญที่จะต้องทราบว่า " " มีวัตถุประสงค์เพื่อเป็นค่าตัวอย่างมากกว่าค่าของประชากร (ซึ่งเป็นที่ชัดเจนว่า " " หมายถึงในคำถามซึ่งอาจเกิดความสับสน) (3) เป็นสิ่งสำคัญเช่นกันว่านี่เป็นเพียงผล asymptotic ("ตัวอย่างขนาดใหญ่") ซึ่งให้ "การประมาณที่เพียงพอ" สำหรับ " " (ฉันเชื่อว่านับการสกัดกั้นบวกกับจำนวนของตัวแปรอิสระ) มันจะมีประโยชน์ที่จะเห็นตัวอย่างการทำงานที่สนับสนุนโดยการจำลองเนื่องจากช่วงเวลานี้ดูกว้างเกินไป R 2 R 2 n - k - 1 > 60 k + 1(1R2)R2R2nk1>60k+1
whuber

ตาม Wishart (1931) สูตรไม่เหมาะสมสำหรับการแจกแจงแบบไม่ปกติ
abukaj
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.