ความแตกต่างระหว่างสมมติฐานที่มีความสัมพันธ์กับการทดสอบความชันของการถดถอยอย่างมีนัยสำคัญ


21

คำถามของฉันเกิดจากการพูดคุยกับ @whuber ในความคิดเห็นของคำถามอื่น

โดยเฉพาะความคิดเห็นของ @whuber มีดังนี้:

เหตุผลหนึ่งที่ทำให้คุณประหลาดใจก็คือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันของการถดถอยนั้นแตกต่างกันดังนั้นแม้ว่าเราจะเข้าใจว่าสหสัมพันธ์และความชันนั้นวัดในสิ่งเดียวกันจริง ๆ ทำไมค่า p ของพวกเขาจึงเหมือนกัน นั่นแสดงให้เห็นว่าปัญหาเหล่านี้ลึกซึ้งยิ่งกว่าเพียงว่าและควรเท่ากับตัวเลขหรือไม่βrβ

นี่ทำให้ฉันคิดถึงมันและฉันก็ได้คำตอบที่น่าสนใจมากมาย ตัวอย่างเช่นฉันพบคำถามนี้ " สมมติฐานของค่าสัมประสิทธิ์สหสัมพันธ์ " แต่ไม่สามารถดูว่าสิ่งนี้จะชี้แจงความคิดเห็นข้างต้น

ฉันพบคำตอบที่น่าสนใจมากขึ้นเกี่ยวกับความสัมพันธ์ของ Pearson'sและความชันในการถดถอยเชิงเส้นอย่างง่าย (ดูที่นี่และที่นี่เป็นต้น) แต่ดูเหมือนว่าไม่มีใครตอบคำถามที่ @whuber อ้างถึงในความคิดเห็นของเขา ถึงฉัน).βrβ

คำถามที่ 1:อะไรคือสมมติฐานที่ใช้ทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย

สำหรับคำถามที่ 2 พิจารณาผลลัพธ์ต่อไปนี้ในR:

model <- lm(Employed ~ Population, data = longley)
summary(model)

Call:
lm(formula = Employed ~ Population, data = longley)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

และการส่งออกของcor.test()ฟังก์ชั่น:

with(longley, cor.test(Population, Employed))

    Pearson's product-moment correlation

data:  Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

ดังที่เห็นlm()และcov.test()เอาท์พุทสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันและความชันประมาณ ( ) นั้นแตกต่างกันอย่างมาก 0.96 เทียบกับ 0.485 ตามลำดับ แต่ค่า t-p และค่า p- เหมือนกันβ 1rβ1

จากนั้นฉันก็ลองดูว่าฉันสามารถคำนวณค่า t สำหรับและซึ่งเหมือนกันได้หรือไม่แม้ว่าและจะแตกต่างกัน และนั่นคือสิ่งที่ฉันติดอยู่อย่างน้อยก็สำหรับ :β 1 r β 1 rrβ1rβ1r

คำนวณความชัน ( ) ในการถดถอยเชิงเส้นอย่างง่ายโดยใช้ผลรวมของกำลังสองของและ : x yβ1xy

x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))

คำนวณการประมาณความชันของการถดถอยอย่างน้อยกำลังสอง (มีข้อพิสูจน์ในเรื่องนี้ในหนังสือ R ฉบับที่ 1 ของ Crawleyหน้า 393):β1

b1 <- ss.xy/ss.x                        
b1
# [1] 0.4848781

คำนวณข้อผิดพลาดมาตรฐานสำหรับ :β1

ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029

และค่า t-value และ p-value สำหรับ :β1

t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09

สิ่งที่ฉันไม่ทราบว่าที่จุดนี้และนี่คือคำถามที่ 2คือวิธีการคำนวณเดียว T-ค่าใช้แทนβ 1 (บางทีในทารกขั้นตอน)rβ1

ฉันสมมติว่าเนื่องจากcor.test()สมมติฐานทางเลือกคือว่าความสัมพันธ์ที่แท้จริงไม่เท่ากับ 0 (ดูcor.test()ผลลัพธ์ด้านบน) ฉันคาดหวังบางอย่างเช่นสัมประสิทธิ์สหสัมพันธ์เพียร์สันหารด้วย "ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์สหสัมพันธ์เพียร์สัน" (คล้ายกับข้างบน)?! แต่ข้อผิดพลาดมาตรฐานนั้นจะเป็นอย่างไรและทำไมrb1/se.b1

บางทีนี่อาจจะเกี่ยวข้องกับสมมติฐานที่กล่าวถึงข้างต้นซึ่งเป็นการทดสอบสหสัมพันธ์และการทดสอบความชันถดถอย !

แก้ไข (27 ก.ค. 2017): ในขณะที่ @whuber ได้ให้คำอธิบายอย่างละเอียดสำหรับคำถามที่ 1 (และอีกส่วนคำถามที่ 2ดูความคิดเห็นภายใต้คำตอบของเขา) ฉันทำการขุดเพิ่มเติมและพบว่าทั้งสองโพสต์ ( ที่นี่และที่นี่ ) แสดงข้อผิดพลาดมาตรฐานเฉพาะสำหรับซึ่งใช้งานได้ดีในการตอบคำถาม 2นั่นคือทำซ้ำค่า t ที่กำหนดโดยr :rr

r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956

2
มันคือการทดสอบเดียวกันหรืออย่างน้อยการทดสอบที่เทียบเท่า หากคุณปฏิเสธสมมติฐานที่ว่าสหสัมพันธ์นั้นไม่เป็นศูนย์การทดสอบก็ปฏิเสธสมมติฐานที่ว่าความชันนั้นไม่ได้เป็นศูนย์
Michael R. Chernick

6
@Michael Right - แต่มีโมเดลที่มีศักยภาพมากมายที่นี่และพวกมันต่างกันอย่างยอดเยี่ยม หนึ่งในนั้นคือแบบจำลองมาตรฐานสำหรับสหสัมพันธ์ซึ่งสิ่งที่ง่ายที่สุดคือข้อมูลนั้นเป็นตัวอย่างจากการแจกแจงปกติแบบ bivariate ที่ไม่รู้จัก อีกแบบคือ OLS บางรุ่นสำหรับการถดถอยของเทียบกับX - ในสองรสชาติ, regressors คงที่และ regressors สุ่ม อีกฝืนบทบาทของXและY หากคุณรู้สึกว่าสิ่งเหล่านี้ควรสร้างค่า p เดียวกันสำหรับการทดสอบสมมติฐานที่เปรียบเทียบได้นั่นอาจเกิดจากความคุ้นเคยที่กว้างขวาง แต่ก็ไม่ชัดเจนนัก YXXY
whuber

1
@whuber เมื่อเห็นว่าคำถามนี้ได้รับการสนับสนุนอย่างดี แต่ขาดคำตอบที่น่าพอใจฉันเริ่มได้รับรางวัลที่สิ้นสุดในวันนี้ มันอยู่ในช่วงเวลาผ่อนผันแล้ว มีการโพสต์คำตอบใหม่หนึ่งคำตอบและอธิบายการคำนวณความสัมพันธ์แบบลาดชันได้เป็นอย่างดี แต่อ้างว่าไม่มีข้อแตกต่างในข้อสมมติฐาน เงินรางวัลของฉันจะได้รับโดยอัตโนมัติสำหรับคำตอบใหม่นี้เว้นแต่จะมีอีกอันหนึ่งปรากฏขึ้น ฉันแจ้งให้คุณทราบในกรณีที่คุณจะพิจารณาโพสต์คำตอบของคุณเองเช่นกัน
อะมีบาพูดว่า Reinstate Monica

1
@amoeba ขอบคุณ; ฉันไม่ได้สังเกตเห็นความโปรดปราน ฉันได้โพสต์บัญชีบางส่วนของสิ่งที่ฉันมีในใจเมื่อฉันเขียนคำพูดที่จุดประกายคำถามนี้ ฉันหวังว่ามันจะแสดงถึงความคืบหน้าในทิศทางที่คุณแนะนำ
whuber

คำตอบ:


5

บทนำ

คำตอบนี้แสดงถึงแรงจูงใจพื้นฐานสำหรับชุดคำถามนี้:

สมมติฐานที่ใช้ในการทดสอบสหสัมพันธ์และการทดสอบความชันถดถอยคืออะไร

ในแง่ของพื้นหลังที่ให้ไว้ในคำถามผมอยากจะแนะนำให้ขยายคำถามนี้หน่อย: ขอให้เราสำรวจวัตถุประสงค์และแนวคิดที่แตกต่างของความสัมพันธ์และการถดถอย

โดยทั่วไปความสัมพันธ์จะถูกเรียกใช้ในสถานการณ์ที่

  • ข้อมูลเป็นตัวแปร:สองค่าที่น่าสนใจที่เกี่ยวข้องกับ "เรื่อง" หรือ "การสังเกต" แต่ละคน

  • ข้อมูลเป็นแบบสังเกตได้:ไม่มีค่าใดที่ถูกตั้งค่าโดยผู้ทดลอง ทั้งสองถูกสังเกตหรือวัด

  • ความสนใจอยู่ที่การระบุการหาปริมาณและการทดสอบความสัมพันธ์บางอย่างระหว่างตัวแปร

การถดถอยจะใช้ที่ไหน

  • ข้อมูลเป็น bivariate หรือหลายตัวแปร: อาจมีค่าที่น่าสนใจมากกว่าสองค่า

  • ความสนใจมุ่งเน้นที่การทำความเข้าใจสิ่งที่สามารถพูดได้เกี่ยวกับชุดย่อยของตัวแปร - ตัวแปร "พึ่งพา" หรือ "การตอบสนอง" - ขึ้นอยู่กับสิ่งที่อาจเป็นที่รู้จักเกี่ยวกับชุดย่อยอื่น ๆ - ตัวแปร "อิสระ" หรือ "regressors"

  • ค่าที่กำหนดของ regressors อาจถูกกำหนดโดยผู้ทดลอง

เป้าหมายและสถานการณ์ที่แตกต่างกันเหล่านี้นำไปสู่แนวทางที่แตกต่าง เนื่องจากเธรดนี้เกี่ยวข้องกับความคล้ายคลึงกันของพวกเรามามุ่งเน้นที่กรณีที่พวกเขาคล้ายกันมากที่สุด: ข้อมูลที่แปรผัน ในทั้งสองกรณีข้อมูลเหล่านั้นจะมักจะถูกจำลองเป็นความเข้าใจของตัวแปรสุ่ม ) โดยทั่วไปการวิเคราะห์ทั้งสองรูปแบบจะหาลักษณะของตัวแปรนี้ได้ง่าย(X,Y)

ความสัมพันธ์

ฉันเชื่อว่า "การวิเคราะห์ความสัมพันธ์" ไม่เคยมีคำจำกัดความโดยทั่วไป ควร จำกัด การคำนวณสัมประสิทธิ์สหสัมพันธ์หรือสามารถพิจารณาอย่างกว้างขวางมากขึ้นซึ่งประกอบด้วย PCA การวิเคราะห์กลุ่มและรูปแบบอื่น ๆ ของการวิเคราะห์ที่เกี่ยวข้องกับตัวแปรสองตัว? ไม่ว่าคุณจะมองในมุมมองของคุณมีขอบเขต จำกัด หรือกว้างคุณอาจยอมรับว่าคำอธิบายต่อไปนี้ใช้:

ความสัมพันธ์คือการวิเคราะห์ที่ทำให้สมมติฐานเกี่ยวกับการแจกแจงโดยไม่มีการให้สิทธิพิเศษทั้งสองตัวแปรและใช้ข้อมูลเพื่อดึงข้อสรุปที่เฉพาะเจาะจงมากขึ้นเกี่ยวกับการแจกแจงนั้น(X,Y)

ตัวอย่างเช่นคุณอาจเริ่มต้นด้วยการสมมติมีการแจกแจงปกติแบบ bivariate และใช้สัมประสิทธิ์สหสัมพันธ์เพียร์สันของข้อมูลเพื่อประมาณหนึ่งในพารามิเตอร์ของการแจกแจงนั้น นี่เป็นหนึ่งในแนวคิดที่แคบที่สุด (และเก่าที่สุด) ของความสัมพันธ์(X,Y)

เป็นอีกตัวอย่างหนึ่งคุณอาจจะสมมติว่ามีการแจกแจงใด ๆและใช้การวิเคราะห์กลุ่มเพื่อระบุk "ศูนย์" หนึ่งอาจตีความว่าเป็นจุดเริ่มต้นของการแก้ปัญหาของการกระจายของ( X , Y )เป็นส่วนผสมของการกระจาย bivariate unimodal หนึ่งสำหรับแต่ละคลัสเตอร์(X,Y)k(X,Y)

สิ่งหนึ่งที่พบได้ทั่วไปในแนวทางเหล่านี้คือการรักษาแบบและYแบบสมมาตร: ไม่ได้รับสิทธิพิเศษเหนือสิ่งอื่นใด ทั้งสองมีบทบาทที่เทียบเท่าXY

การถอยหลัง

การถดถอยมีคำจำกัดความที่ชัดเจน

การถดถอยเป็นลักษณะการแจกแจงแบบมีเงื่อนไขของ (การตอบสนอง) ที่ได้รับX (ผู้ถดถอย)YX

ในอดีตการถดถอยร่องรอยของรากจะ Galton ของการค้นพบว่าข้อมูลปกติ bivariate (c 1885.) เพลิดเพลินไปกับการเชิงเส้นถดถอย: ความคาดหวังที่มีเงื่อนไขของYเป็นฟังก์ชันเชิงเส้นของX ที่ขั้วหนึ่งของสเปกตรัมพิเศษทั่วไปคือแควน้อยสามัญ (OLS) ถดถอยที่เงื่อนไขการจำหน่ายของYจะถือว่าเป็นปกติ( β 0 + β 1 X , σ 2 )สำหรับพารามิเตอร์คงβ 0 , β 1 ,และσ(X,Y)YXY(β0+β1X,σ2)β0,β1,σ ที่จะประเมินจากข้อมูล

ในตอนท้ายสุดทั่วไปของสเปกตรัมนี้เป็นแบบจำลองเชิงเส้นแบบทั่วไปแบบจำลองการเติมทั่วไปและอื่น ๆ ของตระกูลที่ผ่อนคลายทุกด้านของ OLS: ความคาดหวังความแปรปรวนและแม้กระทั่งรูปร่างของการแจกแจงแบบมีเงื่อนไขของอาจได้รับอนุญาตให้แปรผันแบบไม่เชิงเส้น กับX แนวคิดที่มีชีวิตรอดจากการวางนัยทั่วไปทั้งหมดนี้คือความสนใจยังคงมุ่งเน้นไปที่การทำความเข้าใจว่าYขึ้นอยู่กับXอย่างไร ความไม่สมดุลพื้นฐานนั้นยังคงอยู่ที่นั่นYXYX

สหสัมพันธ์และการถดถอย

สถานการณ์ที่พิเศษมากอย่างหนึ่งเกิดขึ้นได้จากทั้งสองแนวทางและพบกันบ่อยครั้ง: ตัวแบบ bivariate Normal ในโมเดลนี้ข้อมูลที่กระจัดกระจายจะถือว่าเป็นรูปแบบ "ฟุตบอล" รูปไข่หรือซิการ์แบบคลาสสิกข้อมูลจะถูกกระจายเป็นวงรีรอบแกนคู่แกนตั้งฉาก

  • การวิเคราะห์ความสัมพันธ์มุ่งเน้นไปที่ "ความแข็งแกร่ง" ของความสัมพันธ์นี้ในแง่ที่ว่าการแพร่กระจายที่ค่อนข้างเล็กรอบแกนหลักคือ "แข็งแกร่ง"

  • ดังที่กล่าวไว้ข้างต้นการถดถอยของบนX (และ, เท่ากัน, การถดถอยของXบนY ) เป็นเส้นตรง : ความคาดหวังตามเงื่อนไขของการตอบสนองเป็นฟังก์ชันเชิงเส้นของ regressorYXXY

(มันเป็นการไตร่ตรองถึงความแตกต่างทางเรขาคณิตที่ชัดเจนระหว่างคำอธิบายทั้งสองนี้: พวกมันส่องสว่างความแตกต่างทางสถิติพื้นฐาน)

ของห้าพารามิเตอร์ปกติ bivariate (สองหมายถึงสองกระจาย, และอีกหนึ่งว่ามาตรการการพึ่งพาอาศัยกันระหว่างสองตัวแปร) หนึ่งเป็นที่น่าสนใจเหมือนกัน: พารามิเตอร์ที่ห้าρมันเกี่ยวข้องโดยตรง (และเพียง) ที่เกี่ยวข้องกับρ

  1. ค่าสัมประสิทธิ์ของในการถดถอยของYบนXXYX

  2. ค่าสัมประสิทธิ์ของในการถดถอยของXในYYXY

  3. ผลต่างมีเงื่อนไขอย่างใดอย่างหนึ่งของการถดถอยและ( 2 )(1)(2)

  4. (X,Y)

(4)XY

(1)(3)

H0:ρ=0YXRβ^

แอปพลิเคชันทั่วไปนี้ซึ่งเป็นคนแรกที่เรียนรู้สามารถทำให้ยากที่จะรับรู้ว่าความสัมพันธ์และการถดถอยต่างกันอย่างไรในแนวคิดและเป้าหมายของพวกเขา เมื่อเราเรียนรู้เกี่ยวกับการวางนัยทั่วไปของพวกเขาว่ามีการเปิดเผยความแตกต่างพื้นฐาน มันจะเป็นการยากที่จะตีความว่า GAM ให้ข้อมูลมากมายเกี่ยวกับ "สหสัมพันธ์" เช่นเดียวกับการยากที่จะกำหนดกรอบการวิเคราะห์กลุ่มเป็นรูปแบบของ "การถดถอย" ทั้งสองเป็นตระกูลของขั้นตอนที่แตกต่างกันโดยมีวัตถุประสงค์ที่แตกต่างกันแต่ละอันมีประโยชน์ในสิทธิของตนเองเมื่อใช้อย่างเหมาะสม


Rβ^


R

1
R(X,Y)R

ฉันจะทิ้งเวิร์มนี้ไว้สักพักแล้ว :) ขอบคุณสำหรับความคิดเห็นของคุณ @whuber!
สเตฟาน

3

ดังที่คำตอบของ @ whuber แนะนำให้เห็นว่ามีหลายรุ่นและเทคนิคที่อาจตกอยู่ภายใต้ความสัมพันธ์ที่ไม่มีส่วนคล้ายคลึงที่ชัดเจนในโลกที่ถดถอยและในทางกลับกัน อย่างไรก็ตามโดยมากแล้วเมื่อผู้คนคิดเปรียบเทียบและการถดถอยและความสัมพันธ์ที่ต่างกันพวกเขากำลังพิจารณาทั้งสองด้านของเหรียญคณิตศาสตร์เดียวกัน (โดยทั่วไปคือการถดถอยเชิงเส้นและสหสัมพันธ์ของเพียร์สัน) ไม่ว่าพวกเขาควรจะมีมุมมองที่กว้างขึ้นของการวิเคราะห์ทั้งสองครอบครัวเป็นสิ่งที่แยกออกจากการอภิปรายและสิ่งหนึ่งที่นักวิจัยควรต่อสู้อย่างน้อยที่สุด

xY(x,Y)

ในมุมมองที่แคบของทั้งการถดถอยและสหสัมพันธ์คำอธิบายต่อไปนี้จะช่วยอธิบายได้ว่าทำไมและประมาณของพวกเขาข้อผิดพลาดมาตรฐานและค่า p จึงเป็นตัวแปรที่แตกต่างกัน

เมื่อ dataframe datเป็นlongleyชุดข้อมูลที่อ้างอิงข้างต้นเราจะได้รับข้อมูลต่อไปนี้สำหรับ cor.test (ไม่มีอะไรใหม่ที่นี่จนกว่าคุณจะข้ามคำถามข้างต้นและตรงไปอ่านคำตอบ):

> cor.test(dat$Employed, dat$Population)

    Pearson's product-moment correlation

data:  dat$Employed and dat$Population
t = 12.896, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8869236 0.9864676
sample estimates:
      cor 
0.9603906 

และสำหรับโมเดลเชิงเส้น (เช่นเดียวกับด้านบน):

> summary(lm(Employed~Population, data=dat))

Call:
lm(formula = Employed ~ Population, data = dat)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.4362 -0.9740  0.2021  0.5531  1.9048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8.3807     4.4224   1.895   0.0789 .  
Population    0.4849     0.0376  12.896 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

ตอนนี้สำหรับองค์ประกอบใหม่ของคำตอบนี้ ก่อนอื่นให้สร้างตัวแปรEmployedและPopulationตัวแปรมาตรฐานใหม่สองเวอร์ชัน:

> dat$zEmployed<-scale(dat$Employed)
> dat$zPopulation<-scale(dat$Population)

การเรียกใช้การถดถอยครั้งที่สองอีกครั้ง:

> summary(lm(zEmployed~zPopulation, data=dat))

Call:
lm(formula = zEmployed ~ zPopulation, data = dat)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.40894 -0.27733  0.05755  0.15748  0.54238 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.956e-15  7.211e-02     0.0        1    
zPopulation  9.604e-01  7.447e-02    12.9 3.69e-09 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2884 on 14 degrees of freedom
Multiple R-squared:  0.9224,    Adjusted R-squared:  0.9168 
F-statistic: 166.3 on 1 and 14 DF,  p-value: 3.693e-09

Voila! ความชันถดถอยเท่ากับสัมประสิทธิ์สหสัมพันธ์จากด้านบน คำตอบสำหรับคำถามที่ 1คือข้อสมมติฐานสำหรับการทดสอบทั้งสองแบบโดยพื้นฐานแล้วคือ:

  1. ความเป็นอิสระของการสังเกต
  2. xY
  3. อียังไม่มีข้อความ(0,σอี2)
  4. ข้อผิดพลาดมีการกระจายในทำนองเดียวกันในแต่ละค่าคาดการณ์ของสายการถดถอย (เช่นความสม่ำเสมอของความแปรปรวนข้อผิดพลาด)

xY

สำหรับคำถามที่ 2ให้เริ่มด้วยข้อผิดพลาดมาตรฐานของสูตรความชันถดถอยที่ใช้ด้านบน (โดยนัยในรหัส R - แต่ระบุไว้ด้านล่าง):

=Σ(Xผม-X¯)(Yผม-Y¯)Σ(Xผม-X¯)2

ดังนั้นหากเราต้องการทราบข้อผิดพลาดมาตรฐานของเราจำเป็นต้องสามารถคำนวณความแปรปรวน (หรือV a r ( b )VaR()Xผม=(Xผม-X¯)Yผม=(Yผม-Y¯)

VaR()=VaR(Σ(XผมYผม)Σ(Xผม2))

จากสูตรดังกล่าวคุณสามารถไปที่นิพจน์ต่อไปนี้ย่อและมีประโยชน์มากขึ้น ( ดูที่ลิงค์นี้ทีละขั้นตอน ):

VaR()=σอี2Σ(Xผม-X¯)2
SE()=VaR()=σอี2Σ(Xผม-X¯)2

σอี2

ฉันคิดว่าคุณจะพบว่าคุณแก้สมการนี้สำหรับโมเดลเชิงเส้นที่ไม่ได้มาตรฐานและเป็นมาตรฐาน (เช่นสหพันธ์) คุณจะได้ค่า p และ t เดียวกันสำหรับความลาดชันของคุณ การทดสอบทั้งสองนั้นใช้การประมาณกำลังสองน้อยที่สุดธรรมดาและตั้งสมมติฐานเดียวกัน ในทางปฏิบัตินักวิจัยหลายคนข้ามการตรวจสอบสมมติฐานสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายและสหสัมพันธ์แม้ว่าฉันคิดว่ามันยิ่งแพร่หลายมากขึ้นที่จะทำเช่นนั้นสำหรับสหสัมพันธ์เนื่องจากหลายคนไม่รู้จักพวกเขาเป็นกรณีพิเศษของการถดถอยเชิงเส้นแบบง่าย (หมายเหตุ: นี่ไม่ใช่วิธีปฏิบัติที่ดีที่จะนำมาใช้)


2
คำตอบนี้ไม่ได้อยู่ที่อ้างจาก @whuber ทำซ้ำในคำถามที่เขาอ้างว่าสมมติฐานแตกต่างกัน คุณหมายถึงว่าคำพูดนี้ผิดหรือเปล่า?
อะมีบาพูดว่า Reinstate Monica

ถ้าคุณทำตามสมการเหล่านี้สหสัมพันธ์ของเพียร์สันมีสมมติฐานพื้นฐานเดียวกันของการถดถอยเชิงเส้นอย่างง่าย ฉันสามารถแก้ไขคำตอบของฉันให้ชัดเจนยิ่งขึ้น
แมตต์บาร์สเตด

1
ขอบคุณสำหรับคำตอบของคุณ! ฉันทราบว่าค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับความชันถดถอยเมื่อเป็นมาตรฐาน สิ่งนี้ปรากฏในลิงค์ 3 และ 4 ในคำถามของฉัน ฉันยังรับรู้ถึงข้อสันนิษฐานทั่วไปที่คุณระบุไว้และนั่นเป็นเหตุผลที่ความคิดเห็นของ @whuber ทำให้ฉันคิดอย่างนั้นจึงนำไปสู่คำถามนี้ ฉันควรระบุอย่างชัดเจนถึงข้อสันนิษฐานที่ฉันรับรู้ - คำขอโทษของฉัน
สเตฟาน

1
จริง ๆ แล้วฉันขุดเพิ่มเติมและพบว่าทั้งสองโพสต์ (RRr <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956

0

นี่คือคำอธิบายของความเท่าเทียมกันของการทดสอบเช่นกันแสดงให้เห็นว่าเกี่ยวข้องกับ r และ b อย่างไร

http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/

ในการดำเนินการ OLS คุณต้องสร้างhttps://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions

นอกจากนี้ OLS และ corr ต้องการสมมติฐานของการสุ่มตัวอย่าง

การสร้างการทดสอบ corr ถือว่า:

เรามี "ตัวอย่างที่สุ่มและมีขนาดใหญ่พอ" จากประชากรของ (x, y)


0

เกี่ยวกับคำถามที่ 2

วิธีการคำนวณค่า t-value เดียวกันโดยใช้ r แทนβ1

เสื้อRFR

F=R2/k(1-R2)/(n-k)

k=2n=daเสื้อaพีโอผมnเสื้อs

ด้วยข้อ จำกัด ที่

... ไม่สามารถใช้อัตราส่วน F เมื่อแบบจำลองไม่มีการสกัดกั้น

ที่มา: การทดสอบสมมติฐานในรูปแบบการถดถอยพหุคูณ


1
ฉันมองกลับไปที่โพสต์ต้นฉบับเพื่อระบุคำถามที่คุณอาจตอบ ฉันพบสองหมายเลข 1 (ประมาณข้อสมมติ) และ 2 (เกี่ยวกับการคำนวณค่า t) แต่ดูเหมือนว่าคำตอบนี้จะไม่ได้รับการแก้ไข คุณสามารถบอกให้เราทราบได้อย่างชัดเจนมากขึ้นว่าคุณกำลังตอบคำถามอะไร
whuber

1
R

1
ฉันคิดว่าฉันเข้าใจบางทีฉันอาจตอบคำถามในกรณีเฉพาะมากกว่าทั่วไป ฉันคิดว่ามันจะมีประโยชน์ที่จะสามารถระบุคำถามในแง่ของโมฆะทั่วไปและสมมติฐานทางเลือกเพื่อให้สามารถพิจารณากรณีทั่วไปนี้ได้ในขณะที่ฉันกำลังดิ้นรนอยู่
Harry Salmon

ฉันเห็นด้วย: แสดงแบบจำลองที่ชัดเจนและเกณฑ์การตัดสินใจสำหรับการวิเคราะห์สหสัมพันธ์และการถดถอยจะช่วยได้มากในการแยกแยะพวกเขา บางครั้งคำตอบที่ดีนั้นประกอบไปด้วยการปรับแก้หรือชี้แจงคำถามให้น้อยลงและบ่อยครั้งคำตอบที่ดีที่สุดเริ่มต้นด้วยการทบทวนคำถามอย่างมีประสิทธิภาพดังนั้นอย่ากลัวที่จะไปในทิศทางนั้น
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.