ความขัดแย้งที่มีนัยสำคัญในการถดถอยเชิงเส้น: t-test อย่างมีนัยสำคัญสำหรับสัมประสิทธิ์เทียบกับ F-statistic โดยรวมที่ไม่สำคัญ


35

ฉันเหมาะสมกับโมเดลการถดถอยเชิงเส้นหลายแบบระหว่างตัวแปรเด็ดขาด 4 อัน (แต่ละระดับมี 4 ระดับ) และเอาต์พุตตัวเลข ชุดข้อมูลของฉันมีข้อสังเกต 43 ข้อ

การถดถอยทำให้ผมมีดังต่อไปนี้ -values จาก -test สำหรับทุกค่าสัมประสิทธิ์ความลาดชัน:0.02 ดังนั้นสัมประสิทธิ์สำหรับตัวทำนายที่ 4 จึงมีนัยสำคัญที่ระดับความเชื่อมั่นpt.15,.67,.27,.02α=.05

ในทางกลับกันการถดถอยให้จากการทดสอบโดยรวมของสมมติฐานว่างที่สัมประสิทธิ์ความชันของฉันทั้งหมดเท่ากับศูนย์ สำหรับชุดข้อมูลของฉันนี้คือ.pFp.11

คำถามของฉัน: ฉันจะตีความผลลัพธ์เหล่านี้ได้อย่างไร ซึ่ง -value ฉันควรใช้และทำไม? สัมประสิทธิ์สำหรับตัวแปรที่ 4 แตกต่างจากที่ระดับความเชื่อมั่นหรือไม่?p0α=.05

ผมเคยเห็นคำถามที่เกี่ยวข้อง,และสถิติในการถดถอยแต่มีสถานการณ์ตรงข้าม: สูง -test -values และต่ำ -test -value จริง ๆ แล้วฉันไม่เข้าใจว่าทำไมเราถึงต้องการการทดสอบแบบนอกเหนือจากการทดสอบแบบเพื่อดูว่าสัมประสิทธิ์การถดถอยเชิงเส้นแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่FttpFpFt


2
หากคุณมีตัวแปรเด็ดขาด 4 ตัวโดยแต่ละระดับมี 4 ระดับคุณควรมีสัมประสิทธิ์ 3 * 4 = 12 สำหรับตัวแปรอิสระของคุณ (รวมถึงการสกัดกั้น) ...
boscovich

@ andrea: ฉันตัดสินใจที่จะปฏิบัติต่อพวกเขาเป็นตัวแปรตัวเลข
Leo

4
0.02 นั้นมีความสำคัญน้อยมาก (โดยเฉพาะถ้าคุณพิจารณาความจริงที่ว่าคุณมีการทดสอบห้าแบบ) และ 0.11 นั้นไม่สูงมาก การตีความอย่างใจกว้างจะเป็นไปได้ว่าด้วยพลังที่เพิ่มขึ้นเล็กน้อยการทดสอบ F โดยรวมก็มีความสำคัญเช่นกัน (และอาจเป็นค่าสัมประสิทธิ์แรกเช่นกัน) การตีความแบบอนุรักษ์นิยมมากขึ้นคือคุณไม่ควรมีความมั่นใจมากในผลลัพธ์เหล่านี้ (รวมถึงสัมประสิทธิ์ด้วยค่า. 02 p) ไม่ว่าจะด้วยวิธีใดคุณไม่ควรอ่านมากเกินไปในความแตกต่างระหว่าง. 02 และ. 11
งานเลี้ยง

3
สำหรับการอภิปรายกรณีตรงข้ามคุณสามารถดูได้ที่นี่: การถดถอยจะมีความสำคัญได้อย่างไร แต่ผู้ทำนายทั้งหมดจะไม่สำคัญนอกเหนือจากคำถามที่เชื่อมโยงข้างต้น
gung - Reinstate Monica

คำตอบ:


37

ฉันไม่แน่ใจว่าความหลากสีคือสิ่งที่เกิดขึ้นที่นี่ แน่นอนมันอาจจะเป็นไปได้ แต่จากข้อมูลที่ให้ฉันไม่สามารถสรุปได้ว่าและผมไม่ต้องการที่จะเริ่มต้นการมี การเดาครั้งแรกของฉันคือสิ่งนี้อาจเป็นปัญหาการเปรียบเทียบหลายอย่าง นั่นคือถ้าคุณทำการทดสอบมากพอบางสิ่งจะปรากฏขึ้นแม้ว่าจะไม่มีอะไรอยู่ก็ตาม

หนึ่งในปัญหาที่ฉันพิณคือปัญหาของการเปรียบเทียบหลายครั้งจะถูกกล่าวถึงเสมอในแง่ของการตรวจสอบการเปรียบเทียบแบบคู่จำนวนมากเช่นการรันการทดสอบ t ในการจับคู่ระดับที่ไม่ซ้ำกันทุกครั้ง (สำหรับการรักษาอารมณ์ขันของการเปรียบเทียบหลายลักษณะที่นี่ .) ใบนี้คนที่มีความรู้สึกว่าที่เป็นสถานที่เดียวที่แสดงให้เห็นว่าปัญหานี้ขึ้น แต่นี่ไม่ใช่เรื่องจริง - ปัญหาของการเปรียบเทียบหลายครั้งปรากฏขึ้นทุกที่. ตัวอย่างเช่นหากคุณใช้การถดถอยด้วยตัวแปรอธิบาย 4 ตัวปัญหาเดียวกันก็มีอยู่ ในการทดลองที่ได้รับการออกแบบมาอย่างดี IV สามารถเป็นมุมฉากได้ แต่ผู้คนมักจะกังวลเกี่ยวกับการใช้การแก้ไข Bonferroni ในชุดของ a-Priori, orthogonal contrasts และอย่าคิดสองครั้งเกี่ยวกับ ANOVA ของแฟคทอเรียล ในใจของฉันมันไม่สอดคล้องกัน

การทดสอบ F ทั่วโลกคือสิ่งที่เรียกว่าการทดสอบ 'พร้อมกัน' การตรวจสอบนี้เพื่อดูว่าทั้งหมดของการทำนายของคุณไม่เกี่ยวข้องกับตัวแปรการตอบสนอง การทดสอบพร้อมกันให้การป้องกันปัญหาของการเปรียบเทียบหลายโดยไม่ต้องไปเส้นทาง Bonferroni การสูญเสียพลังงาน น่าเสียดายที่การตีความของฉันในสิ่งที่คุณรายงานคือคุณมีการค้นพบที่เป็นโมฆะ

มีหลายสิ่งที่บรรเทาผลกระทบต่อการตีความนี้ อันดับแรกด้วยข้อมูลเพียง 43 คุณแทบจะไม่ได้มีพลังมากนัก อาจเป็นไปได้ว่ามีผลกระทบจริง แต่คุณไม่สามารถแก้ไขได้หากไม่มีข้อมูลเพิ่มเติม ประการที่สองเช่น @andrea และ @Dimitriy ฉันกังวลเกี่ยวกับความเหมาะสมของการรักษาตัวแปรเด็ดขาด 4 ระดับเป็นตัวเลข สิ่งนี้อาจไม่เหมาะสมและอาจมีเอฟเฟกต์จำนวนมากรวมถึงการลดความสามารถในการตรวจสอบสิ่งที่มีอยู่จริง ท้ายสุดฉันไม่แน่ใจว่าการทดสอบความสำคัญนั้นสำคัญพอ ๆ กับที่ผู้คนเชื่อ ของเป็นชนิดของต่ำ; มีบางอย่างเกิดขึ้นจริงเหรอ? อาจจะ! ใครจะรู้? - ไม่มี 'เส้นสว่าง' ที่. 05 ที่กำหนดขอบเขตผลกระทบที่แท้จริงจากการปรากฏตัวเพียง p.11


24

ฉันอยากจะแนะนำว่าปรากฏการณ์นี้ (ของการทดสอบโดยรวมที่ไม่มีนัยสำคัญแม้จะมีตัวแปรแต่ละตัวที่มีนัยสำคัญ) สามารถเข้าใจได้ว่าเป็น "การกำบังผลกระทบ" แบบรวมและแม้ว่ามันจะเกิดขึ้นได้จากตัวแปรอธิบายแบบหลายมิติ ที่ทั้งหมด นอกจากนี้ยังปรากฏว่าไม่ได้เกิดจากการปรับการเปรียบเทียบหลายรายการเช่นกัน ดังนั้นคำตอบนี้คือการเพิ่มคุณสมบัติบางอย่างให้กับคำตอบที่ปรากฏอยู่แล้วซึ่งในทางตรงกันข้ามชี้ให้เห็นว่าความหลากหลายทางชีวภาพหรือการเปรียบเทียบหลาย ๆ ครั้งควรถูกมองว่าเป็นผู้กระทำผิด

เพื่อสร้างความน่าเชื่อถือของการยืนยันเหล่านี้เราจะสร้างคอลเลกชันของตัวแปรorthogonal ที่สมบูรณ์แบบเช่นเดียวกับที่ไม่ใช่ collinear ที่เป็นไปได้และตัวแปรตามขึ้นอยู่กับว่าจะถูกกำหนดอย่างชัดเจนโดยแรกของคำอธิบาย เป็นอิสระจากทุกสิ่ง) ในRสิ่งนี้สามารถทำได้ (ทำซ้ำถ้าคุณต้องการที่จะทดสอบ) เป็น

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

มันไม่สำคัญว่าตัวแปรอธิบายเป็นไบนารี สิ่งสำคัญคือ orthogonality ของพวกเขาซึ่งเราสามารถตรวจสอบเพื่อให้แน่ใจว่ารหัสทำงานตามที่คาดไว้ซึ่งสามารถทำได้โดยการตรวจสอบความสัมพันธ์ของพวกเขา อันที่จริงแล้วเมทริกซ์สหสัมพันธ์นั้นน่าสนใจ : ค่าสัมประสิทธิ์ขนาดเล็กที่แนะนำyนั้นมีน้อยมากที่เกี่ยวข้องกับตัวแปรใด ๆ ยกเว้นตัวแปรแรก (ซึ่งก็คือการออกแบบ) และศูนย์แบบทแยงมุมยืนยันค่ามุมฉากของตัวแปรอธิบาย:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

ลองเรียกใช้ชุดการถดถอยโดยใช้ตัวแปรแรกเท่านั้นจากนั้นสองตัวแรกและต่อไปเรื่อย ๆ สำหรับการเปรียบเทียบที่สั้นและง่ายในแต่ละอันฉันจะแสดงเฉพาะบรรทัดสำหรับตัวแปรแรกและการทดสอบ F โดยรวม:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

ดูว่า (a) ความสำคัญของตัวแปรแรกเปลี่ยนแปลงอย่างไร (a ') ตัวแปรแรกยังคงมีความสำคัญ (p <.05) แม้ว่าจะปรับการเปรียบเทียบหลายครั้ง ( เช่นใช้ Bonferroni โดยการคูณค่า p-value ที่กำหนดโดย จำนวนตัวแปรอธิบาย), (b) สัมประสิทธิ์ของตัวแปรแรกแทบจะไม่เปลี่ยนแปลง แต่ (c) ความสำคัญโดยรวมเพิ่มขึ้นแบบทวีคูณขยายตัวอย่างรวดเร็วสู่ระดับที่ไม่สำคัญ

ฉันตีความสิ่งนี้เป็นการแสดงให้เห็นว่ารวมถึงตัวแปรอธิบายที่ส่วนใหญ่เป็นอิสระจากตัวแปรตามสามารถ "ปกปิด" ค่า p-value โดยรวมของการถดถอย เมื่อตัวแปรใหม่เป็นมุมฉากเป็นตัวแปรที่มีอยู่แล้วและกับตัวแปรตามพวกมันจะไม่เปลี่ยนค่า p แต่ละค่า (การเปลี่ยนแปลงเล็กน้อยที่เห็นในที่นี้เป็นเพราะความผิดพลาดแบบสุ่มที่เพิ่มเข้ามาyคือโดยบังเอิญมีความสัมพันธ์เล็กน้อยกับตัวแปรอื่น ๆ ทั้งหมด) บทเรียนหนึ่งในการดึงออกมาจากที่นี่คือการแยกวิเคราะห์ความมีค่า : การใช้ตัวแปรน้อยเท่าที่จำเป็น ผลลัพธ์

ฉันไม่ได้บอกว่าสิ่งนี้จะเกิดขึ้นกับชุดข้อมูลในคำถามซึ่งมีการเปิดเผยเพียงเล็กน้อยเท่านั้น แต่ความรู้ที่ว่าผลกระทบกำบังนี้สามารถเกิดขึ้นได้ควรแจ้งให้เราทราบถึงการตีความผลลัพธ์รวมถึงกลยุทธ์ของเราในการเลือกตัวแปรและการสร้างแบบจำลอง


+1, ฉันเห็นด้วยกับการวิเคราะห์นี้ FWIW นี้เป็นคำอธิบายที่ผมนัยที่ (อาจจะไม่ดี) ในการอภิปรายของฉันเกี่ยวกับอำนาจในคำตอบของฉันคำถามอื่นฉันมีคำถาม 1 ข้อเกี่ยวกับรุ่นของคุณที่นี่ทำไมคุณใช้ 32 เป็นค่าเฉลี่ยของข้อผิดพลาดของคุณ? นั่นคือการพิมพ์ผิดหรือมันสำคัญในบางวิธี?
gung - Reinstate Monica

@gung คุณเห็นที่ไหน 32 หากคุณหมายถึงrnorm(2^p, sd=2)โปรดทราบว่าอาร์กิวเมนต์แรกคือจำนวนคำไม่ใช่ค่าเฉลี่ย ค่าเฉลี่ยโดยค่าเริ่มต้นคือศูนย์และดังนั้นจึงไม่ได้ระบุไว้อย่างชัดเจน
whuber

โอ้ขอโทษ. ผมคิดว่าผมได้รับการสับสนrnorm()w /ซิก) N(μ,σ)
gung - Reinstate Monica

@ gung ฉันขอบคุณสำหรับโอกาสที่จะชี้แจงรหัสและดังนั้นจึงมีการแก้ไขบรรทัดที่กระทำผิด
whuber

11

คุณมีสิ่งนี้เกิดขึ้นบ่อยครั้งเมื่อคุณมีความรู้สึกร่วมกันในระดับสูงท่ามกลางตัวแปรอธิบายของคุณ ANOVA F คือการทดสอบร่วมกันว่า regressors ทั้งหมดจะร่วมกัน uninformative เมื่อ Xs ของคุณมีข้อมูลที่คล้ายกันโมเดลจะไม่สามารถให้อำนาจการอธิบายกับ regressor หนึ่งหรืออื่น ๆ แต่การรวมกันสามารถอธิบายความแปรปรวนในตัวแปรการตอบสนองได้มาก

นอกจากนี้ความจริงที่ว่าคุณดูเหมือนจะจัดการกับคุณตัวแปรเด็ดขาดราวกับว่าพวกเขาอย่างต่อเนื่องอาจเป็นปัญหา คุณมีข้อ จำกัด ที่ชัดเจนเช่นการชนตั้งแต่ 1 ถึง 2 มีผลเช่นเดียวกันกับเช่นเดียวกับการชนจาก 3 เป็น 4 บางครั้งก็ไม่เป็นไร แต่บ่อยครั้งที่มันไม่ได้ปีx1y


หากความผิดพลาดนั้นเป็นปัญหาคุณจะมีข้อผิดพลาดมาตรฐานสูงและอาจมีค่าสัมประสิทธิ์ขนาดใหญ่อย่างไม่น่าเชื่อบางทีอาจมีอาการผิดปกติ เพื่อให้แน่ใจว่านี่คือสิ่งที่เกิดขึ้นให้คำนวณปัจจัยเงินเฟ้อความแปรปรวน (VIFs) หลังจากการถดถอยของคุณ กฎง่ายๆคือการ collinearity เป็นปัญหาหาก VIF ที่ใหญ่ที่สุดมากกว่า 10 ถ้าเป็นเช่นนั้นคุณมีสองตัวเลือกจริง ๆ ที่นี่ หนึ่งคือการระบุรูปแบบอีกครั้งเพื่อลดการพึ่งพาใกล้เชิงเส้นโดยวางตัวแปรบางส่วนของคุณ ประการที่สองคือการได้รับตัวอย่างที่มีขนาดใหญ่และ / หรือดีกว่า (เป็นเนื้อเดียวกันน้อยกว่า)
Dimitriy V. Masterov

1
(+1) คำอธิบายนี้เป็นหนึ่งที่ดี แต่มันก็ไม่จำเป็นที่จะเชื่อปรากฏการณ์เพื่อพหุ: ความแตกต่างที่สำคัญคือระหว่างร่วมกันให้ข้อมูลและให้ข้อมูลที่ไม่ซ้ำกัน รวมถึงregressors ที่ไม่ได้เชื่อมโยงเพิ่มเติม(ซึ่งหลีกเลี่ยง multicollinearity ใด ๆ ) จะลดค่าเดิมในขณะที่ไม่เปลี่ยนแปลงค่าหลัง
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.