'' ตัวแปรที่สำคัญ '' ที่ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง - จะตีความได้อย่างไร


10

ฉันมีคำถามที่ฉันคิดว่าจะค่อนข้างพื้นฐานสำหรับผู้ใช้จำนวนมาก

ฉันใช้ตัวแบบการถดถอยเชิงเส้นเพื่อ (i) ตรวจสอบความสัมพันธ์ของตัวแปรอธิบายหลายตัวและตัวแปรตอบสนองของฉันและ (ii) ทำนายตัวแปรตอบสนองของฉันโดยใช้ตัวแปรอธิบาย

ตัวแปรอธิบายอย่างใดอย่างหนึ่ง X ดูเหมือนจะส่งผลกระทบต่อตัวแปรตอบกลับของฉันอย่างมาก เพื่อทดสอบมูลค่าเพิ่มของตัวแปรอธิบายนี้เพื่อวัตถุประสงค์ในการคาดการณ์นอกตัวอย่างของตัวแปรตอบสนองของฉันฉันใช้สองแบบจำลอง: model (a) ซึ่งใช้ตัวแปรอธิบายและแบบจำลองทั้งหมด (b) ซึ่งใช้ตัวแปรทั้งหมด ยกเว้นตัวแปร X สำหรับทั้งสองรุ่นฉันรายงานประสิทธิภาพนอกตัวอย่างเท่านั้น ปรากฏว่าทั้งสองรุ่นมีประสิทธิภาพเกือบเหมือนกัน กล่าวอีกนัยหนึ่งการเพิ่มตัวแปรอธิบาย X ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง โปรดทราบว่าฉันยังใช้ model (a) เช่นโมเดลที่มีตัวแปรอธิบายทั้งหมดเพื่อค้นหาว่าตัวแปรอธิบาย X ส่งผลกระทบอย่างมากต่อตัวแปรตอบกลับของฉัน

คำถามของฉันคือ: จะตีความการค้นพบนี้ได้อย่างไร? ข้อสรุปที่ตรงไปตรงมาคือแม้ว่าตัวแปร X ดูเหมือนจะมีอิทธิพลต่อตัวแปรตอบสนองของฉันอย่างมีนัยสำคัญโดยใช้แบบจำลองที่อนุมานได้ แต่ก็ไม่ได้ปรับปรุงการทำนายนอกตัวอย่าง อย่างไรก็ตามฉันมีปัญหาในการอธิบายการค้นพบนี้เพิ่มเติม สิ่งนี้จะเป็นไปได้อย่างไรและอะไรคือคำอธิบายสำหรับการค้นพบนี้

ขอบคุณล่วงหน้า!

ข้อมูลเพิ่มเติม: ด้วย 'อิทธิพลอย่างมีนัยสำคัญ' ฉันหมายความว่า 0 ไม่รวมอยู่ในช่วงความหนาแน่นหลังสูงสุด 95% ของการประมาณพารามิเตอร์ (ฉันใช้วิธีเบส์) ในแง่บ่อยๆสิ่งนี้มีความสัมพันธ์กับการมีค่า p ต่ำกว่า 0.05 ฉันใช้ Priors แบบไม่กระจาย (แบบไม่กระจาย) สำหรับพารามิเตอร์โมเดลทั้งหมดของฉัน ข้อมูลของฉันมีโครงสร้างตามยาวและมีการสังเกตประมาณ 7000 รายการ สำหรับการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่างฉันใช้ 90% ของข้อมูลเพื่อให้พอดีกับโมเดลของฉันและ 10% ของข้อมูลเพื่อประเมินโมเดลโดยใช้การจำลองซ้ำหลายครั้ง นั่นคือฉันทำการทดสอบรถไฟแยกหลายครั้งและในที่สุดก็รายงานตัวชี้วัดประสิทธิภาพโดยเฉลี่ย


2
เนื่องจากคุณใช้วิธีแบบเบย์ผลลัพธ์ของคุณจึงขึ้นอยู่กับข้อมูลของคุณเป็นอย่างมาก เนื่องจากการพึ่งพาการลดลงก่อนหน้าด้วยจำนวนข้อมูลที่เพิ่มขึ้นและการเพิ่มขึ้นของข้อมูลและการไม่เห็นด้วยก่อนหน้านี้จะเป็นประโยชน์สำหรับคุณในการให้ข้อมูลเกี่ยวกับการกระจายก่อนหน้าปริมาณข้อมูลและความสอดคล้องของข้อมูลเพียงอย่างเดียวเพื่อการกระจายก่อนหน้า
whuber

1
@ คนที่ฉันลืมที่จะพูดถึงว่าฉันเป็นเพียงการใช้นักบวช (ไม่รู้แจ้ง) กระจาย ดังนั้นฉันไม่รู้สึกว่าข้อมูลจำเพาะก่อนหน้าของฉันมีอะไรเกี่ยวข้องกับสิ่งที่ฉันค้นพบ ฉันค่อนข้างมั่นใจว่าตัวแบบการถดถอยเชิงเส้นที่เหมาะสมเป็นประจำจะส่งผลให้มีการค้นพบที่เหมือนกัน
dubvice

ขอบคุณ - ที่ช่วยแยกแยะคำอธิบายที่เป็นไปได้หลายประการ
whuber

1
คุณกำลังดัดแปลงโมเดลไปยังข้อมูลที่จัดไว้หรือใช้โมเดลที่คุณพอดีกับข้อมูลต้นฉบับของคุณหรือไม่? ในกรณีใดกรณีหนึ่งปัญหาที่เป็นไปได้คือคุณกำลังทำข้อผิดพลาด Type II กับข้อมูลที่จัดไว้ บางทีตัวแปรนั้นมีความเกี่ยวข้อง แต่คุณได้รับกำลังต่ำกว่าเดิม (ซึ่งในกรณีนี้คุณอาจประเมินค่าสูงเกินไปซึ่งอาจทำให้การคาดการณ์แย่ลง) หรือตัวแปรไม่เกี่ยวข้องและคุณทำข้อผิดพลาด Type I มีหลายเหตุผลที่สิ่งประเภทนี้อาจเกิดขึ้นได้
ผู้ชาย

1
ฉันได้ใช้หลายตัวชี้วัด: RSME, แม่และ AUC (ฉันยังพยายามที่จะทำนายว่าตัวแปร depedent ของฉันซึ่งต่อเนื่องหรือไม่นั้นอยู่ต่ำกว่าเกณฑ์ที่กำหนด)
dubvice

คำตอบ:


3

เมื่อตัวทำนายเฉพาะมีความสำคัญทางสถิติไม่ได้หมายความว่ามันจะปรับปรุงประสิทธิภาพการทำนายของโมเดลอย่างมาก ประสิทธิภาพการทำนายเกี่ยวข้องกับขนาดของเอฟเฟกต์มากขึ้น ตัวอย่างเช่นฟังก์ชั่นด้านล่างข้อมูลที่จำลองมาจากรูปแบบการถดถอยเชิงเส้นที่มีสองตัวพยากรณ์x1และx2และเหมาะกับทั้งสองรูปแบบหนึ่งที่มีทั้งสองx1และx2และเป็นหนึ่งเดียวกับx1คนเดียว x2ในฟังก์ชั่นที่คุณสามารถเปลี่ยนขนาดของผลสำหรับ ฟังก์ชั่นรายงานช่วงเวลาความเชื่อมั่นสำหรับค่าสัมประสิทธิ์ของx1และx2และR2 ค่าของแบบจำลองทั้งสองเป็นการวัดประสิทธิภาพการทำนาย

ฟังก์ชั่นคือ:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

ในฐานะผู้ตรวจสอบสำหรับค่าเริ่มต้นที่เราได้รับ

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

ดังนั้นx2เป็นสิ่งสำคัญและไม่รวมอยู่ในรูปแบบที่มีผลกระทบอย่างมากต่อR2.

แต่ถ้าเราตั้งขนาดเอฟเฟกต์เป็น 0.3 เราจะได้รับ:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

ค่าสัมประสิทธิ์ยังคงมีนัยสำคัญ แต่การปรับปรุงใน R2 เล็กมาก


การแบ่งแยกขั้วที่คลุมเครือระหว่างนัยสำคัญทางสถิติกับประสิทธิภาพการทำนายคือความหายนะของชีวิตการวิเคราะห์ของฉันในหลาย ๆ ทาง (+1 - และยินดีต้อนรับสู่ CV Prof. !)
usεr11852

-1

นี่เป็นสิ่งปกติที่เกิดขึ้นในการถดถอยหลายครั้ง สาเหตุที่พบบ่อยที่สุดคือตัวทำนายของคุณเกี่ยวข้องกัน คุณสามารถอนุมาน X จากค่าของตัวทำนายอื่น ๆ ดังนั้นในขณะที่มันมีประโยชน์สำหรับการทำนายว่ามันเป็นเพียงตัวทำนายเดียวที่คุณมีเมื่อคุณมีตัวทำนายอื่น ๆ ทั้งหมดมันก็ไม่ได้ให้ข้อมูลเพิ่มเติมมากนัก คุณสามารถตรวจสอบว่าเป็นกรณีนี้หรือไม่โดยการถดถอย X บนตัวทำนายอื่น ๆ ฉันจะอ้างถึงบทเกี่ยวกับการถดถอยเชิงเส้นในหนังสือออนไลน์ฟรีองค์ประกอบของการเรียนรู้ทางสถิติ


1
ดูเหมือนว่าคุณจะอธิบายถึงตัวแปรอธิบายที่ไม่สำคัญแทนที่จะจัดการกับสถานการณ์เฉพาะที่อธิบายไว้ในคำถาม
whuber

ฉันอธิบายตัวแปรอธิบายซึ่งมีความเกี่ยวข้องอย่างมากกับการตอบสนองของมันเอง (เช่นในการถดถอยอย่างง่าย) ซึ่งเป็นสิ่งที่ฉันเข้าใจว่าคำถามหมายถึง "X ดูเหมือนจะส่งผลกระทบต่อตัวแปรตอบสนองของฉันอย่างมีนัยสำคัญ"
Denziloe

แต่ในกรณีนี้ฉันจะไม่พบว่าตัวแปรอธิบายของฉันมีผลกระทบต่อตัวแปรตอบสนองของฉันใช่หรือไม่ บางทีฉันอาจไม่ได้อธิบายอย่างชัดเจนในคำถามของฉันในตอนแรก แต่ฉันใช้โมเดลที่มีตัวแปรอธิบายทั้งหมดเพื่อค้นหาว่าตัวแปรอธิบาย X มีอิทธิพลอย่างมากต่อตัวแปรตอบกลับของฉัน
dubvice

3
ฉันอ่านคำถามตามความหมายว่า Xมีความสำคัญในบริบทของการถดถอยหลายครั้ง ดูเหมือนว่าจะค่อนข้างชัดเจนจากการอ้างอิงถึง "ตัวแปรอธิบายหลายอย่าง" ฉันกังวลว่าคำตอบของคุณอาจทำให้ OP สับสน
whuber

1
ใช่แล้วคุณเข้าใจถูกต้อง นี่คือสิ่งที่ฉันหมายถึง ฉันหวังว่าจะอธิบายเรื่องนี้ดีพอในคำถามของฉัน
dubvice
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.