จำนวนการสังเกตขั้นต่ำสำหรับการถดถอยเชิงเส้นหลายครั้ง


12

ฉันกำลังถดถอยเชิงเส้นหลายเส้น ฉันมีการสังเกตการณ์ 21 ครั้งและตัวแปร 5 ตัว เป้าหมายของฉันคือการค้นหาความสัมพันธ์ระหว่างตัวแปร

  1. มีข้อมูลของฉันเพียงพอหรือไม่ที่จะทำการถดถอยหลายครั้ง?
  2. ผลการทดสอบทีเผยว่าตัวแปร 3 ตัวของฉันไม่มีนัยสำคัญ ฉันจำเป็นต้องทำการถดถอยอีกครั้งด้วยตัวแปรที่สำคัญ (หรือการถดถอยครั้งแรกของฉันเพียงพอที่จะได้ข้อสรุป) เมทริกซ์ความสัมพันธ์ของฉันมีดังนี้

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 และ var 2 เป็นตัวแปรต่อเนื่องและตัวแปรที่จัดหมวดหมู่ 3 ถึง 5 เป็นตัวแปรต่อเนื่องและ y เป็นตัวแปรตามของฉัน

มันควรจะกล่าวถึงตัวแปรสำคัญที่ได้รับการพิจารณาในวรรณคดีว่าปัจจัยที่มีอิทธิพลมากที่สุดในตัวแปรตามของฉันไม่ได้อยู่ในหมู่ตัวแปรถดถอยของฉันเนื่องจากข้อ จำกัด ของข้อมูลของฉัน ยังคงเหมาะสมที่จะทำการถดถอยโดยไม่มีตัวแปรสำคัญนี้หรือไม่?

นี่คือช่วงความมั่นใจของฉัน

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

คำตอบ:


17

กฎทั่วไปของหัวแม่มือ (ขึ้นอยู่กับเนื้อหาในหนังสือของ Frank Harrell กลยุทธ์การสร้างแบบจำลองการถดถอย ) คือถ้าคุณคาดว่าจะสามารถตรวจจับเอฟเฟกต์ขนาดที่สมเหตุสมผลด้วยพลังที่สมเหตุสมผลคุณต้องมีการสังเกตประมาณ 10-20 ต่อพารามิเตอร์ Harrell กล่าวถึงตัวเลือกมากมายสำหรับ "การลดมิติ" (ทำให้จำนวนโควาเรียต์ของคุณลดลงถึงขนาดที่สมเหตุสมผล) เช่น PCA แต่สิ่งที่สำคัญที่สุดคือเพื่อให้มีความมั่นใจในการลดขนาดของผลลัพธ์โดยไม่ได้มองที่ตัวแปรตอบสนอง การถดถอยอีกครั้งด้วยตัวแปรที่สำคัญอย่างที่คุณแนะนำข้างต้นเป็นความคิดที่ไม่ดีเกือบทุกกรณี

อย่างไรก็ตามเนื่องจากคุณติดอยู่กับชุดข้อมูลและชุดของโควาเรียตที่คุณสนใจฉันไม่คิดว่าการใช้การถดถอยหลายครั้งด้วยวิธีนี้จะผิดโดยกำเนิด ฉันคิดว่าสิ่งที่ดีที่สุดคือการยอมรับผลลัพธ์ที่ได้จากแบบจำลองเต็มรูปแบบ (อย่าลืมดูที่การประเมินจุดและช่วงความมั่นใจเพื่อดูว่าผลกระทบที่สำคัญคาดว่าจะ "ใหญ่" ในบางจริงหรือไม่ ความรู้สึกของโลกและไม่ว่าผลกระทบที่ไม่มีนัยสำคัญมีการประเมินจริงจะมีขนาดเล็กกว่าผลกระทบที่สำคัญหรือไม่)

เกี่ยวกับการวิเคราะห์โดยไม่ต้องคาดเดาว่าเขตข้อมูลของคุณมีความสำคัญหรือไม่: ฉันไม่รู้ มันขึ้นอยู่กับการอนุมานแบบที่คุณต้องการสร้างตามโมเดล ในความหมายที่แคบรูปแบบการถดถอยยังคงถูกกำหนดไว้อย่างดี ("อะไรคือผลกระทบเล็กน้อยของตัวทำนายเหล่านี้ในการตอบสนองนี้?") แต่บางคนในสาขาของคุณอาจพูดถูกต้องว่าการวิเคราะห์นั้นไม่สมเหตุสมผล มันจะช่วยสักหน่อยถ้าคุณรู้ว่าตัวทำนายที่คุณไม่ได้เกี่ยวข้องจากตัวทำนายที่รู้จักกันดี (ไม่ว่ามันจะเป็นอะไร) หรือตัวทำนายที่รู้จักกันดีนั้นคงที่หรือเกือบคงที่สำหรับข้อมูลของคุณ: อย่างน้อยคุณก็สามารถพูดได้ว่า สิ่งอื่นที่ไม่ใช่ตัวทำนายที่รู้จักกันดีนั้นมีผลต่อการตอบสนอง


ขอบคุณสำหรับความคิดเห็น แต่ฉันไม่เข้าใจว่าจุดตรวจสอบช่วงความมั่นใจคืออะไร
เพิ่มขึ้น

ตั้งแต่เบ็นตอบแฟรงค์ฉันจะตอบเบ็นและเขาสามารถแก้ไขฉันได้ถ้าเขามีอย่างอื่นในใจ เบ็นแนะนำ jsut โดยใช้แบบจำลองเต็มรูปแบบ อย่างน้อยคุณก็รู้ว่าคุณไม่ได้ทิ้งตัวแปรสำคัญออกมาจากชุดที่ 5 ปัญหา overfitting อาจทำให้การคาดการณ์เกิดความเสียหาย แต่อย่างน้อยคุณก็มีช่วงความมั่นใจสำหรับพารามิเตอร์และคุณสามารถรับช่วงความมั่นใจสำหรับการทำนายได้ ฉันคิดว่าสิ่งนี้จะทำงานได้ดีถ้าคุณมีปัญหาเรื่องความไม่แน่นอนและช่วงความเชื่อมั่นของพารามิเตอร์ทำให้คุณรู้ว่าค่าพารามิเตอร์อาจเป็น 0
Michael R. Chernick

หากแบบจำลองยังขาดตัวแปรที่คาดการณ์ไว้การทำนายอาจไม่ดีและการประเมินความแม่นยำของการทำนายตามข้อมูลที่ระบุอาจไม่ถูกต้อง กังวลเกี่ยวกับการสะกดผิดรุ่นและตรวจสอบส่วนที่เหลืออยู่เสมอ Frank Harrell เป็นสมาชิกที่ใช้งานเว็บไซต์นี้ ดังนั้นฉันหวังว่าคำถามนี้จะได้รับความสนใจของเขาและเราสามารถได้ยินได้โดยตรงจากเขา
Michael R. Chernick

คุณมักจะพลาดตัวแปรสำคัญและคุณไม่สามารถรู้ได้จริง ๆ ... ฉันแนะนำให้ดูช่วงความมั่นใจเพราะถามว่าตัวแปรสำคัญที่หรือไม่สูญเสียข้อมูลจำนวนมาก สถานการณ์หนึ่งอาจเป็นได้ว่าพารามิเตอร์ทั้งหมดของคุณมีขนาดใกล้เคียงกันโดยประมาณของผลกระทบ แต่ความไม่แน่นอนของตัวแปรเหล่านี้แตกต่างกันไปเพื่อให้บางส่วนมีความสำคัญและอื่น ๆ ไม่ได้ คุณไม่ต้องการสรุปในกรณีนี้ว่า "ตัวแปร A และ B มีความสำคัญตัวแปร C, D และ E ไม่ใช่" CIs จะให้ข้อมูลนี้แก่คุณ p<0.05
Ben Bolker

จากการอภิปรายฉันคิดว่าเนื่องจากขาดการสังเกตที่เพียงพอและขาดตัวแปรอิสระที่สำคัญที่สุดในชุดข้อมูลของฉันฉันต้องได้ข้อสรุป: 1 - ตัวแปรที่สำคัญไม่ใช่ตัวแปรที่ผ่านการทดสอบ t สิ่งสำคัญอย่างหนึ่งคือสิ่งที่ผ่านการทดสอบ t และช่วงความเชื่อมั่นไม่รวม 0 2 - ต้องตรวจสอบความเป็นปกติของสิ่งตกค้าง 3-matric correlation ต้องถูกตรวจสอบ
เพิ่มขึ้น

2

คำตอบสำหรับคำถามทั่วไปก็คือมันขึ้นอยู่กับปัจจัยหลายอย่างโดยมีปัจจัยหลักคือ (1) จำนวนโควาเรียต (2) ความแปรปรวนของค่าประมาณและค่าตกค้าง ด้วยตัวอย่างเล็ก ๆ คุณไม่มีอำนาจมากพอที่จะตรวจจับความแตกต่างจาก 0 ดังนั้นฉันจะดูความแปรปรวนโดยประมาณของพารามิเตอร์การถดถอย จากประสบการณ์ของฉันกับการสังเกต 21 ถดถอยด้วย 5 ตัวแปรไม่เพียงพอที่จะแยกแยะตัวแปร ดังนั้นฉันจะไม่เร็วเกินไปที่จะละทิ้งตัวแปรหรือไม่หลงรักสิ่งที่ปรากฏอย่างมีนัยสำคัญ คำตอบที่ดีที่สุดคือรอจนกว่าคุณจะมีข้อมูลมากขึ้น บางครั้งก็พูดง่าย แต่ทำยาก ฉันจะดูการถดถอยแบบขั้นตอนไปข้างหน้าและถอยหลังถอยหลังเพียงเพื่อดูว่าตัวแปรใดถูกเลือก หากค่าความแปรปรวนร่วมมีความสัมพันธ์กันสูงแสดงว่าอาจมีการเลือกชุดตัวแปรที่แตกต่างกันมาก Bootstrap โพรซีเดอร์การเลือกโมเดลตามที่จะเปิดเผยถึงความไวของการเลือกตัวแปรเพื่อการเปลี่ยนแปลงข้อมูล คุณควรคำนวณเมทริกซ์สหสัมพันธ์สำหรับ covariates บางทีแฟรงก์แฮร์เรลล์จะพูดถึงเรื่องนี้ เขาเป็นผู้เชี่ยวชาญอย่างแท้จริงในการเลือกตัวแปร ฉันคิดว่าอย่างน้อยเขาก็เห็นด้วยกับฉันว่าคุณไม่ควรเลือกแบบจำลองขั้นสุดท้ายโดยยึดตามจุดข้อมูล 21 จุดเท่านั้น


ขอบคุณสำหรับคำแนะนำของคุณ ฉันเพิ่มเมทริกซ์ความสัมพันธ์ของฉัน คุณคิดว่าเมทริกซ์สหสัมพันธ์นี้การถดถอยมีความสมเหตุสมผลหรือไม่? เพียงเน้นว่าฉันไม่สามารถรวบรวมข้อมูลได้มากขึ้นและฉันไม่ต้องการทำแบบจำลองหรือทำนาย ฉันแค่ต้องการค้นหาความสัมพันธ์ที่เป็นไปได้ระหว่างตัวแปรอิสระและตัวแปรตาม
เพิ่มขึ้น

เมทริกซ์ความสัมพันธ์อยู่ที่นั่นเพื่อให้คุณมีความคิดของ collinearity การประมาณอาจจะมีความแปรปรวนจำนวนมากดังนั้นความสำคัญทางสถิติจึงไม่ควรเป็นจุดสนใจ Ypu สามารถดูการวินิจฉัยการถดถอยเพื่อหา collinearity ที่อาจช่วยได้ แต่ฉันขอแนะนำให้ดูโมเดลย่อยหลายแบบเพื่อดูว่าการเปลี่ยนแปลงที่เหมาะสมและการรวมกันของตัวแปรใดที่ดูเหมือนว่าทำได้ดีและทำได้ไม่ดี ฉันคิดว่าจริง ๆ แล้วการ bootstrapping ข้อมูลจะแสดงบางอย่างเกี่ยวกับความเสถียรของตัวเลือกการทำนาย
Michael R. Chernick

1
แต่ไม่มีสิ่งใดจะชดเชยการขาดข้อมูลได้ ฉันคิดว่าคุณเพียงแค่ต้องการดูว่ามีหนึ่งหรือสองตัวแปรที่ดูเหมือนจะยืนหัวไหล่เหนือส่วนที่เหลือ แต่คุณอาจจะหาอะไรซักอย่าง
Michael R. Chernick

เราหมายถึงอะไรโดย covariates? สมมติว่าเรามีตัวแปรตัวทำนายxจากนั้นก็พูด x2นับเป็น covariate แยกกันไหม เกี่ยวกับx3, x4เป็นต้นเนื่องจากมีความสัมพันธ์ระหว่างตัวทำนายเหล่านี้บางอย่างสันนิษฐานว่าสัมประสิทธิ์ประมาณว่า "คุ้มค่า" น้อยกว่า 1 องศาอิสระ และ, พูด, เส้นโค้งการถดถอยหรือการถดถอยท้องถิ่นอื่น ๆ : เราต้องคำนึงถึงความจริงที่ว่ามีการใช้เพียงส่วนหนึ่งของการสังเกตในการสร้างส่วนประกอบหรือไม่? และถ้าเราใช้เคอร์เนลเพื่อใช้ตุ้มน้ำหนักให้กับตัวทำนายสิ่งนั้นจะมีผลต่อจำนวนการสังเกตที่ใช้จริงหรือ
สับสน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.