ฉันมีคำถามที่ฉันคิดว่าจะค่อนข้างพื้นฐานสำหรับผู้ใช้จำนวนมาก
ฉันใช้ตัวแบบการถดถอยเชิงเส้นเพื่อ (i) ตรวจสอบความสัมพันธ์ของตัวแปรอธิบายหลายตัวและตัวแปรตอบสนองของฉันและ (ii) ทำนายตัวแปรตอบสนองของฉันโดยใช้ตัวแปรอธิบาย
ตัวแปรอธิบายอย่างใดอย่างหนึ่ง X ดูเหมือนจะส่งผลกระทบต่อตัวแปรตอบกลับของฉันอย่างมาก เพื่อทดสอบมูลค่าเพิ่มของตัวแปรอธิบายนี้เพื่อวัตถุประสงค์ในการคาดการณ์นอกตัวอย่างของตัวแปรตอบสนองของฉันฉันใช้สองแบบจำลอง: model (a) ซึ่งใช้ตัวแปรอธิบายและแบบจำลองทั้งหมด (b) ซึ่งใช้ตัวแปรทั้งหมด ยกเว้นตัวแปร X สำหรับทั้งสองรุ่นฉันรายงานประสิทธิภาพนอกตัวอย่างเท่านั้น ปรากฏว่าทั้งสองรุ่นมีประสิทธิภาพเกือบเหมือนกัน กล่าวอีกนัยหนึ่งการเพิ่มตัวแปรอธิบาย X ไม่ได้ปรับปรุงการพยากรณ์นอกตัวอย่าง โปรดทราบว่าฉันยังใช้ model (a) เช่นโมเดลที่มีตัวแปรอธิบายทั้งหมดเพื่อค้นหาว่าตัวแปรอธิบาย X ส่งผลกระทบอย่างมากต่อตัวแปรตอบกลับของฉัน
คำถามของฉันคือ: จะตีความการค้นพบนี้ได้อย่างไร? ข้อสรุปที่ตรงไปตรงมาคือแม้ว่าตัวแปร X ดูเหมือนจะมีอิทธิพลต่อตัวแปรตอบสนองของฉันอย่างมีนัยสำคัญโดยใช้แบบจำลองที่อนุมานได้ แต่ก็ไม่ได้ปรับปรุงการทำนายนอกตัวอย่าง อย่างไรก็ตามฉันมีปัญหาในการอธิบายการค้นพบนี้เพิ่มเติม สิ่งนี้จะเป็นไปได้อย่างไรและอะไรคือคำอธิบายสำหรับการค้นพบนี้
ขอบคุณล่วงหน้า!
ข้อมูลเพิ่มเติม: ด้วย 'อิทธิพลอย่างมีนัยสำคัญ' ฉันหมายความว่า 0 ไม่รวมอยู่ในช่วงความหนาแน่นหลังสูงสุด 95% ของการประมาณพารามิเตอร์ (ฉันใช้วิธีเบส์) ในแง่บ่อยๆสิ่งนี้มีความสัมพันธ์กับการมีค่า p ต่ำกว่า 0.05 ฉันใช้ Priors แบบไม่กระจาย (แบบไม่กระจาย) สำหรับพารามิเตอร์โมเดลทั้งหมดของฉัน ข้อมูลของฉันมีโครงสร้างตามยาวและมีการสังเกตประมาณ 7000 รายการ สำหรับการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่างฉันใช้ 90% ของข้อมูลเพื่อให้พอดีกับโมเดลของฉันและ 10% ของข้อมูลเพื่อประเมินโมเดลโดยใช้การจำลองซ้ำหลายครั้ง นั่นคือฉันทำการทดสอบรถไฟแยกหลายครั้งและในที่สุดก็รายงานตัวชี้วัดประสิทธิภาพโดยเฉลี่ย