ฉันใช้การถดถอย OLS ขนาดใหญ่ที่ตัวแปรอิสระทั้งหมด (ประมาณ 400) เป็นตัวแปรจำลอง หากรวมทั้งหมดแล้วจะมีความสมบูรณ์แบบหลายค่า (ความแตกต่างของตัวแปรดัมมี่) ดังนั้นฉันต้องตัดตัวแปรตัวใดตัวหนึ่งก่อนที่จะทำการถดถอย
คำถามแรกของฉันคือสิ่งที่ควรละเว้นตัวแปร? ฉันได้อ่านแล้วว่าเป็นการดีกว่าถ้าละเว้นตัวแปรที่มีอยู่ในการสังเกตหลายครั้งแทนที่จะเป็นตัวแปรที่มีอยู่ในไม่กี่ตัวเท่านั้น (เช่นถ้าการสังเกตเกือบทั้งหมดเป็น "ผู้ชาย" หรือ "ผู้หญิง" และเพียงไม่กี่คนเท่านั้นที่ไม่รู้จัก "ละเว้น" ชาย "หรือ" หญิง ") เป็นธรรมหรือไม่?
หลังจากรันการถดถอยด้วยตัวแปรที่ละเว้นฉันสามารถประเมินค่าสัมประสิทธิ์ของตัวแปรที่ละเว้นได้เพราะฉันรู้ว่าค่าเฉลี่ยโดยรวมของตัวแปรอิสระทั้งหมดของฉันควรเป็น 0 ดังนั้นฉันจึงใช้ความจริงนี้เพื่อเปลี่ยนค่าสัมประสิทธิ์สำหรับทุก ตัวแปรที่รวมอยู่และรับการประมาณค่าสำหรับตัวแปรที่ละเว้น คำถามต่อไปของฉันคือว่ามีเทคนิคที่คล้ายกันบางอย่างที่สามารถใช้เพื่อประเมินข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของตัวแปรที่ตัดทิ้งหรือไม่ เนื่องจากฉันต้องเรียกใช้การถดถอยอีกครั้งโดยละเว้นตัวแปรที่แตกต่างกัน (และรวมถึงตัวแปรที่ฉันละเว้นในการถดถอยครั้งแรก) เพื่อรับการประเมินข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของตัวแปรที่ละเว้นเดิม
ในที่สุดฉันสังเกตเห็นว่าค่าสัมประสิทธิ์ประมาณที่ฉันได้รับ (หลังจากจัดศูนย์กลางอีกครั้งรอบศูนย์) จะแตกต่างกันเล็กน้อยขึ้นอยู่กับตัวแปรที่ถูกละเว้น ในทางทฤษฎีแล้วมันจะดีกว่าไหมถ้าใช้การถดถอยหลาย ๆ ตัวแต่ละตัวจะละเว้นตัวแปรที่ต่างกันแล้วเฉลี่ยค่าสัมประสิทธิ์ประมาณจากการถดถอยทั้งหมด