ปัญหากับดักตัวแปร Dummy


10

ฉันใช้การถดถอย OLS ขนาดใหญ่ที่ตัวแปรอิสระทั้งหมด (ประมาณ 400) เป็นตัวแปรจำลอง หากรวมทั้งหมดแล้วจะมีความสมบูรณ์แบบหลายค่า (ความแตกต่างของตัวแปรดัมมี่) ดังนั้นฉันต้องตัดตัวแปรตัวใดตัวหนึ่งก่อนที่จะทำการถดถอย

คำถามแรกของฉันคือสิ่งที่ควรละเว้นตัวแปร? ฉันได้อ่านแล้วว่าเป็นการดีกว่าถ้าละเว้นตัวแปรที่มีอยู่ในการสังเกตหลายครั้งแทนที่จะเป็นตัวแปรที่มีอยู่ในไม่กี่ตัวเท่านั้น (เช่นถ้าการสังเกตเกือบทั้งหมดเป็น "ผู้ชาย" หรือ "ผู้หญิง" และเพียงไม่กี่คนเท่านั้นที่ไม่รู้จัก "ละเว้น" ชาย "หรือ" หญิง ") เป็นธรรมหรือไม่?

หลังจากรันการถดถอยด้วยตัวแปรที่ละเว้นฉันสามารถประเมินค่าสัมประสิทธิ์ของตัวแปรที่ละเว้นได้เพราะฉันรู้ว่าค่าเฉลี่ยโดยรวมของตัวแปรอิสระทั้งหมดของฉันควรเป็น 0 ดังนั้นฉันจึงใช้ความจริงนี้เพื่อเปลี่ยนค่าสัมประสิทธิ์สำหรับทุก ตัวแปรที่รวมอยู่และรับการประมาณค่าสำหรับตัวแปรที่ละเว้น คำถามต่อไปของฉันคือว่ามีเทคนิคที่คล้ายกันบางอย่างที่สามารถใช้เพื่อประเมินข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของตัวแปรที่ตัดทิ้งหรือไม่ เนื่องจากฉันต้องเรียกใช้การถดถอยอีกครั้งโดยละเว้นตัวแปรที่แตกต่างกัน (และรวมถึงตัวแปรที่ฉันละเว้นในการถดถอยครั้งแรก) เพื่อรับการประเมินข้อผิดพลาดมาตรฐานสำหรับค่าสัมประสิทธิ์ของตัวแปรที่ละเว้นเดิม

ในที่สุดฉันสังเกตเห็นว่าค่าสัมประสิทธิ์ประมาณที่ฉันได้รับ (หลังจากจัดศูนย์กลางอีกครั้งรอบศูนย์) จะแตกต่างกันเล็กน้อยขึ้นอยู่กับตัวแปรที่ถูกละเว้น ในทางทฤษฎีแล้วมันจะดีกว่าไหมถ้าใช้การถดถอยหลาย ๆ ตัวแต่ละตัวจะละเว้นตัวแปรที่ต่างกันแล้วเฉลี่ยค่าสัมประสิทธิ์ประมาณจากการถดถอยทั้งหมด


คุณช่วยอธิบายให้ชัดเจนว่าคุณหมายถึงอะไรโดย "ค่าเฉลี่ยโดยรวมของตัวแปรอิสระทั้งหมดของฉันควรเป็น 0" และคุณรู้ได้อย่างไร
onestop

โดยทั่วไปฉันต้องการประเมินตัวแปรทั้งหมดที่สัมพันธ์กับค่าเฉลี่ย (ค่าเฉลี่ยของตัวแปรทั้งหมด) ค่าสัมประสิทธิ์จากการถดถอยนั้นสัมพันธ์กับตัวแปรที่ละเว้น ดังนั้นเมื่อฉันลบค่าเฉลี่ยของสัมประสิทธิ์ทั้งหมด (รวมถึงสัมประสิทธิ์ของตัวแปรที่ละเว้นของ 0) จากค่าสัมประสิทธิ์แต่ละค่าตอนนี้ค่าที่ปรับจะเฉลี่ย 0 และค่าสัมประสิทธิ์แต่ละค่าสามารถดูได้ว่าเป็นระยะทางจากค่าเฉลี่ย
James Davison

คำตอบ:


8

คุณควรได้รับการประมาณการ "เดียวกัน" ไม่ว่าคุณจะละเว้นตัวแปรใด สัมประสิทธิ์อาจจะแตกต่างกัน แต่ประมาณการของปริมาณโดยเฉพาะอย่างยิ่งหรือความคาดหวังควรจะเหมือนกันในรูปแบบต่างๆทั้งหมด

ในกรณีง่าย ๆ ให้สำหรับผู้ชายและ 0 สำหรับผู้หญิง จากนั้นเรามีโมเดล: ตอนนี้ให้สำหรับผู้หญิง จากนั้น มูลค่าที่คาดหวังของสำหรับผู้หญิงและ\ สำหรับผู้ชายมันคือxi=1

E[yixi]=xiE[yixi=1]+(1xi)E[yixi=0]=E[yixi=0]+[E[yixi=1]E[yixi=0]]xi=β0+β1xi.
zi=1
E[yizi]=ziE[yizi=1]+(1zi)E[yizi=0]=E[yizi=0]+[E[yizi=1]E[yizi=0]]zi=γ0+γ1zi.
yβ0γ0+γ1β0+β1และ\γ0

ผลลัพธ์เหล่านี้แสดงให้เห็นว่าสัมประสิทธิ์จากทั้งสองรุ่นมีความสัมพันธ์กันอย่างไร ยกตัวอย่างเช่น- แบบฝึกหัดที่คล้ายกันโดยใช้ข้อมูลของคุณควรแสดงว่าค่าสัมประสิทธิ์ "แตกต่าง" ที่คุณได้รับนั้นเป็นเพียงผลรวมและความแตกต่างของกันและกันβ1=γ1


4

James ก่อนอื่นทำไมต้องทำการวิเคราะห์การถดถอย แต่ไม่ใช่ANOVA (มีผู้เชี่ยวชาญหลายคนในการวิเคราะห์ประเภทนี้ที่สามารถช่วยคุณได้)? ข้อดีสำหรับการวิเคราะห์ความแปรปรวนนั่นคือทั้งหมดที่คุณสนใจจริงในความแตกต่างในวิธีการของกลุ่มต่าง ๆ ที่อธิบายไว้โดยการรวมกันของตัวแปรหุ่น (ประเภทที่ไม่ซ้ำกันหรือโปรไฟล์) ถ้าคุณศึกษาผลกระทบของตัวแปรเด็ดขาดแต่ละตัวที่คุณใส่คุณอาจทำการถดถอยได้เช่นกัน

ฉันคิดว่าประเภทของข้อมูลที่คุณมีอยู่ที่นี่อธิบายไว้ในแง่ของการวิเคราะห์ร่วม : คุณลักษณะหลายอย่างของวัตถุ (เพศอายุการศึกษา ฯลฯ ) แต่ละประเภทมีหลายประเภทดังนั้นคุณจึงไม่ต้องใส่โปรไฟล์ที่ใหญ่ที่สุดทั้งหมดไม่ใช่แค่ หนึ่งตัวแปรจำลอง วิธีปฏิบัติทั่วไปคือการเขียนรหัสหมวดหมู่ภายในแอตทริบิวต์ดังต่อไปนี้ ( ลิงค์นี้อาจมีประโยชน์คุณอาจไม่ทำการวิเคราะห์ร่วมกันที่นี่ แต่การเข้ารหัสคล้ายกัน): สมมติว่าคุณมีหมวดหมู่ (สามอย่างที่คุณแนะนำชายหญิง ไม่ทราบ) จากนั้นโค้ดสองรายการแรกตามปกติคุณจะรวมถึงหุ่นสองตัว (ชายหญิง) ให้ถ้าเป็นชายถ้าเป็นผู้หญิงและn(1,0)(0,1)(1,1)ถ้าไม่ทราบ ด้วยวิธีนี้ผลลัพธ์จะถูกวางไว้โดยรอบคำว่าดัก อย่างไรก็ตามคุณอาจใช้รหัสในวิธีอื่นได้ แต่จะเสียความได้เปรียบในการตีความดังกล่าว ในการสรุปคุณวางหนึ่งหมวดหมู่จาก แต่ละหมวดหมู่และรหัสการสังเกตของคุณในวิธีที่อธิบายไว้ คุณรวมคำดักจับด้วย

การละเว้นหมวดหมู่โปรไฟล์ที่ใหญ่ที่สุดนั้นดีสำหรับฉันแม้ว่าจะไม่สำคัญก็ตามอย่างน้อยฉันก็ไม่ว่างเปล่า เนื่องจากคุณเขียนโค้ดตัวแปรในลักษณะเฉพาะความสำคัญร่วมทางสถิติของตัวแปรดัมมี่ที่รวมอยู่ (ทั้งชายหญิงสามารถทดสอบโดยการทดสอบ F) บ่งบอกถึงความสำคัญของการละเว้น

อาจเกิดขึ้นได้ว่าผลลัพธ์ต่างกันเล็กน้อย แต่อาจเป็นรหัสผิดที่มีอิทธิพลต่อสิ่งนี้หรือไม่


ขอให้อภัยถ้างานเขียนของฉันไม่ชัดเจนมันเป็นเที่ยงคืนในลิทัวเนีย
Dmitrij Celov

ทำไมคุณถึงไม่รู้จัก (-1, -1) แทนที่จะเป็น (0,0)?
siamii

1

คุณไม่ได้พิจารณาลักษณะที่แน่นอนของการวิเคราะห์ของคุณหรือไม่ วิธีนี้ตัวแปรแต่ละตัวจะแสดงถึงผลกระทบของคุณลักษณะ / แอตทริบิวต์นั้นเทียบกับค่าเฉลี่ยแกรนด์โดยรวมมากกว่าบางหมวดหมู่ที่ละเว้น ฉันเชื่อว่าคุณยังคงไม่มีสัมประสิทธิ์สำหรับหมวดหมู่ / คุณลักษณะอย่างใดอย่างหนึ่ง - ค่าที่คุณกำหนด -1 ถึง ถึงกระนั้นกับหุ่นจำนวนมากนี้ฉันจะคิดว่าค่าเฉลี่ยที่ยิ่งใหญ่จะทำให้กลุ่มการเปรียบเทียบมีความหมายมากกว่าหมวดหมู่ที่ละเว้นโดยเฉพาะ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.