เหตุใดเราจึงระงับการสกัดกั้นในการถดถอยเชิงเส้น


20

ในแพ็คเกจทางสถิติจำนวนมากรวมถึง SAS, SPSS และที่มากกว่านั้นมีตัวเลือก "ระงับการสกัดกั้น" ทำไมคุณต้องการทำเช่นนั้น?

คำตอบ:


16

หากมีเหตุผลบางอย่างที่คุณรู้ว่าตัด (โดยเฉพาะอย่างยิ่งถ้ามันเป็นศูนย์) คุณสามารถหลีกเลี่ยงการสูญเสียความแปรปรวนในข้อมูลของคุณสำหรับการประเมินสิ่งที่คุณรู้อยู่แล้วและมีความมั่นใจมากขึ้นในค่าที่คุณไม่ต้องประมาณการ

ตัวอย่างที่ค่อนข้างธรรมดาคือถ้าคุณรู้แล้ว (จากความรู้ในโดเมน) ว่าตัวแปรหนึ่งคือ (โดยเฉลี่ย) หลาย ๆ ตัวและคุณกำลังพยายามหาหลายตัว


ฉันไม่เข้าใจทั้งหมด แต่ในแบบจำลองที่ฉันสร้างใน R ฉันมีบางอย่างเช่น lm (a ~ b / c - 1) ซึ่งสร้างปฏิสัมพันธ์ระหว่าง b และ c และโดยการหยุดการสกัดกั้น ("- 1" ใน R) ฉันได้รับคำตอบที่ตีความได้ง่ายกว่าซึ่งเป็นหลักเหมือนกับว่าฉันไม่ระงับการสกัดกั้น อย่างใดการโต้ตอบทำให้เป็นไปได้
Wayne

คำตอบที่ตีความได้ง่ายขึ้นซึ่งเป็นหลักเดียวกัน? ที่ดูเหมือนจะขัดแย้งกัน บางทีคุณควรแนะนำสิ่งนี้เป็นคำถามใหม่?
Nick Sabbe

ถ้าฉันดูค่าสัมประสิทธิ์โดยมีการสกัดกั้นจะมี(การสกัดกั้น)และtempwarmer (หนึ่งในตัวแปรของฉันคือtempซึ่งสามารถอุ่นขึ้นหรือเย็นกว่า ) การตีความค่าสัมประสิทธิ์ที่ฉันต้องรู้ว่า(ตัด)โดยตรงสอดคล้องกับtempcoolerและtempwarmer + (ตัด)เป็นโดยตรง interpretable tempwarmer ถ้าฉันหยุดการสกัดกั้นฉันเห็นtempcoolerและtempwarmerโดยตรง บางทีการเล่นโวหารของสูตร R และการสร้างแบบจำลองเชิงเส้น แต่ ...
เวย์น

12

พิจารณากรณีของ covariate แน่ชัด 3 ระดับ หากมีการสกัดกั้นนั่นจะต้องมีตัวแปรตัวบ่งชี้ 2 ตัว การใช้การเข้ารหัสตามปกติสำหรับตัวแปรตัวบ่งชี้สัมประสิทธิ์สำหรับตัวแปรตัวบ่งชี้อย่างใดอย่างหนึ่งคือความแตกต่างเฉลี่ยเมื่อเปรียบเทียบกับกลุ่มอ้างอิง โดยการหยุดการสกัดกั้นคุณจะมี 3 ตัวแปรที่แสดงถึงการแบ่ง covariate แทนที่จะเป็นเพียง 2 สัมประสิทธิ์คือค่าประมาณค่าเฉลี่ยสำหรับกลุ่มนั้น อีกตัวอย่างที่ชัดเจนของการทำเช่นนี้คือในสาขารัฐศาสตร์ซึ่งอาจศึกษา 50 รัฐของสหรัฐอเมริกา แทนที่จะมีการสกัดกั้นและ 49 ตัวบ่งชี้ตัวแปรสำหรับรัฐมันมักจะดีกว่าที่จะระงับการสกัดกั้นและแทนที่จะมี 50 ตัวแปร


ง่ายมากในการตีความสัมประสิทธิ์เช่นนั้น
ความน่าจะเป็นทาง

1
ใช่ แต่มันแบ่งย่อยด้วยตัวแปรเด็ดขาดสองตัวหรือมากกว่า!
kjetil b halvorsen

2

เพื่อแสดงจุดของ @Nick Sabbe ด้วยตัวอย่างที่เฉพาะเจาะจง

ฉันเคยเห็นนักวิจัยนำเสนอแบบจำลองอายุของต้นไม้เป็นฟังก์ชั่นความกว้างของมัน สามารถสันนิษฐานได้ว่าเมื่อต้นไม้อยู่ที่อายุศูนย์มันจะมีความกว้างเป็นศูนย์อย่างมีประสิทธิภาพ ดังนั้นการสกัดกั้นจึงไม่จำเป็น


8
ภูมิปัญญาหรือการขาดมันขึ้นอยู่กับช่วงของตัวแปรตามความสนใจ พิจารณาข้อมูลการเบรกรถยนต์ที่คุณมีความเร็วและหยุดระยะทาง คุณสามารถใส่แบบจำลองกำลังสองที่มีหรือไม่มีการสกัดกั้น ความเร็วที่น่าสนใจมักจะเริ่มต้นที่ประมาณ 50 กม. / ชม. และขึ้นไปกล่าวคือ 130 กม. / ชม. ฉันคิดว่าการใส่กำลังสองกับการสกัดกั้นในกรณีนี้สมเหตุสมผลมากขึ้นเนื่องจากการบังคับให้การสกัดกั้นเป็นศูนย์สามารถทำให้เกิดปัญหาการขาดความพอดีที่สำคัญ (ในทางปฏิบัติ) ความจริงที่ว่า "ระยะเบรก" ของรถหยุดนั้นเป็นศูนย์ไม่เกี่ยวข้องโดยเฉพาะกับปัญหาการสร้างแบบจำลองในมือ
พระคาร์ดินัล

@ คาร์ดินัลใช่ฉันสงสัยว่าฉันควรจะทำในจุดที่คล้ายกัน ฉันได้พบในการสร้างแบบจำลองการถดถอยแบบไม่เชิงเส้นบางบริบทมีความสนใจมากขึ้นในการมีแบบจำลองที่ให้แบบจำลองที่มีเหตุผลในทางทฤษฎีซึ่งทำนายได้อย่างแม่นยำนอกขอบเขตของข้อมูล (เช่นในการเรียนรู้ความเร็วโค้งข้อมูล ) ในกรณีดังกล่าวที่ จำกัด การสกัดกั้นให้เป็นศูนย์อาจจะเหมาะสมกว่าแม้ว่าจะส่งผลให้การคาดการณ์ของข้อมูลลดลง
Jeromy Anglim

@cardinal ฉันเห็นด้วยกับโมเดลพหุนามที่ไม่ค่อยคาดการณ์ว่ามีแนวโน้มที่จะอยู่นอกขอบเขตของข้อมูลและทำให้การ จำกัด การสกัดกั้นเป็น 0 ในแบบจำลองเหล่านี้ไม่ค่อยเป็นความคิดที่ดี
Jeromy Anglim

ขอบคุณสำหรับความคิดเห็นของคุณ คำพูดของฉันไม่ได้มุ่งเป้าไปที่โมเดลพหุนามมากนัก ทางเลือกของกำลังสองนั้นขึ้นอยู่กับแรงจูงใจทางกายภาพที่แท้จริง (เช่นกลศาสตร์แบบดั้งเดิม) ประเด็นที่ฉันพยายามที่จะพูดให้ชัดเจนคือเราควรพิจารณาปัญหาการสร้างแบบจำลองที่น่าสนใจอย่างรอบคอบ บางครั้งการทำสิ่งที่ (หรือดูเหมือน) "ในทางทฤษฎีไม่ยุติธรรม" เป็นจริงที่เหมาะสมกว่าสถิติ
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.