ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว


16

ฉันได้เรียนรู้ว่าสำหรับการสร้างแบบจำลองการถดถอยเราต้องดูแลตัวแปรเด็ดขาดโดยการแปลงให้เป็นตัวแปรจำลอง ตัวอย่างเช่นถ้าในชุดข้อมูลของเรามีตัวแปรเช่นตำแหน่ง:

Location 
----------
Californian
NY
Florida

เราต้องแปลงพวกเขาเช่น:

1  0  0
0  1  0
0  0  1

อย่างไรก็ตามขอแนะนำให้เราทิ้งตัวแปรดัมมี่หนึ่งตัวไม่ว่าจะมีตัวแปรจำลองกี่ตัว

ทำไมเราต้องละทิ้งตัวแปรจำลองหนึ่งตัว


3
เนื่องจากหุ่นจำลองที่สามสามารถอธิบายได้ว่าเป็นการรวมกันเชิงเส้นของสองตัวแรก: FL = 1 - (CA + NY)
chainD

@chainD แต่คำอธิบายสำหรับตัวแปร dummy มากกว่าสามตัวคืออะไร
Mithun Sarker Shuvro

2
ไม่ว่าผลรวมจะเป็น 1 น้อยกว่าจำนวนหมวดหมู่ทั้งหมดที่คุณมี ขยายตัวอย่างของคุณสมมติว่ามีการแสดงสถานะทั้งหมด 50 สถานะในชุดข้อมูล สำหรับบุคคลที่ระบุว่าคุณดูที่ 49 หุ่นแรกที่เกิดขึ้นเป็นศูนย์ทั้งหมดแล้วคุณรู้ว่าหุ่นตัวสุดท้ายคือ 1 แม้จะไม่ได้ดู (สมมติว่าทุกคนในชุดข้อมูลมาจากหนึ่งใน 50 รัฐ) กล่าวอีกนัยหนึ่งข้อมูลของหุ่นจำลองตัวสุดท้ายนั้นมีอยู่ในผลลัพธ์ของ 49 ตัวแรกดังนั้นต้องพูด
chainD

@chainD ขอบคุณ
Mithun Sarker Shuvro

1
ถ้าไม่ใช่ฤดูใบไม้ผลิไม่ใช่ฤดูร้อนและไม่ใช่ฤดูใบไม้ร่วงนั่นคือฤดูหนาว!
Stev

คำตอบ:


10

ใส่เพียงเพราะคุณสมบัติหมวดหมู่ของคุณหนึ่งระดับ (ที่นี่) กลายเป็นกลุ่มอ้างอิงในระหว่างการเข้ารหัสแบบจำลองสำหรับการถดถอยและซ้ำซ้อน ฉันอ้างถึงแบบฟอร์มที่นี่ "ตัวแปรเด็ดขาดของหมวดหมู่ K หรือระดับมักจะเข้าสู่การถดถอยเป็นลำดับของตัวแปรจำลอง K-1 จำนวนนี้เป็นสมมติฐานเชิงเส้นตรงในระดับความหมาย"

นี้จะกล่าวถึงอยู่แล้วที่นี้ดีมากคำตอบ stats.stackexchange

ผมก็บอกว่ามีเป็นหลักสูตรขั้นสูงโดย Yandex ใน Coursera ที่ครอบคลุมเรื่องนี้ในรายละเอียดมากขึ้นถ้าคุณยังคงมีข้อสงสัยโปรดดูที่นี่ หมายเหตุคุณสามารถตรวจสอบเนื้อหาของหลักสูตรได้ฟรีตลอดเวลา ;-)

อีกโพสต์ดีถ้าคุณต้องการคำอธิบายอย่างละเอียดที่มีจำนวนมากตัวอย่างที่มีมุมมองทางสถิติและไม่ได้ถูก จำกัด เพียงหุ่นเข้ารหัสดูนี้จากยูซีแอล (ใน R)

โปรดทราบว่าหากคุณใช้pandas.get_dummiesมีพารามิเตอร์คือdrop_firstเพื่อให้ได้รับหุ่น k-1 ออกจากระดับเด็ดขาด k โดยการลบระดับแรก โปรดทราบdefault = Falseว่าหมายถึงการอ้างอิงจะไม่ลดลงและ k หุ่นที่สร้างขึ้นจาก k เด็ดขาดระดับ!


4
ขอให้สังเกตว่านี่เป็นความจริงเฉพาะถ้าแบบจำลองของคุณมีจุดตัด (เช่นคำที่คงที่) มิฉะนั้นโดยใช้การเข้ารหัสแบบร้อนแรงและไม่ละทิ้งตัวแปรจำลองหนึ่งตัวคุณกำลังเพิ่มการสกัดกั้นโดยปริยาย
Elias Strehle

1

คุณไม่จำเป็นต้องเลื่อนระดับขึ้นอยู่กับกรณีการใช้งานของคุณ

ดู
ในกรณีใดเราไม่ควรปล่อยตัวแปรเด็ดขาดระดับแรก
และคำถามทั่วไปที่มากขึ้น
ในการเรียนรู้แบบมีผู้สอนเหตุใดจึงไม่ดีที่จะมีคุณลักษณะที่สัมพันธ์กัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.