สมมติว่าสี่หมวดหมู่ของคุณเป็นสีตา (รหัส): น้ำตาล (1), สีน้ำเงิน (2), สีเขียว (3), สีน้ำตาลแดง (4) - การลงทะเบียน heterochromia, ม่วง, แดง, เทา, ฯลฯ ในขณะนี้
ในทางที่ไม่ (ที่ฉันยังสามารถจินตนาการ) เราจะหมายถึงว่าสีเขียวสีน้ำตาลหรือสีน้ำตาลแดง= 2 ×สีฟ้าเป็นรหัสของเราบ่งบอกถึงแม้ว่า3 = 3 × 1และ4 = 2 × 2= 3 ×= 2 ×3 = 3 × 14 = 2 × 2
ดังนั้น (เว้นแต่เราด้วยเหตุผลบางอย่างทำต้องการความหมายดังกล่าวจะลื่นในการวิเคราะห์ของเรา) เราจำเป็นต้องใช้การเรียงลำดับของการเข้ารหัสบาง การเข้ารหัสแบบจำลองเป็นตัวอย่างหนึ่งซึ่งจะกำจัดความสัมพันธ์ดังกล่าวจากเรื่องราวทางสถิติที่เราต้องการบอกเกี่ยวกับสีตา การเข้ารหัสเอฟเฟกต์และการเข้ารหัส Heckman เป็นตัวอย่างอื่น ๆ
อัปเดต:ตัวอย่างของคุณของตัวแปรสองตัวสำหรับสี่หมวดหมู่ไม่ตรงกับความเข้าใจในการใช้คำว่า "ดัมมี่โค้ด" ซึ่งโดยทั่วไปแล้วจะเป็นการแทนที่หมวดหมู่ (พูด 4) ด้วยตัวแปรดัมมี่k - 1 (เรียงลำดับการสังเกตตามหมวดหมู่):kk−1
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
ที่นี่หมวด 4 เป็นหมวดหมู่อ้างอิงโดยสมมติว่ามีค่าคงที่ในโมเดลของคุณเช่น:
y=β0+β1d1+β2d2+β3d3+ε
β0yβyβ0
β0
y=β1d1+β2d2+β3d3+β4d4+ε
ดังนั้นนี่จะเป็นประเด็นหนึ่งในการสร้างความสัมพันธ์เชิงปริมาณที่ไร้สาระระหว่างรหัสหมวดหมู่ที่ฉันพูดถึงในตอนแรก แต่ทำไมไม่ใช้การเข้ารหัสของผู้ใช้12331ตามที่คุณแนะนำ user12331-coding ตัวเลือก A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
คุณค่อนข้างถูกต้องที่จะชี้ให้เห็นว่าใครสามารถเป็นตัวแทนของ 4 ค่าโดยใช้ตัวแปรไบนารี 2 ตัว (เช่นสองบิต) น่าเสียดายที่วิธีการหนึ่งในนี้ (รหัส 1 สำหรับหมวดหมู่ 1 และ 2 และรหัส 2 สำหรับหมวดหมู่ 3 และ 4) ทำให้เกิดความคลุมเครือที่ระบุโดยเครื่องหมายคำถาม: มีค่าอะไรบ้าง
เอาล่ะวิธีการที่สองเรียกว่า user12331-coding candidate B:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
มี! ไม่มีความคลุมเครือใช่มั้ย ขวา! น่าเสียดายที่การเข้ารหัสทั้งหมดนี้แสดงถึงปริมาณตัวเลข 1-4 (หรือ 0–3) ในรูปแบบไบนารีซึ่งทำให้ไม่เกิดปัญหาในการให้ความสัมพันธ์เชิงปริมาณที่ไม่พึงประสงค์แก่หมวดหมู่
ดังนั้นความต้องการรูปแบบการเข้ารหัสอื่น
β