ทำไมเราต้องเปลี่ยนตัวแปรหมวดหมู่ของหลอกตา


22

ฉันไม่แน่ใจว่าทำไมเราต้องจำลองตัวแปรโค้ดหลอกตา ตัวอย่างเช่นถ้าฉันมีตัวแปรเด็ดขาดที่มีค่าที่เป็นไปได้สี่ค่า 0,1,2,3 ฉันสามารถแทนที่ด้วยสองมิติ ถ้าตัวแปรมีค่า 0 มันจะมี 0,0 ในสองมิติถ้ามันมี 3 มันจะมี 1,1 ในสองมิติเป็นต้น

ฉันไม่แน่ใจว่าทำไมเราต้องทำเช่นนี้?

คำตอบ:


21

สมมติว่าสี่หมวดหมู่ของคุณเป็นสีตา (รหัส): น้ำตาล (1), สีน้ำเงิน (2), สีเขียว (3), สีน้ำตาลแดง (4) - การลงทะเบียน heterochromia, ม่วง, แดง, เทา, ฯลฯ ในขณะนี้

ในทางที่ไม่ (ที่ฉันยังสามารถจินตนาการ) เราจะหมายถึงว่าสีเขียวสีน้ำตาลหรือสีน้ำตาลแดง= 2 ×สีฟ้าเป็นรหัสของเราบ่งบอกถึงแม้ว่า3 = 3 × 1และ4 = 2 × 2=3×=2×3=3×14=2×2

ดังนั้น (เว้นแต่เราด้วยเหตุผลบางอย่างทำต้องการความหมายดังกล่าวจะลื่นในการวิเคราะห์ของเรา) เราจำเป็นต้องใช้การเรียงลำดับของการเข้ารหัสบาง การเข้ารหัสแบบจำลองเป็นตัวอย่างหนึ่งซึ่งจะกำจัดความสัมพันธ์ดังกล่าวจากเรื่องราวทางสถิติที่เราต้องการบอกเกี่ยวกับสีตา การเข้ารหัสเอฟเฟกต์และการเข้ารหัส Heckman เป็นตัวอย่างอื่น ๆ

อัปเดต:ตัวอย่างของคุณของตัวแปรสองตัวสำหรับสี่หมวดหมู่ไม่ตรงกับความเข้าใจในการใช้คำว่า "ดัมมี่โค้ด" ซึ่งโดยทั่วไปแล้วจะเป็นการแทนที่หมวดหมู่ (พูด 4) ด้วยตัวแปรดัมมี่k - 1 (เรียงลำดับการสังเกตตามหมวดหมู่):kk1

id  category  dummy1 dummy2 dummy3
 1         1       1      0      0
 2         1       1      0      0
 3         2       0      1      0
 4         2       0      1      0
 5         3       0      0      1
 6         3       0      0      1
 7         4       0      0      0
 8         4       0      0      0

ที่นี่หมวด 4 เป็นหมวดหมู่อ้างอิงโดยสมมติว่ามีค่าคงที่ในโมเดลของคุณเช่น:

y=β0+β1d1+β2d2+β3d3+ε

β0yβYβ0

β0

y=β1d1+β2d2+β3d3+β4d4+ε

ดังนั้นนี่จะเป็นประเด็นหนึ่งในการสร้างความสัมพันธ์เชิงปริมาณที่ไร้สาระระหว่างรหัสหมวดหมู่ที่ฉันพูดถึงในตอนแรก แต่ทำไมไม่ใช้การเข้ารหัสของผู้ใช้12331ตามที่คุณแนะนำ user12331-coding ตัวเลือก A:

id  category   code1  code2
 1         1       0      ?
 2         1       0      ?
 3         2       1      ?
 4         2       1      ?
 5         3       ?      0
 6         3       ?      0
 7         4       ?      1
 8         4       ?      1

คุณค่อนข้างถูกต้องที่จะชี้ให้เห็นว่าใครสามารถเป็นตัวแทนของ 4 ค่าโดยใช้ตัวแปรไบนารี 2 ตัว (เช่นสองบิต) น่าเสียดายที่วิธีการหนึ่งในนี้ (รหัส 1 สำหรับหมวดหมู่ 1 และ 2 และรหัส 2 สำหรับหมวดหมู่ 3 และ 4) ทำให้เกิดความคลุมเครือที่ระบุโดยเครื่องหมายคำถาม: มีค่าอะไรบ้าง

เอาล่ะวิธีการที่สองเรียกว่า user12331-coding candidate B:

id  category   code1  code2
 1         1       0      0
 2         1       0      0
 3         2       0      1
 4         2       0      1
 5         3       1      0
 6         3       1      0
 7         4       1      1
 8         4       1      1

มี! ไม่มีความคลุมเครือใช่มั้ย ขวา! น่าเสียดายที่การเข้ารหัสทั้งหมดนี้แสดงถึงปริมาณตัวเลข 1-4 (หรือ 0–3) ในรูปแบบไบนารีซึ่งทำให้ไม่เกิดปัญหาในการให้ความสัมพันธ์เชิงปริมาณที่ไม่พึงประสงค์แก่หมวดหมู่

ดังนั้นความต้องการรูปแบบการเข้ารหัสอื่น

β


5
ในขณะที่คำตอบนี้แสดงให้เห็นถึงเหตุผลว่าทำไมเราไม่สามารถใช้ตัวแปรหนึ่งตัว (นั่นคือเราต้องการ 'การเข้ารหัสบางส่วน') แต่ก็ไม่ได้ (ยัง) อธิบายว่าทำไมเราไม่สามารถทำได้ด้วยการพูดสองตัวแปร OP แนะนำในคำถาม
Glen_b -Reinstate Monica

@Glen_b ขอบคุณ ฉันหวังว่าการอัปเดตของฉันจะช่วยที่อยู่
Alexis

2
โปรดทราบว่าตัวแปรไบนารี 2 ตัวนั้นเพียงพอที่จะแสดง 4 หมวดหมู่ ((0,0), (0,1), (1,0), (1,1)] แต่ไม่ใช่วิธีที่เหมาะสมในการใช้รหัสจำลองเพื่อการวิเคราะห์ OP ดูเหมือนว่าจะเข้ารหัสไม่ถูกต้อง
Ellis Valentiner

@ user12202013 ใช่ ดังในตัวอย่างสุดท้ายของฉัน
Alexis

ถ้าฉันต้องทำการเข้ารหัสแบบไบนารีโดยใช้ตัวแปรสองตัวตามที่แนะนำโดย OP แต่ถ้าเป้าหมายคือการคาดคะเนแล้วตัวแยกประเภท / การถดถอยแบบไม่ใช่เชิงเส้น
tool.ish

1

คำถามของฉันคือคำถามที่ว่าการเข้ารหัสสี่สถานะที่เป็นไปได้โดยมีเพียงสองตัวแปรนั้นมีความหมายน้อยกว่าด้วยอัลกอริธึมการเรียนรู้ของเครื่องมากกว่าการใช้ 4 ตัวแปร

ตัวอย่างเช่นลองนึกภาพว่าคุณต้องการทำการถดถอยเชิงเส้นและการจับคู่ที่แท้จริงของคุณแมปค่า 0,1 และ 2 ถึง 0 และค่า 3 ถึง 1 คุณสามารถตรวจสอบได้อย่างรวดเร็วว่าไม่มีวิธีการเรียนรู้การทำแผนที่นี้ด้วยการถดถอยเชิงเส้นเมื่อเข้ารหัส ตัวแปร categorial ของคุณมีเพียงไบนารีสองตัว (ลองใส่ระนาบที่สอดคล้องกันในหัวของคุณ) ในทางกลับกันเมื่อคุณใช้การเข้ารหัส 1-Of-K สิ่งนี้จะไม่เป็นปัญหา


0

ทางเลือกของคุณยังเป็นรหัสจำลอง คุณเลือกรหัสจำลองที่แสดงความสัมพันธ์กับตัวแปรตามของคุณได้ดีที่สุด เช่นสีสามารถแสดงเป็น 1 จาก n หรือคุณสามารถเปลี่ยนเป็นส่วนประกอบ rgb ที่เป็นตัวเลขหรือคุณสามารถจัดหมวดหมู่: girly / muddy / ... 1 จาก n โดยทั่วไปหมายความว่าแต่ละอินสแตนซ์เรียนรู้แยกกันซึ่งดีถ้าไม่มีความสัมพันธ์ .. แต่ในกรณีที่มีความสัมพันธ์คุณกำลังสูญเสียข้อมูลของคุณ .. คุณต้องแยกค่าสัมประสิทธิ์สำหรับแต่ละอินสแตนซ์ของหมวดหมู่ ... พิจารณางานเป็นตัวแปรเด็ดขาด คุณอาจจัดหมวดหมู่เป็นเซกเตอร์ตลาดและอาวุโส

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.