เหตุใดจึงมีการเข้ารหัสรหัสเพศ 0/1 แทนที่จะเป็น 1/2


25

ฉันเข้าใจตรรกะของการเข้ารหัสสำหรับการวิเคราะห์ข้อมูล คำถามของฉันด้านล่างเป็นการใช้รหัสเฉพาะ

  • มีเหตุผลใดที่รหัสเพศมักจะเป็น 0 สำหรับผู้หญิงและ 1 สำหรับผู้ชาย?
  • ทำไมการเข้ารหัสนี้จึงถือเป็น 'มาตรฐาน'
  • เปรียบเทียบสิ่งนี้กับหญิง = 1 และชาย = 2 มีปัญหากับการเข้ารหัสนี้หรือไม่?

15
การใช้ชุดรูปแบบการเข้ารหัส 0/1 นั้นมีประโยชน์เป็นหลักเมื่อใช้ตัวแบบการถดถอยในกลุ่มอื่น ๆ แม้ว่าจะมีรูปแบบการเข้ารหัสหลายแบบที่เป็นไปได้เช่น -1/1 (แต่จะเปลี่ยนการตีความค่าสัมประสิทธิ์การถดถอย) ไม่ควรสับสนกับการป้อนข้อมูล (นั่นคือสิ่งที่คุณใส่ไว้ในฐานข้อมูลของคุณ) ในกรณีนี้มันจะดีกว่าที่จะเก็บฉลากเต็ม แปลงเป็นค่าตัวเลขหรือสร้างเมทริกซ์การออกแบบเฉพาะเมื่อคุณสร้างแบบจำลองการถดถอยของคุณ มิฉะนั้นฉันขอให้คุณโชคดีที่จะบอกว่า 0 และ 1 เป็นอย่างไรใน 5 ปี
chl

ฉันเคยเห็นรหัสเพศในฐานข้อมูลเป็นเพศชายเพศหญิงและไม่รู้จัก
Aksakal

2
ฉันคิดว่าคำถามนี้ถือว่าดีที่สุดเพราะเป็นสองคำถามที่สับสน คำถามที่ใหญ่กว่าคือสาเหตุที่ใช้การเข้ารหัส 0-1 แทนที่จะเป็นตัวบ่งชี้หรือตัวแปรจำลอง คำถามที่เล็กกว่าคือทำไมใช้ 1 สำหรับผู้ชายและ 0 สำหรับผู้หญิงซึ่งคำตอบสั้น ๆ หนึ่งคือการใช้ codings อื่น ๆ อีกมากมายรวมถึงตรงข้ามกับ 1 สำหรับผู้หญิง ฯลฯ และยังมี codings ที่ซับซ้อนมากมายที่อนุญาตให้มีเพศที่ไม่รู้จักและ หมวดหมู่เพศอื่น ๆ
Nick Cox

คำตอบ:


38

เหตุผลที่ชอบการเข้ารหัสไบนารีของ zero-one:

  • ค่าเฉลี่ยของตัวแปร zero-one แสดงถึงสัดส่วนในหมวดหมู่ที่แสดงโดยค่าหนึ่ง (เช่นเปอร์เซ็นต์ของเพศชาย)
  • ในการถดถอยแบบง่ายโดยที่xคือตัวแปร zero-one ค่าคงที่มีการตีความตรงไปตรงมา (เช่นaคือค่าเฉลี่ยของyสำหรับผู้หญิง)y=a+bxxay
  • การเข้ารหัสของตัวแปรไบนารีใด ๆ ที่ความแตกต่างระหว่างสองค่าคือหนึ่ง (เช่นศูนย์หนึ่ง แต่ยังหนึ่งสอง) ให้การตีความตรงไปตรงมากับสัมประสิทธิ์การถดถอย (เช่นคือผลของการไปจากหญิงกับชายใน y)b

จุดต่าง ๆ เกี่ยวกับการเข้ารหัสตัวแปรไบนารี:

  • การเข้ารหัสของตัวแปรไบนารีใด ๆ ที่รักษาลำดับของหมวดหมู่ (เช่น female = 0, male = 1; female = 1, male = 2; female = 1007, Male = 2000; ฯลฯ ) จะไม่มีผลต่อความสัมพันธ์ของ ตัวแปรไบนารีพร้อมตัวแปรอื่น ๆ
  • ตารางใด ๆ ที่รายงานตัวแปรไบนารีด้วยวิธีนี้ควรทำให้ชัดเจนว่ามีการเข้ารหัสตัวแปรอย่างไร นอกจากนี้ยังสามารถเป็นประโยชน์กับป้ายตัวแปรตามหมวดหมู่ที่เป็นตัวแทนของความคุ้มค่าของหนึ่ง: เช่นมากกว่าy = a + b * Maley = a + b * Gender
  • สำหรับตัวแปรไบนารี่บางประเภทควรมีรหัสหนึ่งหมวดหมู่โดยธรรมชาติ ตัวอย่างเช่นเมื่อดูที่ความแตกต่างระหว่างการรักษาและการควบคุมการควบคุมควรเป็นศูนย์และการรักษาควรเป็นหนึ่งเนื่องจากสัมประสิทธิ์การถดถอยเป็นความคิดที่ดีที่สุดว่าเป็นผลของการรักษา
  • การพลิกหมวดหมู่ (เช่นการทำให้ตัวเมีย = 1 และตัวผู้ = 0 แทนที่จะเป็นตัวเมีย = 0 และตัวผู้ = 1) จะพลิกสัญลักษณ์ของสหสัมพันธ์และสัมประสิทธิ์การถดถอย
  • ในกรณีของเพศนั้นโดยทั่วไปแล้วไม่มีเหตุผลตามธรรมชาติในการกำหนดตัวแปรตัวเมีย = 0, ตัวผู้ = 1, เมื่อเทียบกับตัวผู้ = 0, ตัวเมีย = 1 อย่างไรก็ตามการประชุมอาจแนะนำการเข้ารหัสหนึ่งครั้งที่ผู้อ่านคุ้นเคย หรือเลือกการเข้ารหัสที่ทำให้สัมประสิทธิ์การถดถอยเป็นบวกอาจทำให้การตีความง่ายขึ้น นอกจากนี้ในบางบริบทเพศหนึ่งอาจถูกมองว่าเป็นหมวดหมู่อ้างอิง ตัวอย่างเช่นหากคุณกำลังศึกษาผลกระทบของการเป็นผู้หญิงในอาชีพที่ผู้ชายมีต่อรายได้อาจทำให้รหัส = 0 และเพศหญิง = 1 เพื่อพูดถึงผลของการเป็นผู้หญิง
  • การปรับสเกลสัมประสิทธิ์การถดถอยในรูปแบบที่รอบคอบสามารถมีผลกระทบอย่างมีประสิทธิภาพต่อการตีความของสัมประสิทธิ์การถดถอย Andrew Gelman พูดถึงเรื่องนี้ค่อนข้างน้อย ดูตัวอย่างการป้อนข้อมูลการถดถอยมาตราส่วนกระดาษของปี 2551 โดยหารด้วยค่าเบี่ยงเบนมาตรฐานสองค่า (PDF)ในสถิติทางการแพทย์ , 27, 2865-2873
  • การเข้ารหัสตัวผู้และตัวเมียเป็น -1 และ +1 เป็นอีกตัวเลือกหนึ่งที่สามารถให้ค่าสัมประสิทธิ์ที่มีความหมาย (ดู"การเข้ารหัสเอฟเฟกต์คืออะไร" )

18
อืมฉันคิดเสมอว่าเหตุผลตามธรรมชาติที่ให้รหัสตัวเมีย = 0 และตัวผู้ = 1 คือ "กายวิภาค" ...
แมตต์พาร์กเกอร์

2
@ แมทตลก ฉันไม่เคยคิดเช่นนั้น ฉันมักจะได้รับอิทธิพลจากเลนส์ในระดับศิลปะของฉันซึ่งคุณได้รับการสอนเกี่ยวกับวิธีการวิพากษ์วิจารณ์อุดมการณ์ของนักสตรีนิยมที่เห็นผู้หญิงกำหนดโดยการขาดสิ่งที่ผู้ชายครอบครอง ผ่านเลนส์ดังกล่าวค่อนข้างตลกที่เข้ารหัสเพศกลายเป็นปัญหาทางการเมือง :-)
Jeromy Anglim

13
ในฐานะที่เป็นนิสัยฉันมักจะเปลี่ยนชื่อตัวแปรเพศเป็น "หญิง" เพื่อให้ชัดเจนว่ารูปแบบการเข้ารหัส 0/1 หมายถึงอะไร
Fomite

Jeromy คุณต้องการที่จะสังเกตการสนทนาstats.meta.stackexchange.com/a/4881/3277ว่าเราต้องการแท็กแยก [ตัวแปรตัวจำลอง] และพูดความคิดเห็นของคุณหรือไม่?
ttnphns

เมื่อพิจารณาจากโครโมโซมเพศ X และ Y ตัวเมียมี XX และตัวผู้มีโครโมโซม XY จาก X = 0 และ Y = 1 เราจะพบว่าตัวเมีย = XX = 00 = 0 และตัวผู้ = XY = 01 = 1
Gürol Canbek

14

ทำให้การตีความผลลัพธ์ง่ายขึ้น สมมติว่าคุณมีข้อมูลส่วนสูง:

Woman A: 165
Woman B: 170
Woman C: 175
Man D: 170
Man E: 180
Man F: 190 

Height = a + b * Gender + Residualและคุณเอาการถดถอยของรูปแบบ

ด้วยตัวแปรดัมมี่ 0,1 คุณจะได้รับการประมาณa170 เป็นความสูงเฉลี่ยของผู้หญิงและbจาก 10 เป็นความแตกต่างระหว่างความสูงเฉลี่ยของผู้ชายและผู้หญิง

ด้วยตัวแปร 1,2 ตัวคุณจะได้ค่าประมาณa160 ซึ่งยากต่อการตีความ


ขอบคุณ ฉันกำลังเรียนรู้สถิติที่ 'แสงแห่งแสง' เพราะมันเป็นข้อกำหนดของงานใหม่ของฉัน การเข้ารหัสนี้จะใช้กับการวิเคราะห์สหสัมพันธ์หรือไม่
Adhesh Josh

1
@Adhesh หากคุณหมายถึงความสัมพันธ์ระหว่างสองตัวแปรเชิงปริมาณแล้วไม่มีปัญหาการเข้ารหัส: เพียงใช้มาตรการดิบ หากคำถามของคุณเกี่ยวกับการเชื่อมโยงระหว่างตัวแปรเชิงคุณภาพสองตัวคุณอาจลองถามคำถามใหม่ แต่ในกรณีนี้มีปัญหาไม่ยากนัก (ยกเว้นกรณีที่คุณต้องการใช้คะแนนระยะห่างที่ไม่เท่ากันสำหรับหมวดหมู่ตัวแปร เว็บไซต์).
chl

4
@Adesh การเข้ารหัสไบนารี 1/2 หรือ 0/1 จะทำให้คุณไม่ส่งผลต่อค่าสัมประสิทธิ์สหสัมพันธ์ของคุณ 0/1 ยังมีข้อได้เปรียบที่ว่าค่าเฉลี่ยของตัวแปรจะเป็นเปอร์เซ็นต์ของชายหรือหญิงขึ้นอยู่กับว่ามันอยู่ที่ไหน รูปแบบการเข้ารหัสอื่น ๆ อาจเป็นประโยชน์สำหรับการตีความการวิเคราะห์ประเภทต่างๆ
Michael Bishop

2

ฉันสันนิษฐานว่าเป็นเพราะประเภทเขตข้อมูลมักใช้เพื่อเก็บเพศเป็นเขตข้อมูลบิตและเขตข้อมูลบิตใน SQL สามารถมีค่าเป็น 0 หรือ 1 เท่านั้นเมื่อคุณถ่ายโอนข้อมูลออกมามันจะเป็น 0 หรือ 1 และ นั่นคือเหตุผลที่คุณได้รับคุณค่าเหล่านั้น

หากคุณต้องการใช้ 1 และ 2 คุณจะต้องใช้ประเภทฟิลด์ที่ใหญ่กว่าซึ่งจะใช้พื้นที่มากขึ้นและทำให้ฐานข้อมูลทั้งหมดใหญ่ขึ้นเล็กน้อย


ในฐานะโปรแกรมเมอร์ SQL นี่เป็นปฏิกิริยาแรกของฉันเช่นกัน ฉันไม่แน่ใจเกี่ยวกับเหตุผลทางคณิตศาสตร์ที่บริสุทธิ์สำหรับการใช้ 0 และ 1 สำหรับเพศ แต่ฉันรู้ว่าข้อเท็จจริงที่ว่าแรงผลักดันบางอย่างมาจากความต้องการใช้ชนิดข้อมูลที่เล็กที่สุดเท่าที่จะเป็นไปได้ มาตรฐานทั่วทั้งอุตสาหกรรมได้รับการพัฒนาตามธรรมเนียมและทุกคนตกหลุม มันอาจจะคุ้มค่าที่จะตรวจสอบประวัติมาตรฐาน ANSI สำหรับเรื่องนี้ วันนี้มีการผลักดันให้ DBA ใช้ไบต์หรือคอลัมน์จำนวนเต็มขนาดเล็กสำหรับเพศเพื่อระบุข้อยกเว้นที่ผิดปกติเช่น "นิติบุคคล" หรือ "ไม่แน่นอน" แต่ฐานข้อมูลเก่าหลายแห่งยังคงสะท้อนมาตรฐานเดิม
SQLServerSteve

2

ฉันมีศาสตราจารย์แนะนำให้เราเขียนโค้ด "ทางชีวภาพ" โดยที่ผู้หญิงอายุ 0 และผู้ชายอายุ 1 - เพื่อสะท้อนกายวิภาค ฉันไม่คิดว่ามันเป็นสิ่งที่อ่อนไหวที่สุดหรือสิ่งที่พีซีจะพูดในชั้นเรียน แต่แน่นอนจำได้ง่ายเมื่อมองไปที่ชุดข้อมูล 5 ปีต่อมา


ชัดเจนว่านี่ไม่ใช่คำตอบที่ "จริง" สำหรับคำถาม (บางทีนี่อาจเป็นความคิดเห็นมากกว่าคำตอบ) แต่ความจำช่วยจำได้ชัดเจนว่าผู้คนจำนวนมากพบว่ามีประโยชน์
Silverfish

มากกว่า "ทางชีววิทยา" มากกว่า "กายวิภาค" ฉันได้รับการสอน (แม้ว่าฉันสงสัยว่า "เหตุผล" ถูกคิดค้นในการหวนกลับมากกว่าเดิม) ที่ 0 ใช้สำหรับเพศหญิงเพราะเป็นเพศ "เริ่มต้น" - ความเชื่อที่เป็นใน การพัฒนาของตัวอ่อนนั้นทางเดินเพศหญิงจะได้รับยกเว้นว่ากระบวนการแทรกแซงผลักตัวอ่อนเพื่อแยกความแตกต่างระหว่างทางเดินของตัวผู้ ครั้งนี้เป็นความเชื่อที่แพร่หลาย แต่ตอนนี้ถือว่าเก่าแล้ว : ทางเดินผู้หญิงก็ต้องถูกกระตุ้นอย่างแข็งขัน
Silverfish

1
ในกรณีนี้ผู้ชายไม่ควรถูกใช้รหัสเป็น "00"
Harvey Motulsky

1

เหตุผลที่ดีมากมายที่โพสต์ไว้ แต่ก็ควรจะสะท้อนกลับ ทำไมคุณเริ่มนับที่ 1 มันทำให้อัลกอริธึมเชิงตัวเลขมากมายซับซ้อนกว่ามาก การติดป้ายกำกับเริ่มต้นที่ 0 ไม่ใช่ 1 หากคุณยังไม่มั่นใจในเรื่องนี้ฉันมีตัวอย่างที่ดีว่าทำไมจึงเป็นเรื่องสำคัญที่http://madhadron.com/?p=69

สำหรับสาเหตุที่ผู้หญิงเป็น 0 และผู้ชายเป็น 1 โปรดจำไว้ว่าในประวัติศาสตร์ส่วนใหญ่ของสถิติมีแนวโน้มที่จะเป็นชายตรง เมื่อถูกถามให้ตั้งชื่อเพศสิ่งแรกที่นึกได้คือ 'ผู้หญิง' ทุกอย่างหลังจากนั้นอาจเป็นอุบัติเหตุทางประวัติศาสตร์และหาเหตุผลเข้าข้างตนเอง


-1

มาตรฐาน ISO / IEC 5218การปรับปรุงมาตรฐานความคิดนี้กับแผนที่ต่อไปนี้:

0 = not known,
1 = male,
2 = female,
9 = not applicable.

สิ่งนี้มีประโยชน์อย่างยิ่งในภาษาที่ 0 รวมค่าเป็นเท็จเช่นใน JavaScript:

if ( !user.gender ) {
    promptForGender();
}

10
สิ่งสำคัญคือต้องทราบว่ามาตรฐานประเภทนี้มีไว้สำหรับการส่งข้อมูลและ / หรือการจัดเก็บข้อมูลจริงๆ มันไม่เพียงพอที่จะเป็นมาตรฐานสำหรับการวิเคราะห์ข้อมูลซึ่งเป็นคำถามที่เฉพาะเจาะจงเกี่ยวกับ
whuber

-2

วิธีที่ฉันเห็นมันเป็นการส่วนตัวคือ phallically 0 เป็นตัวแทนของผู้หญิงราวกับว่ามันเป็นรูปร่างของมดลูกและคิดว่าจะเป็นผู้หญิง ... ในเกือบทุกวิทยาศาสตร์ (เช่นในชีววิทยา / พันธุศาสตร์แผนภูมิสายเลือด) วงกลมหรือศูนย์ผู้หญิง ในกรณีที่มีรูปร่างตรงขอบมากขึ้น (สามเหลี่ยมสี่เหลี่ยมหรือ 1s) มีแนวโน้มที่จะเป็นตัวแทนของเพศชาย ความเข้าใจที่เรียบง่ายนี้ทำให้ฉันจำได้ง่ายเสมอสำหรับฉัน

แม้ว่าในตอนท้ายของวันหากคุณเป็นคนหนึ่งที่เข้ารหัสและวิเคราะห์ข้อมูลด้วยตัวเองคุณสามารถใส่ตัวเลขที่คุณต้องการได้โดยทั่วไปตราบใดที่ยังมีกุญแจที่ใช้ตัวแปรจำลองที่คุณใช้ซึ่งมันจะไม่เกี่ยวข้อง


2
แปลกตอบคำถามโง่ ๆ
Michael R. Chernick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.