“ ตัวแปรดัมมี่” กับ“ ตัวแปรตัวบ่งชี้” สำหรับข้อมูลเล็กน้อย / หมวดหมู่


15

"ตัวแปร Dummy" และ "ตัวแปรตัวบ่งชี้"เป็นคำที่ใช้บ่อยในการติดป้ายกำกับเพื่ออธิบายความเป็นสมาชิกในหมวดหมู่ที่มีการเข้ารหัส 0/1; โดยปกติ 0: ไม่ใช่สมาชิกของหมวดหมู่ 1: สมาชิกของหมวดหมู่

เมื่อวันที่ 11/26/2014 การค้นหาอย่างรวดเร็วบน scholar.google.com (พร้อมเครื่องหมายคำพูด) จะแสดง "ตัวแปรจำลอง" ในบทความประมาณ 318,000 รายการและใช้ "ตัวแปรตัวบ่งชี้" ในบทความประมาณ 112,000 รายการ คำว่า "ตัวแปรดัมมี่" มีความหมายในคณิตศาสตร์ที่ไม่ใช่เชิงสถิติของ " ตัวแปรที่ผูกมัด " ซึ่งมีแนวโน้มที่จะเอื้อต่อการใช้ "ตัวแปรจำลอง" ในบทความที่จัดทำดัชนีมากขึ้น

คำถามที่เชื่อมโยงตามหัวข้อของฉัน:

  1. คำเหล่านี้มีความหมายเหมือนกันเสมอหรือไม่ (ภายในสถิติ)
  2. คำใดคำหนึ่งเหล่านี้เคยใช้กับการเข้ารหัสเด็ดขาดในรูปแบบอื่น ๆ (เช่นเอฟเฟ็กต์โค้ด , การเข้ารหัสเฮลเมอร์ ฯลฯ ) หรือไม่?
  3. เหตุผลทางสถิติหรือทางวินัยมีอะไรที่จะชอบหนึ่งคำมากกว่าที่อื่น?

4
ฉันมักจะใช้ "ตัวบ่งชี้ตัวแปร" สำหรับเงื่อนไขไบนารีเช่นเซ็กซ์อาจจะมีการกำหนดเป็นmaleที่มีค่าหรือ1 0หากมีตัวแปรเด็ดขาดที่มีมากกว่า 2 หมวดหมู่ที่ขยายออกเป็นตัวแปรตัวบ่งชี้สำหรับการเป็นสมาชิกในแต่ละระดับฉันจะใช้ "ตัวแปรจำลอง" เพื่ออธิบายชุดตัวแปรตัวบ่งชี้นั้น
Gregor - คืนสถานะโมนิก้า

2
ฉันคิดว่าคุณหมายถึงเพศอาจถูกเข้ารหัสเป็น 1 หรือ 0 เพศเป็นโครงสร้างที่ซับซ้อนกว่ามาก (สำหรับเรื่องเพศนั้นซับซ้อนกว่านี้เช่นกัน);)
Alexis

2
ชี้ให้เห็นอย่างชัดเจนแก้ไขsexแล้ว
Gregor - คืนสถานะโมนิก้า

2
ฉันมักจะเรียกตัวแปรตัวบ่งชี้maleเช่นที่ 1 หมายถึงจริง (ในกรณีนี้ชาย) และ 0 หมายถึงเท็จ (ในกรณีนี้หญิง) ถ้าฉันใช้ชื่อตัวแปรsexฉันจะต้องค้นหาวิธีที่ฉันเขียนตัวแปรนั้นทุกครั้งที่ฉันกลับไปที่ชุดข้อมูลนั้น
Maarten Buis

4
ฉันเคยได้ยินเรื่องราวต่าง ๆ ของ "ตัวแปรตัวจำลอง" ที่ฟังดูผิด ๆ และโชคร้ายที่ตีความผิดโดยผู้ชมที่ไม่ใช่ด้านเทคนิคซึ่งแสดงถึงการดูหมิ่นหรือดูถูกเหยียดหยาม พวกเขาน่าอายและน่าเชื่อถือพอที่จะทำให้ฉันกับคำ "ตัวบ่งชี้" คือตัวฉันที่ชัดเจนและตรงไปตรงมา
Nick Cox

คำตอบ:


12

ฉันจะบอกว่า "ตัวแปรดัมมี่" เป็นวิธีทั่วไปมากกว่าในการอ้างถึง (หนึ่งใน) ตัวแปรตัวเลขที่แสดงถึง (รวมกันเป็นตัวแทน) เป็นตัวทำนายหมวดหมู่; ดังนั้นคำนี้จึงใช้กับคำที่ใช้ในการเข้ารหัสของเฮลเมอร์ & เอฟเฟกต์ †ส่วนใหญ่เป็นเพราะการใช้ "หุ่น" เพื่อหมายถึง "การยืน" "ตัวแปรดัชนี" ผมเกี่ยวข้องกับฟังก์ชั่นตัวบ่งชี้ -So เหล่านั้นเท่านั้นสามารถเป็นหนึ่งหรือศูนย์เพื่อบ่งชี้ถึงการมีหรือไม่ได้มีคุณสมบัติบางอย่าง ดังนั้นคำที่ใช้เฉพาะกับผู้ใช้ในการอ้างอิงระดับการเข้ารหัส※ แน่นอนว่าบางคนใช้ "การเข้ารหัสแบบจำลอง" เพื่อหมายถึง "การเข้ารหัสระดับอ้างอิง"; พวกเขาน่าจะมีคำจำกัดความที่ จำกัด มากขึ้นของ "ตัวแปรจำลอง" หรือในอัตราใดก็ตามที่ควรจะมี

†และถ้าคุณไม่ได้เรียกบรรดา "หุ่น" สิ่งที่ทำคุณเรียกพวกเขา?

‡ดังนั้นเช่นหุ่นเป็นตัวแปรตัวบ่งชี้สำหรับเมื่อฉันคน TH U ฉันเป็นเพศชาย (เป็นสมาชิกของชุดM ): x ฉัน = 1 M ( U ฉัน ) = { 1 W ชั่วโมงE n U ฉันM 0 w h e n u iMxผมผมยูผมM

xผม=1M(ยูผม)={1Wชั่วโมงอีn ยูผมM0Wชั่วโมงอีn ยูผมM

โดยที่เป็นฟังก์ชันตัวบ่งชี้สำหรับการเป็นสมาชิกของM1M()M M

※หรือ @gung ได้ชี้ให้เห็นว่าการเข้ารหัสระดับหมายถึง


2
อืม ... คุณสามารถให้ลิงค์ไปยังแหล่งข้อมูลที่เป็นแรงบันดาลใจได้หรือไม่? จากประสบการณ์ของฉัน "ตัวแปรจำลอง" ใช้สำหรับการเข้ารหัส 0/1 จำนวนมาก ไม่แน่ใจว่าฉันเห็นหุ่นที่ใช้ตามที่คุณแนะนำและรู้ว่าคนอื่นใช้มันในทางตรงกันข้าม ตัวอย่างเช่น Alkharusi, H. (2012) "ตัวแปรเชิงหมวดหมู่ในการวิเคราะห์การถดถอย: การเปรียบเทียบการเข้ารหัสแบบจำลองและเอฟเฟ็กต์" วารสารการศึกษานานาชาติ 4 (2): 202–210
Alexis

2
ฉันไม่ได้พูดว่า "ตัวแปรจำลอง" ไม่ได้ใช้สำหรับการเข้ารหัส 0/1 เพียงว่ามันอาจถูกใช้ในความหมายทั่วไปมากกว่า
Scortchi - Reinstate Monica

1
อันที่จริงกระดาษที่คุณกล่าวถึงนั้นใช้การเข้ารหัสเอฟเฟกต์ "ตัวแปรจำลองที่ใช้กับค่า 1, 0 และ -1" (แน่นอนฉันคิดว่าพวกเขาควรจะเรียกว่า "การจำลองแบบหุ่น" อย่างอื่นถ้าพวกเขาจะพูดแบบนั้น)
Scortchi - Reinstate Monica

1
ถ้าใช่ ... จากคำถามที่ยกมาของคุณคุณมักจะเรียกพวกเขาว่า "ตัวแปรเชิงหมวดหมู่โดยใช้การเข้ารหัส XXX"
Alexis

2
ประเด็นนี้ทำโดย Knuth ที่ดีที่สุดในarxiv.org/abs/math/9205211เขาให้ความสำคัญกับแนวคิดของ KE Iverson ในระยะสั้นเราไม่จำเป็นต้องคิดค้นหรือเรียกใช้ฟังก์ชันตัวบ่งชี้ แต่ติดตามในการสนทนาอย่างเป็นทางการว่าซอฟต์แวร์ของเราทำอะไรให้เรา
Nick Cox

6

kk1) เมื่อมีตัวแปรเด็ดขาดเพียงอันเดียวผลลัพธ์นี้จะให้ผลลัพธ์ของแบบจำลองในแบบที่ง่ายและอาจเป็นที่ต้องการของบางคน (สำหรับตัวอย่างที่การใช้รูปแบบนี้ช่วยให้การเปรียบเทียบดอกเบี้ยดูคำตอบของฉันที่นี่:ทำไมค่าโดยประมาณจากตัวทำนายเชิงเส้นตรงที่ดีที่สุด (BLUP) จึงแตกต่างจากตัวประมาณค่าแบบเส้นตรงที่ดีที่สุด (BLUE) )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.