เวลาที่ใช้ในกิจกรรมเป็นตัวแปรอิสระ


14

ฉันต้องการรวมเวลาที่ใช้ในการทำบางสิ่ง (เช่นการให้นมลูกเป็นสัปดาห์) เป็นตัวแปรอิสระในโมเดลเชิงเส้น อย่างไรก็ตามการสังเกตบางอย่างไม่ได้มีส่วนร่วมในพฤติกรรมเลย การเข้ารหัสเป็น 0 ไม่ถูกต้องเพราะ 0 นั้นมีคุณภาพแตกต่างจากค่าใด ๆ > 0 (นั่นคือผู้หญิงที่ไม่ได้ให้นมลูกอาจแตกต่างจากผู้หญิงที่ทำเช่นนั้นแม้แต่คนที่ไม่ได้ทำมานานมาก) สิ่งที่ดีที่สุดที่ฉันสามารถทำได้คือชุดของหุ่นที่แบ่งเวลาที่ใช้ออกไป แต่นี่เป็นข้อมูลที่มีค่า บางสิ่งบางอย่างที่เหมือนกับปัวซองที่มีค่าเป็นศูนย์สูงเกินไปก็ดูเหมือนว่าเป็นไปได้ แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าจะมีลักษณะอย่างไรในบริบทนี้ ไม่มีใครมีข้อเสนอแนะใด ๆ ?

คำตอบ:


16

หากต้องการขยายคำตอบของ @ ken-butler เล็กน้อย โดยการเพิ่มทั้งตัวแปรต่อเนื่อง (ชั่วโมง) และตัวแปรตัวบ่งชี้สำหรับค่าพิเศษ (ชั่วโมง = 0 หรือที่ไม่ใช่การให้นมบุตร) คุณคิดว่ามีผลเชิงเส้นสำหรับค่า "ไม่ใช่พิเศษ" และกระโดดแบบแยกใน ทำนายผลลัพธ์ด้วยค่าพิเศษ มันช่วย (สำหรับฉันอย่างน้อย) ดูกราฟ ในตัวอย่างด้านล่างเราจำลองค่าจ้างรายชั่วโมงเป็นฟังก์ชั่นของชั่วโมงต่อสัปดาห์ที่ผู้ตอบแบบสอบถาม (ผู้หญิงทุกคน) ทำงานและเราคิดว่ามีบางสิ่งที่พิเศษเกี่ยวกับ "มาตรฐาน" 40 ชั่วโมงต่อสัปดาห์:

ป้อนคำอธิบายรูปภาพที่นี่

รหัสที่สร้างกราฟนี้ (ใน Stata) สามารถดูได้ที่นี่: http://www.stata.com/statalist/archive/2013-03/msg00088.html

ดังนั้นในกรณีนี้เราได้กำหนดตัวแปรต่อเนื่องเป็นค่า 40 แม้ว่าเราต้องการให้มันได้รับการปฏิบัติแตกต่างจากค่าอื่น ๆ ในทำนองเดียวกันคุณจะให้สัปดาห์ของคุณเลี้ยงลูกด้วยนมค่า 0 แม้ว่าคุณจะคิดว่ามันแตกต่างในเชิงคุณภาพจากค่าอื่น ๆ ฉันตีความความคิดเห็นของคุณด้านล่างว่าคุณคิดว่านี่เป็นปัญหา นี่ไม่ใช่กรณีและคุณไม่จำเป็นต้องเพิ่มคำศัพท์โต้ตอบ อันที่จริงแล้วคำศัพท์โต้ตอบนั้นจะถูกลบเนื่องจากความสมบูรณ์แบบหากคุณลองใช้ นี่ไม่ใช่ข้อ จำกัด เพียงแค่บอกคุณว่าเงื่อนไขการโต้ตอบไม่ได้เพิ่มข้อมูลใหม่ใด ๆ

สมมติว่าสมการถดถอยของคุณมีลักษณะดังนี้:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

ที่ไหนคือหมายเลขของสัปดาห์ที่ผ่านมาเลี้ยงลูกด้วยนม (รวมค่า 0 สำหรับผู้ที่ไม่ได้ให้นมลูก) และn o n _ R อีs T อีอีวันที่ฉันn กรัมเป็นตัวแปรตัวบ่งชี้ที่ 1 เมื่อมีคนไม่ได้ให้นมลูกและ 0 มิฉะนั้นweeks_breastfeedingnon_breastfeeding

พิจารณาสิ่งที่เกิดขึ้นเมื่อมีคนเลี้ยงลูกด้วยนมแม่ สมการการถดถอยช่วยให้:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

ดังนั้นเป็นผลเชิงเส้นตรงจากจำนวนสัปดาห์ที่ให้นมลูกสำหรับผู้ที่ให้นมลูกβ1

พิจารณาสิ่งที่เกิดขึ้นเมื่อมีคนไม่ให้นมลูก:

y^=β10+β21+=β2+

ดังนั้นให้ผลของการไม่ให้นมบุตรและจำนวนสัปดาห์ที่ให้นมบุตรลดลงจากสมการβ2

คุณสามารถเห็นได้ว่าไม่มีประโยชน์ในการเพิ่มคำการโต้ตอบเนื่องจากคำการโต้ตอบนั้นมีอยู่แล้ว (โดยนัย) ในนั้น

อย่างไรก็ตามมีบางสิ่งที่แปลกเกี่ยวกับแม้ว่ามันจะวัดผลกระทบของการเลี้ยงลูกด้วยนมโดยการเปรียบเทียบผลลัพธ์ที่คาดหวังของผู้ที่ไม่ได้เลี้ยงลูกด้วยนมแม่กับผู้ที่ให้นมลูก แต่ทำเช่นนั้นเพียง 0 สัปดาห์ ... ชอบกับ "เรียงลำดับของวิธี แต่ประโยชน์ในทางปฏิบัติไม่ชัดเจนทันที มันอาจสมเหตุสมผลกว่าที่จะเปรียบเทียบ "ผู้ไม่ให้นมบุตร" กับผู้หญิงที่เลี้ยงลูกด้วยนม 12 สัปดาห์ (ประมาณ 3 เดือน) ในกรณีที่คุณเพิ่งให้ "-breastfeeders ไม่ใช่" มูลค่า 12 W อีอีk s _ R อีs T อีอีวันที่ฉันn กรัมβ2weeks_breastfeeding. ดังนั้นค่าที่คุณมอบหมายให้สำหรับ "ไม่ใช่ breastfeeders" ไม่มีอิทธิพลต่อค่าสัมประสิทธิ์การถดถอยβ 2ในแง่ที่ว่ามันกำหนดด้วยซึ่ง "ไม่ใช่ -breastfeeders "ถูกเปรียบเทียบ แทนที่จะเป็นปัญหานี่เป็นสิ่งที่มีประโยชน์ทีเดียวweeks_breastfeedingβ2


1
ฉันขอบคุณคำตอบ (และอื่น ๆ ) แต่ฉันมีเวลายากที่จะยอมรับมัน หากฉันรวม 1: 0 และตัวแปรเวลาอย่างต่อเนื่องฉันยังต้องกำหนดค่าที่ไม่ใช่การป้อนด้วยนมแม่สำหรับช่วงเวลา แม้จะมีเงื่อนไขในตัวแปร 1: 0 ฉันไม่เห็นว่าการรวมตัวที่ไม่ได้ป้อนนมด้วยเวลา = 0 ไม่ส่งผลต่อสัมประสิทธิ์การถดถอย บางทีการเพิ่มคำที่ใช้โต้ตอบระหว่างผลิตภัณฑ์ทั้งสองจะสมเหตุสมผลมากกว่านี้ด้วย
DL Dahly

@DLDahly ฉันได้แก้ไขคำตอบของฉันเพื่อจัดการกับข้อสงสัยเหล่านี้แล้ว
Maarten Buis

ตกลงว่ามีประโยชน์มาก ให้ฉันถามอีกหนึ่งการติดตามอย่างรวดเร็ว ... ถ้าฉันเข้าใจคุณถูกต้องแล้วค่าโดยประมาณสำหรับ B1 ควรจะเท่ากันโดยไม่คำนึงถึงค่าเวลาที่ฉันให้ B2 = 1 คน นั่นถูกต้องใช่ไหม?
DL Dahly

1
การตอบสนองที่ดีมาก Maarten นี่คือคำถาม / คำตอบที่คล้ายกันในเว็บไซต์ที่แสดงสถานการณ์ที่คล้ายกันซึ่งรวมถึงตัวแปรอิสระที่เกี่ยวข้องกับกลุ่มย่อยเฉพาะเท่านั้น
Andy W

1
@ GavinM.Jones ฉันไม่เคยนึกถึงความต้องการที่จะตั้งชื่อหรือกล่าวถึงสิ่งนี้: มันเป็นเพียงการประยุกต์ใช้อย่างต่อเนื่องของตัวแปรต่อเนื่องและตัวบ่งชี้ ดังนั้นฉันไม่มีข้อมูลอ้างอิงที่ดีสำหรับคุณ สิ่งปิดที่ฉันสามารถขุดได้อย่างรวดเร็วคือ Treiman, DJ (2009): การวิเคราะห์ข้อมูลเชิงปริมาณ ทำการวิจัยทางสังคมเพื่อทดสอบแนวคิด ซานฟรานซิสโก: Jossey-Bass บทที่ 7 พูดถึงสิ่งที่คล้ายกัน รูปแบบประกอบด้วยค่าคงที่
Maarten Buis

6

Something simple: แสดงถึงตัวแปรของคุณโดยตัวบ่งชี้ 1/0 สำหรับ / ไม่มีใด ๆ และค่าจริง ใส่ทั้งสองลงในการถดถอย


4

หากคุณใส่ตัวบ่งชี้ไบนารีสำหรับเวลาใด ๆ ที่ใช้ (= 1) เทียบกับไม่มีการใช้เวลา (= 0) จากนั้นมีจำนวนเวลาที่ใช้เป็นตัวแปรต่อเนื่องเอฟเฟกต์ "0" จะแตกต่างกันไป หยิบขึ้นมา "โดยตัวบ่งชี้ 0-1


2

คุณสามารถใช้โมเดลเอฟเฟ็กต์แบบผสมกับการจัดกลุ่มที่ขึ้นอยู่กับ 0 เวลาเทียบกับเวลาที่ไม่ใช่ศูนย์และเก็บตัวแปรอิสระของคุณ


คุณช่วยขยายเรื่องนี้หน่อยได้ไหม? ขอบคุณมาก.
DL Dahly

แบบจำลองเอฟเฟกต์สมมติว่ามีปัจจัยที่แบ่งข้อมูลออกเป็นถังต่างกัน (ต่างกัน) ในแต่ละที่เราอาจมีความสัมพันธ์ที่แตกต่างกันระหว่างตัวแปรอธิบายและขึ้นอยู่กับตัวแปร (ทั้งในแง่ของการสกัดกั้น en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

ดังนั้นใช้บุคคลที่ซ้อนกันในสถานะการให้นมบุตรแล้วความชันสุ่มในสัปดาห์ให้นมบุตร? ฉันสามารถทำสิ่งนี้ในฐานะ SEM ได้อย่างง่ายดายและทดสอบข้อ จำกัด บางอย่าง ขอบคุณ +1
DL Dahly

1

หากคุณกำลังใช้ฟอเรสต์แบบสุ่มหรือโครงข่ายประสาทเทียมการใส่หมายเลขนี้เป็น 0 ก็โอเคเพราะพวกเขาจะสามารถเข้าใจได้ว่า 0 นั้นแตกต่างจากค่าอื่น ๆ อย่างชัดเจน (ถ้าจริงแล้วมันแตกต่างกัน) อีกวิธีคือการเพิ่มตัวแปรเด็ดขาดใช่ / ไม่ใช่นอกเหนือจากตัวแปรเวลา

แต่โดยรวมแล้วในกรณีนี้ฉันไม่เห็นปัญหาจริง - การเลี้ยงลูกด้วยนม 0.1 สัปดาห์อยู่ใกล้กับ 0 และเอฟเฟกต์จะคล้ายกันมากดังนั้นจึงดูเหมือนว่าตัวแปรต่อเนื่องที่สวยสำหรับฉันโดยที่ 0 ไม่โดดเด่นอะไร แตกต่าง


3
+1 สำหรับวรรคแรก แต่เกี่ยวข้องกับข้อมูลทางสังคมศาสตร์หรือการแพทย์ผลกระทบของ 0 กับ 0.1 สัปดาห์ของบางสิ่งไม่ใช่ปัญหาหลัก ประเด็นก็คือผู้หญิงที่ไม่พยายามหรือรายงานการเลี้ยงลูกด้วยนมเลยอาจแตกต่างกันอย่างเป็นระบบในหลาย ๆ ด้าน (ปัญหาสุขภาพรายได้สถานการณ์ครอบครัวความสามารถในการออกไปทำงานการเข้าถึงบริการสุขภาพที่พวกเขาได้รับข้อมูลเกี่ยวกับ การเลี้ยงดูเป็นต้น) ไม่มีเหตุผลที่จะเชื่อว่าผู้หญิงเหล่านี้คล้ายกับแม่ที่พยายามให้นมลูกและหยุดมันอย่างรวดเร็ว
Gala

1
จากมุมมองเชิงสถิติมันจะเป็นการดีกว่าถ้าคุณใส่ตัวแปรอื่น ๆ เหล่านี้อย่างชัดเจนในแบบจำลองของคุณ แต่ควรใช้ความระมัดระวังด้วยการสมมติว่าไม่มีอะไรพิเศษเกิดขึ้นที่ 0 ฉันคิดว่า
Gala

0

ฉันคิดว่าแบบจำลอง Tobitเป็นสิ่งที่คุณต้องการ


5
ใช้ Tobits เมื่อผลลัพธ์ถูกเซ็นเซอร์สูงกว่าหรือต่ำกว่าขีด จำกัด บางส่วน ตัวอย่างเช่นเราไม่ได้สังเกตค่าแรงต่ำกว่าค่าแรงขั้นต่ำหรือรายได้สูงกว่าค่าที่กำหนดไว้ด้านบน แอปพลิเคชั่นนี้ใช้สำหรับตัวแปรอิสระ
Dimitriy V. Masterov
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.