การสร้างแบบจำลองเมื่อตัวแปรตามมี "ตัด"


12

ขออภัยล่วงหน้าหากคำศัพท์ใด ๆ ที่ฉันใช้ไม่ถูกต้อง ฉันยินดีต้อนรับการแก้ไขใด ๆ หากสิ่งที่ฉันอธิบายว่าเป็น "การตัด" ใช้ชื่ออื่นให้แจ้งให้ฉันทราบและฉันสามารถอัปเดตคำถามได้

สถานการณ์ที่ฉันสนใจคือ: คุณมีตัวแปรอิสระและตัวแปรที่ขึ้นอยู่กับเดียว ฉันจะปล่อยให้มันคลุมเครือ แต่สมมติว่ามันค่อนข้างตรงไปตรงมาที่จะได้แบบจำลองการถดถอยที่ดีสำหรับตัวแปรเหล่านี้xy

แต่รูปแบบที่คุณกำลังเล็งที่จะสร้างเป็นตัวแปรอิสระและตัวแปรตามที่บางค่าคงที่ในช่วงของปี อย่างเท่าเทียมกันข้อมูลที่คุณมีการเข้าถึงไม่ได้รวมปีเท่านั้นWxw=min(y,a)ayyw

ตัวอย่างนี้เป็นตัวอย่างที่ค่อนข้างไม่สมจริงหากคุณพยายามทำตัวเป็นแบบอย่างว่าจะมีคนเก็บเงินบำนาญของพวกเขาเป็นเวลากี่ปี ในกรณีนี้xอาจเป็นข้อมูลที่เกี่ยวข้องเช่นเพศน้ำหนักชั่วโมงการออกกำลังกายต่อสัปดาห์ ฯลฯ ตัวแปร 'พื้นฐาน' yจะเป็นอายุขัย อย่างไรก็ตามตัวแปรที่คุณสามารถเข้าถึงได้และพยายามทำนายในแบบจำลองของคุณคือw=min(0,yr)โดยที่ r คืออายุเกษียณ (สมมติว่ามันเรียบง่ายคงที่)

มีวิธีที่ดีในการจัดการกับปัญหานี้ในการสร้างแบบจำลองการถดถอยหรือไม่?


1
ฉันไม่แน่ใจ แต่ดูเหมือนว่ามันจะเข้าถึงได้ผ่านการวิเคราะห์การเอาชีวิตรอด 1) มันเกี่ยวข้องกับการเซ็นเซอร์ 2) อย่างน้อยในตัวอย่างของคุณมันเกี่ยวข้องกับเวลา แต่มันจะถูกเซ็นเซอร์ซ้ายมากกว่าเซ็นเซอร์ขวา (ซึ่งเป็นเรื่องธรรมดามากขึ้น) หากคุณเห็นด้วยกับฉันคุณสามารถเพิ่มแท็กการเอาชีวิตรอดและดูว่ามีใครกระโดดข้ามหรือไม่
Peter Flom - Reinstate Monica

4
@ ปีเตอร์แน่นอนว่ามันจะถูกเซ็นเซอร์ฉัน ด้านใดที่การเซ็นเซอร์เกิดขึ้นมีการนำเข้าเพียงเล็กน้อยเนื่องจากการลบตัวแปรที่ต้องพึ่งพาหนึ่งสวิตช์ระหว่างการเซ็นเซอร์ด้านขวาและซ้าย
whuber

@ โฮเบอร์ฉันคิดว่าคุณพูดถูก แต่อย่างที่คุณพูดการเซ็นเซอร์สามารถสลับได้ง่ายพอ
Peter Flom - Reinstate Monica

ตัวอย่างการเกษียณอายุดูเหมือนจะเรียกใช้ตัวแบบข้อมูลนับ (ถ้าคุณเต็มใจที่จะปัดเศษไปทั้งปีและตราบใดที่ทุกคนเสียชีวิตตามเวลาที่คุณทำการวิเคราะห์) วิธีตัวแปรแฝงดูเหมือนยืดออกด้วยสิ่งนี้ตั้งแต่เวลาไม่สามารถลบได้
Dimitriy V. Masterov

คำตอบ:


14

รุ่นนี้มีหลายชื่อขึ้นอยู่กับสาขาวิชาและหัวข้อ ชื่อสามัญสำหรับชื่อนี้คือตัวแปรที่ขึ้นกับการเซ็นเซอร์, ตัวแปรที่ขึ้นอยู่กับการถูกตัดทอน, ตัวแปรที่ขึ้นอยู่กับการ จำกัด , การวิเคราะห์การอยู่รอด, Tobit และการถดถอยแบบเซ็นเซอร์ ฉันอาจจะทิ้งชื่ออื่นไว้หลายชื่อ

การตั้งค่าที่คุณแนะนำว่าถูกเรียกว่า "การเซ็นเซอร์ที่ถูกต้อง" เนื่องจากค่าของอยู่ไกลเกินไปทางด้านขวาบนบรรทัดที่แท้จริงถูกเซ็นเซอร์ --- และแทนที่จะเห็นจุดตรวจสอบ .min{yi,a}yia

วิธีหนึ่งในการจัดการกับข้อมูลเช่นนี้คือการใช้ตัวแปรแฝง (และนี่คือสิ่งที่คุณเสนอ) นี่คือวิธีหนึ่งในการดำเนินการ:

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

จากนั้นคุณสามารถวิเคราะห์สิ่งนี้ได้โดยโอกาสสูงสุด การสังเกตที่การเซ็นเซอร์เกิดขึ้นมีส่วนช่วยให้ไปยังฟังก์ชั่นความน่าจะเป็นและการสังเกตที่การเซ็นเซอร์ไม่ได้มีส่วนร่วมไปยังฟังก์ชันความน่าจะเป็น CDF มาตรฐานปกติและความหนาแน่นของมาตรฐานปกติคือ\ดังนั้นฟังก์ชันความน่าจะเป็นมีลักษณะดังนี้:P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

คุณประมาณและโดยการเพิ่มขนาดนี้ คุณได้รับข้อผิดพลาดมาตรฐานเป็นข้อผิดพลาดมาตรฐานโอกาสสูงสุดปกติβσ

อย่างที่คุณอาจจินตนาการว่านี่เป็นเพียงหนึ่งในหลายแนวทาง


1
+1 ทำงานตัวอย่างของการแก้ปัญหา ML ปรากฏที่stats.stackexchange.com/questions/49443
whuber

@whuber นั่นเป็นนิทรรศการที่ดี
Bill
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.