การขยายการถดถอยโลจิสติกสำหรับผลลัพธ์ในช่วงระหว่าง 0 ถึง 1


9

ฉันมีปัญหาการถดถอยที่ผลจะไม่เคร่งครัด 0, 1 แต่ในช่วงของตัวเลขจริงทั้งหมด 0-1 รวม1]Y=[0,0.12,0.31,...,1]

ปัญหานี้ได้รับการกล่าวถึงในกระทู้นี้แล้วแม้ว่าคำถามของฉันจะแตกต่างกันเล็กน้อย

ฉันไม่สามารถใช้การถดถอยเชิงเส้นด้วยเหตุผลเดียวกับที่ใช้การถดถอยแบบโลจิสติกส์ ในการถดถอยเชิงเส้น A) ค่า IV ที่มีขนาดใหญ่มากจะบิดเบือนผลลัพธ์ที่คาดการณ์ไว้ที่ 1 และ B) ผลลัพธ์ของการถดถอยเชิงเส้นจะไม่ถูกผูกไว้กับขีด จำกัด 0,1

ดูที่ฟังก์ชันต้นทุนโลจิสติกส์จากตำราฉันรวบรวมว่าสมการถูกออกแบบมาเพื่อคำนวณ ราคามากกว่า 0 ต่อเมื่อและไม่มีค่าเท่ากัน 0 หรือ 1

ราคา=-Yเข้าสู่ระบบ(ชั่วโมง(x))-(1-Y)เข้าสู่ระบบ(1-ชั่วโมง(x))
Yx

เป็นไปได้ไหมที่จะใช้การถดถอยโลจิสติกโดยแก้ไขฟังก์ชันต้นทุนเพื่อวัดข้อผิดพลาดของสมมติฐานทั้งหมด

คำตอบ:


9

คุณมีหลายทางเลือก สองคนอาจเป็น:

  1. หากคุณแปลงของคุณผ่านแปลงโลจิสติกคุณสามารถลองการถดถอยเชิงเส้นโดยใช้กำลังสองน้อยที่สุดธรรมดากับตัวแปรตอบสนองที่แปลงแล้วYเข้าสู่ระบบ(Y1-Y)
  2. อีกวิธีหนึ่งคุณสามารถปรับตัวแปรดั้งเดิมให้เป็นแบบจำลองเชิงเส้นแบบทั่วไปด้วยการแปลงโลจิสติกเป็นตัวแปรลิงก์ของคุณและมีความสัมพันธ์ระหว่างความแปรปรวนของและค่าเฉลี่ยเช่นเดียวกับแม้ว่ามันจะเป็นตัวแปรทวินาม นี่คือพื้นฐานเหมือนกับ "ใช้การถดถอยโลจิสติก"Y

ตัวเลือกใดที่จะใช้จะขึ้นอยู่กับโครงสร้างข้อผิดพลาดและวิธีเดียวที่จะตัดสินใจคือปรับให้เข้ากับทั้งคู่และดูว่ามีโครงสร้างที่เหลือที่เหมาะสมกับสมมติฐานของโมเดลมากที่สุด ความสงสัยของฉันคือว่าจะมีไม่มากที่จะเลือกระหว่างพวกเขา แน่นอนว่าตัวเลือกเหล่านี้จะเป็นการปรับปรุงอย่างมากสำหรับการถดถอยเชิงเส้นแบบตรงกับไม่แปลงรูปด้วยเหตุผลที่คุณพูดY


2
(+1) ตัวเลือก 2: โดยทั่วไปแล้วคุณจะประเมินการกระจายตัวเกิน & ใช้เพื่อคำนวณข้อผิดพลาดมาตรฐาน - โมเดล"เสมือนกึ่งทวินาม"ซึ่งความสัมพันธ์ระหว่างความแปรปรวนและค่าเฉลี่ยของ Y เป็นสัดส่วนมากกว่าสัดส่วนเดียวกันกับที่ ตัวแปรทวินาม
Scortchi - Reinstate Monica

@Scortchi: นี่คือสิ่งที่glm()ฟังก์ชั่นใน R จะทำเมื่อมันถูกป้อนด้วยการตอบสนองอย่างต่อเนื่องและfamily=quasibinomial? คือมันจะประมาณค่าสัมประสิทธิ์ด้วยfamily=binomialจากนั้นในขั้นตอนพิเศษคำนวณข้อผิดพลาดมาตรฐานโดยคำนึงถึงการกระจายตัวมากเกินไป? ถ้าใช่จะเหมือนกับการคำนวณ "ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ" หรือไม่ ฉันมีข้อมูลที่เหมาะสมและฉันลองทั้งสองครอบครัวด้วยglm; ฉันได้รับค่าสัมประสิทธิ์ที่เหมือนกัน แต่มีข้อผิดพลาดมาตรฐานแตกต่างกัน ขอบคุณ
อะมีบา

1
@ amoeba: ใช่แล้ว แต่ "ข้อผิดพลาดมาตรฐานที่แข็งแกร่ง" มักจะหมายถึงการใช้ตัวประมาณแซนวิชหรือสิ่งที่คล้ายกัน
Scortchi - Reinstate Monica

9

เมื่อ Y ถูกผูกไว้การถดถอยเบต้ามักจะสมเหตุสมผล ดูกระดาษ"คั้นมะนาวที่ดีกว่า"

สิ่งนี้จะช่วยให้เอฟเฟกต์พื้นและเพดาน; มันยังช่วยให้การสร้างแบบจำลองความแปรปรวนเช่นเดียวกับค่าเฉลี่ย


0

เนื่องจาก y ไม่ได้เป็นศูนย์อย่างเคร่งครัดหรือค่าใช้จ่ายอย่างใดอย่างหนึ่ง (ตามที่คุณกล่าว) ควรมากกว่าศูนย์ ดังนั้นฉันไม่คิดว่าคุณต้องการการดัดแปลงในโมเดล


0

ฉันแนะนำสองรุ่นทางเลือก:

หากมีการเรียงลำดับผลลัพธ์ของคุณ (ตัวแปร y) ให้ลองใช้โมเดล Probit ที่สั่งซื้อ

หากไม่ได้เรียงลำดับผลลัพธ์ของคุณ (ตัวแปร y) ให้ลองใช้โมเดล Multinomial Logit

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.