การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง


14

คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

คำตอบ:


10

เมื่อการตอบสนองหรือผลลัพธ์Yถูก จำกัด ขอบเขตคำถามต่าง ๆ จะเกิดขึ้นในการปรับตัวแบบรวมทั้งต่อไปนี้:

  1. แบบจำลองใด ๆ ที่สามารถทำนายค่าสำหรับการตอบสนองที่อยู่นอกขอบเขตนั้นอยู่ในหลักการที่น่าสงสัย ดังนั้นรูปแบบเชิงเส้นอาจจะเป็นปัญหาที่ไม่มีขอบเขตในY = X สำหรับทำนายXและค่าสัมประสิทธิ์เมื่อXเป็นตัวมากมายในหนึ่งหรือทั้งสองทิศทาง อย่างไรก็ตามความสัมพันธ์อาจอ่อนแอพอสำหรับสิ่งนี้ที่จะไม่กัดและ / หรือการคาดการณ์อาจอยู่ในขอบเขตที่ดีกว่าช่วงที่สังเกตหรือเป็นไปได้ของตัวทำนาย ในระดับสูงสุดถ้าการตอบสนองมีค่าเฉลี่ย+เสียงรบกวนมันไม่สำคัญว่ารูปแบบใดที่เหมาะสมY^=XXX+

  2. เนื่องจากการตอบสนองต้องไม่เกินขอบเขตของความสัมพันธ์แบบไม่เชิงเส้นจึงมักเป็นไปได้มากขึ้นเมื่อมีการตอบสนองที่คาดการณ์ไว้ซึ่งจะเข้าใกล้ขอบเขตแบบไม่แสดงอาการ Sigmoid เส้นโค้งหรือพื้นผิวเช่นที่คาดการณ์ไว้โดยรุ่น logit หรือ probit มีความน่าสนใจในเรื่องนี้และตอนนี้ก็ไม่ยากที่จะพอดี การตอบสนองเช่นการรู้หนังสือ (หรือส่วนที่ใช้ความคิดใหม่ ๆ ) มักจะแสดงเส้นโค้ง sigmoid ในเวลาและเป็นไปได้ด้วยการทำนายอื่น ๆ

  3. การตอบสนองที่ จำกัด ไม่สามารถมีคุณสมบัติความแปรปรวนที่คาดหวังในการถดถอยธรรมดาหรือวานิลลา เมื่อค่าเฉลี่ยของการตอบสนองเข้าใกล้ขอบเขตที่ต่ำกว่าและสูงกว่าความแปรปรวนจะเข้าใกล้ศูนย์เสมอ

ควรเลือกแบบจำลองตามสิ่งที่ทำงานและมีความรู้เกี่ยวกับกระบวนการสร้างต้นแบบ ไม่ว่าลูกค้าหรือผู้ชมจะรู้เกี่ยวกับรูปแบบเฉพาะของครอบครัวก็อาจเป็นแนวทางในการฝึกฝน

โปรดทราบว่าฉันจงใจหลีกเลี่ยงการตัดสินแบบครอบคลุมเช่นดี / ไม่ดีเหมาะสม / ไม่เหมาะสมถูก / ผิด แบบจำลองทั้งหมดเป็นแบบประมาณที่ดีที่สุดและการประมาณแบบใดที่เหมาะสมหรือดีพอสำหรับโครงการไม่ใช่เรื่องง่ายที่จะคาดเดา โดยทั่วไปแล้วฉันชอบแบบจำลอง logit เป็นตัวเลือกแรกสำหรับการตอบสนองแบบ จำกัด แต่แม้ความชอบนั้นขึ้นอยู่กับนิสัยเป็นส่วนใหญ่ (เช่นการหลีกเลี่ยงโมเดล probit ของฉันโดยไม่มีเหตุผลที่ดี) และอีกส่วนคือฉันจะรายงานผลที่ใด ควรได้รับแจ้งอย่างดีทางสถิติ

ตัวอย่างของเครื่องชั่งที่ไม่ต่อเนื่องของคุณมีไว้สำหรับคะแนน 1-100 (ในการมอบหมายที่ฉันทำเครื่องหมาย 0 เป็นไปได้อย่างแน่นอน!) หรือการจัดอันดับ 1-17 สำหรับเครื่องชั่งแบบนั้นฉันมักจะนึกถึงโมเดลต่อเนื่องที่เหมาะสมเพื่อปรับสัดส่วนการตอบสนองเป็น [0, 1] อย่างไรก็ตามมีผู้ปฏิบัติงานของแบบจำลองการถดถอยตามลำดับที่จะปรับรูปแบบดังกล่าวให้มีความสุขด้วยค่าที่ไม่ต่อเนื่องจำนวนมาก ฉันมีความสุขถ้าพวกเขาตอบว่าพวกเขามีจิตใจที่ดี


8

ฉันทำงานวิจัยด้านสุขภาพ เรารวบรวมผลลัพธ์ที่ผู้ป่วยรายงานเช่นการทำงานของร่างกายหรืออาการซึมเศร้าและพวกเขามักทำคะแนนในรูปแบบที่คุณกล่าวถึง: ระดับ 0 ถึง N ที่สร้างขึ้นโดยการสรุปคำถามแต่ละข้อในระดับ

วรรณกรรมส่วนใหญ่ที่ฉันเคยตรวจทานเพิ่งใช้โมเดลเชิงเส้น (หรือโมเดลเชิงเส้นเชิงลำดับชั้นหากข้อมูลเกิดจากการสังเกตซ้ำ ๆ ) ฉันยังไม่เห็นใครใช้คำแนะนำของ @ NickCox สำหรับแบบจำลอง logit (เศษส่วน) แม้ว่าจะเป็นรูปแบบที่น่าเชื่อถือ

θ

กราฟด้านล่างเกิดจากงานวิทยานิพนธ์ที่กำลังจะมาถึงของฉัน นี่คือที่ฉันพอดีแบบจำลองเชิงเส้น (สีแดง) กับคะแนนคำถามอาการซึมเศร้าที่ถูกแปลงเป็นคะแนน Z และแบบจำลอง IRT (อธิบาย) เป็นสีฟ้าเป็นคำถามเดียวกัน โดยทั่วไปค่าสัมประสิทธิ์สำหรับทั้งสองรุ่นอยู่ในระดับเดียวกัน (เช่นในส่วนเบี่ยงเบนมาตรฐาน) มีข้อตกลงที่ค่อนข้างยุติธรรมในขนาดของสัมประสิทธิ์ ในฐานะที่เป็นนิคพูดพาดพิงถึงโมเดลทั้งหมดผิด แต่โมเดลเชิงเส้นอาจไม่ผิดที่จะใช้

ป้อนคำอธิบายรูปภาพที่นี่

-

(หมายเหตุ: แบบจำลองด้านบนนั้นเหมาะสมกับmirtแพคเกจของฟิลชาลเมอร์ในกราฟ R ที่ผลิตโดยใช้ggplot2และggthemes. ชุดรูปแบบสีมาจากชุดสีเริ่มต้น Stata)


6
เพียงเพราะโมเดลเชิงเส้นมีการใช้กันอย่างแพร่หลายไม่ได้หมายความว่ามันเหมาะสม หลายคนใช้แบบจำลองเชิงเส้นเพราะนั่นเป็นเพียงสิ่งที่พวกเขารู้หรือรู้สึกสบายใจ
qwr

1
วรรณกรรมทางการแพทย์มีมากมายโดยเฉพาะอย่างยิ่งกับการปฏิบัติที่ไม่ดีที่เผยแพร่โดย "นี่คือสิ่งที่สาขา / วารสารนี้" แนวคิดการพิมพ์ ตามกฎทั่วไปฉันจะไม่ใช้หรือล้มเหลวในการใช้บางสิ่งบางอย่างเพียงเพราะรูปร่างหน้าตาอย่างไรก็ตามเป็นเรื่องธรรมดาในการวิจัยทางการแพทย์
LSC

1

ดูค่าที่ทำนายและตรวจสอบว่ามีการแจกแจงคร่าวๆเหมือนกับ Ys ดั้งเดิมหรือไม่ หากเป็นกรณีนี้การถดถอยเชิงเส้นอาจเป็นไปได้ และคุณจะได้รับเพียงเล็กน้อยจากการปรับปรุงแบบจำลองของคุณ


1

การถดถอยเชิงเส้นอาจ "เพียงพอ" อธิบายข้อมูลดังกล่าว แต่ก็ไม่น่าเป็นไปได้ สมมติฐานหลายข้อของการถดถอยเชิงเส้นมีแนวโน้มที่จะถูกละเมิดในข้อมูลประเภทนี้จนถึงระดับที่การถดถอยเชิงเส้นจะไม่ได้รับคำแนะนำ ฉันจะเลือกสมมติฐานสองสามข้อเป็นตัวอย่าง

  1. ความธรรมดา - แม้แต่การเพิกเฉยต่อข้อมูลที่ไม่น่าไว้วางใจ แต่ข้อมูลดังกล่าวมีแนวโน้มที่จะแสดงถึงการละเมิดกฎเกณฑ์อย่างมากเพราะการแจกแจงนั้นถูก "ตัด" โดยขอบเขต
  2. Homoscedasticity - ข้อมูลประเภทนี้มีแนวโน้มที่จะละเมิด homoscedasticity ความแปรปรวนมีแนวโน้มที่จะมากขึ้นเมื่อค่าเฉลี่ยที่แท้จริงอยู่ตรงกลางของระยะเมื่อเปรียบเทียบกับขอบ
  3. ลิเนียริตี้ (Linearity) - เนื่องจากช่วงของ Y ถูก จำกัด ขอบเขตการสันนิษฐานจึงถูกละเมิดโดยอัตโนมัติ

การละเมิดสมมติฐานเหล่านี้จะลดลงหากข้อมูลมีแนวโน้มที่จะลดลงรอบศูนย์กลางของช่วงห่างจากขอบ แต่จริงๆแล้วการถดถอยเชิงเส้นไม่ใช่เครื่องมือที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ทางเลือกที่ดีกว่ามากอาจเป็นการถดถอยแบบทวินามหรือการถดถอยแบบปัวซอง


2
มันยากที่จะเห็นว่าการถดถอยของปัวซองนั้นเป็นตัวเลือกสำหรับการตอบสนองที่ถูก จำกัด ขอบเขตเป็นสองเท่า
Nick Cox

0

หากการตอบสนองใช้เวลาเพียงไม่กี่หมวดหมู่คุณอาจสามารถใช้วิธีการจำแนกประเภทหรือการถดถอยตามลำดับหากตัวแปรการตอบสนองของคุณเป็นลำดับ

การถดถอยเชิงเส้นแบบธรรมดาจะไม่ทำให้คุณแยกหมวดหมู่หรือตัวแปรการตอบสนองที่ถูก จำกัด หลังสามารถแก้ไขได้โดยใช้แบบจำลอง logit เช่นในการถดถอยโลจิสติก สำหรับคะแนนทดสอบที่มี 100 หมวดหมู่ 1-100 คุณอาจทำให้การคาดการณ์ของคุณง่ายขึ้นและใช้ตัวแปรตอบสนองแบบ จำกัด


0

ใช้ cdf (ฟังก์ชันการแจกแจงสะสมจากสถิติ) หากโมเดลของคุณคือ y = xb + e ให้เปลี่ยนเป็น y = cdf (xb + e) คุณจะต้องจัดเก็บข้อมูลตัวแปรที่ต้องพึ่งพาของคุณใหม่ให้อยู่ระหว่าง 0 ถึง 1 หากเป็นตัวเลขบวกให้หารด้วยค่าสูงสุดแล้วทำการทำนายแบบจำลองของคุณและคูณด้วยจำนวนเดียวกัน จากนั้นไปตรวจสอบความพอดีและดูว่าการคาดการณ์ที่มีขอบเขตดีขึ้นหรือไม่

คุณอาจต้องการใช้อัลกอริทึมแบบกระป๋องเพื่อดูแลสถิติสำหรับคุณ


1
สิ่งนี้ดูเหมือนว่าจะทำให้เกิดความสับสนสองข้อเท็จจริง: (1) ขอบเขตการตอบสนองควรถูกปรับให้อยู่ระหว่าง 0 และ 1 สำหรับ logit, probit และรุ่นที่คล้ายกันเพื่อใช้ (2) cdfs ก็แตกต่างกันระหว่าง 0 และ 1 ในการตอบสนองเศษส่วนเช่นนี้ ไม่สร้างโมเดล cdf
Nick Cox
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.