การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง

14

คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่

— ท่านอาจารย์ชิ
แหล่งที่มา

10

เมื่อการตอบสนองหรือผลลัพธ์ $Y$ ถูก จำกัด ขอบเขตคำถามต่าง ๆ จะเกิดขึ้นในการปรับตัวแบบรวมทั้งต่อไปนี้:

แบบจำลองใด ๆ ที่สามารถทำนายค่าสำหรับการตอบสนองที่อยู่นอกขอบเขตนั้นอยู่ในหลักการที่น่าสงสัย ดังนั้นรูปแบบเชิงเส้นอาจจะเป็นปัญหาที่ไม่มีขอบเขตในสำหรับทำนายและค่าสัมประสิทธิ์เมื่อเป็นตัวมากมายในหนึ่งหรือทั้งสองทิศทาง อย่างไรก็ตามความสัมพันธ์อาจอ่อนแอพอสำหรับสิ่งนี้ที่จะไม่กัดและ / หรือการคาดการณ์อาจอยู่ในขอบเขตที่ดีกว่าช่วงที่สังเกตหรือเป็นไปได้ของตัวทำนาย ในระดับสูงสุดถ้าการตอบสนองมีค่าเฉลี่ยเสียงรบกวนมันไม่สำคัญว่ารูปแบบใดที่เหมาะสม $\hat Y = Xb$ $X$ $b$ $X$ $+$
เนื่องจากการตอบสนองต้องไม่เกินขอบเขตของความสัมพันธ์แบบไม่เชิงเส้นจึงมักเป็นไปได้มากขึ้นเมื่อมีการตอบสนองที่คาดการณ์ไว้ซึ่งจะเข้าใกล้ขอบเขตแบบไม่แสดงอาการ Sigmoid เส้นโค้งหรือพื้นผิวเช่นที่คาดการณ์ไว้โดยรุ่น logit หรือ probit มีความน่าสนใจในเรื่องนี้และตอนนี้ก็ไม่ยากที่จะพอดี การตอบสนองเช่นการรู้หนังสือ (หรือส่วนที่ใช้ความคิดใหม่ ๆ ) มักจะแสดงเส้นโค้ง sigmoid ในเวลาและเป็นไปได้ด้วยการทำนายอื่น ๆ
การตอบสนองที่ จำกัด ไม่สามารถมีคุณสมบัติความแปรปรวนที่คาดหวังในการถดถอยธรรมดาหรือวานิลลา เมื่อค่าเฉลี่ยของการตอบสนองเข้าใกล้ขอบเขตที่ต่ำกว่าและสูงกว่าความแปรปรวนจะเข้าใกล้ศูนย์เสมอ

ควรเลือกแบบจำลองตามสิ่งที่ทำงานและมีความรู้เกี่ยวกับกระบวนการสร้างต้นแบบ ไม่ว่าลูกค้าหรือผู้ชมจะรู้เกี่ยวกับรูปแบบเฉพาะของครอบครัวก็อาจเป็นแนวทางในการฝึกฝน

โปรดทราบว่าฉันจงใจหลีกเลี่ยงการตัดสินแบบครอบคลุมเช่นดี / ไม่ดีเหมาะสม / ไม่เหมาะสมถูก / ผิด แบบจำลองทั้งหมดเป็นแบบประมาณที่ดีที่สุดและการประมาณแบบใดที่เหมาะสมหรือดีพอสำหรับโครงการไม่ใช่เรื่องง่ายที่จะคาดเดา โดยทั่วไปแล้วฉันชอบแบบจำลอง logit เป็นตัวเลือกแรกสำหรับการตอบสนองแบบ จำกัด แต่แม้ความชอบนั้นขึ้นอยู่กับนิสัยเป็นส่วนใหญ่ (เช่นการหลีกเลี่ยงโมเดล probit ของฉันโดยไม่มีเหตุผลที่ดี) และอีกส่วนคือฉันจะรายงานผลที่ใด ควรได้รับแจ้งอย่างดีทางสถิติ

ตัวอย่างของเครื่องชั่งที่ไม่ต่อเนื่องของคุณมีไว้สำหรับคะแนน 1-100 (ในการมอบหมายที่ฉันทำเครื่องหมาย 0 เป็นไปได้อย่างแน่นอน!) หรือการจัดอันดับ 1-17 สำหรับเครื่องชั่งแบบนั้นฉันมักจะนึกถึงโมเดลต่อเนื่องที่เหมาะสมเพื่อปรับสัดส่วนการตอบสนองเป็น [0, 1] อย่างไรก็ตามมีผู้ปฏิบัติงานของแบบจำลองการถดถอยตามลำดับที่จะปรับรูปแบบดังกล่าวให้มีความสุขด้วยค่าที่ไม่ต่อเนื่องจำนวนมาก ฉันมีความสุขถ้าพวกเขาตอบว่าพวกเขามีจิตใจที่ดี

— นิคคอคส์
แหล่งที่มา

8

ฉันทำงานวิจัยด้านสุขภาพ เรารวบรวมผลลัพธ์ที่ผู้ป่วยรายงานเช่นการทำงานของร่างกายหรืออาการซึมเศร้าและพวกเขามักทำคะแนนในรูปแบบที่คุณกล่าวถึง: ระดับ 0 ถึง N ที่สร้างขึ้นโดยการสรุปคำถามแต่ละข้อในระดับ

วรรณกรรมส่วนใหญ่ที่ฉันเคยตรวจทานเพิ่งใช้โมเดลเชิงเส้น (หรือโมเดลเชิงเส้นเชิงลำดับชั้นหากข้อมูลเกิดจากการสังเกตซ้ำ ๆ ) ฉันยังไม่เห็นใครใช้คำแนะนำของ @ NickCox สำหรับแบบจำลอง logit (เศษส่วน) แม้ว่าจะเป็นรูปแบบที่น่าเชื่อถือ

$\theta$

กราฟด้านล่างเกิดจากงานวิทยานิพนธ์ที่กำลังจะมาถึงของฉัน นี่คือที่ฉันพอดีแบบจำลองเชิงเส้น (สีแดง) กับคะแนนคำถามอาการซึมเศร้าที่ถูกแปลงเป็นคะแนน Z และแบบจำลอง IRT (อธิบาย) เป็นสีฟ้าเป็นคำถามเดียวกัน โดยทั่วไปค่าสัมประสิทธิ์สำหรับทั้งสองรุ่นอยู่ในระดับเดียวกัน (เช่นในส่วนเบี่ยงเบนมาตรฐาน) มีข้อตกลงที่ค่อนข้างยุติธรรมในขนาดของสัมประสิทธิ์ ในฐานะที่เป็นนิคพูดพาดพิงถึงโมเดลทั้งหมดผิด แต่โมเดลเชิงเส้นอาจไม่ผิดที่จะใช้

$-\infty$ $\infty$

(หมายเหตุ: แบบจำลองด้านบนนั้นเหมาะสมกับmirtแพคเกจของฟิลชาลเมอร์ในกราฟ R ที่ผลิตโดยใช้ggplot2และggthemes. ชุดรูปแบบสีมาจากชุดสีเริ่มต้น Stata)

— Weiwen Ng
แหล่งที่มา

6

เพียงเพราะโมเดลเชิงเส้นมีการใช้กันอย่างแพร่หลายไม่ได้หมายความว่ามันเหมาะสม หลายคนใช้แบบจำลองเชิงเส้นเพราะนั่นเป็นเพียงสิ่งที่พวกเขารู้หรือรู้สึกสบายใจ

— qwr

1

วรรณกรรมทางการแพทย์มีมากมายโดยเฉพาะอย่างยิ่งกับการปฏิบัติที่ไม่ดีที่เผยแพร่โดย "นี่คือสิ่งที่สาขา / วารสารนี้" แนวคิดการพิมพ์ ตามกฎทั่วไปฉันจะไม่ใช้หรือล้มเหลวในการใช้บางสิ่งบางอย่างเพียงเพราะรูปร่างหน้าตาอย่างไรก็ตามเป็นเรื่องธรรมดาในการวิจัยทางการแพทย์

— LSC

1

ดูค่าที่ทำนายและตรวจสอบว่ามีการแจกแจงคร่าวๆเหมือนกับ Ys ดั้งเดิมหรือไม่ หากเป็นกรณีนี้การถดถอยเชิงเส้นอาจเป็นไปได้ และคุณจะได้รับเพียงเล็กน้อยจากการปรับปรุงแบบจำลองของคุณ

— mzuba
แหล่งที่มา

1

การถดถอยเชิงเส้นอาจ "เพียงพอ" อธิบายข้อมูลดังกล่าว แต่ก็ไม่น่าเป็นไปได้ สมมติฐานหลายข้อของการถดถอยเชิงเส้นมีแนวโน้มที่จะถูกละเมิดในข้อมูลประเภทนี้จนถึงระดับที่การถดถอยเชิงเส้นจะไม่ได้รับคำแนะนำ ฉันจะเลือกสมมติฐานสองสามข้อเป็นตัวอย่าง

ความธรรมดา - แม้แต่การเพิกเฉยต่อข้อมูลที่ไม่น่าไว้วางใจ แต่ข้อมูลดังกล่าวมีแนวโน้มที่จะแสดงถึงการละเมิดกฎเกณฑ์อย่างมากเพราะการแจกแจงนั้นถูก "ตัด" โดยขอบเขต
Homoscedasticity - ข้อมูลประเภทนี้มีแนวโน้มที่จะละเมิด homoscedasticity ความแปรปรวนมีแนวโน้มที่จะมากขึ้นเมื่อค่าเฉลี่ยที่แท้จริงอยู่ตรงกลางของระยะเมื่อเปรียบเทียบกับขอบ
ลิเนียริตี้ (Linearity) - เนื่องจากช่วงของ Y ถูก จำกัด ขอบเขตการสันนิษฐานจึงถูกละเมิดโดยอัตโนมัติ

การละเมิดสมมติฐานเหล่านี้จะลดลงหากข้อมูลมีแนวโน้มที่จะลดลงรอบศูนย์กลางของช่วงห่างจากขอบ แต่จริงๆแล้วการถดถอยเชิงเส้นไม่ใช่เครื่องมือที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ทางเลือกที่ดีกว่ามากอาจเป็นการถดถอยแบบทวินามหรือการถดถอยแบบปัวซอง

— Stat_Programmer
แหล่งที่มา

2

มันยากที่จะเห็นว่าการถดถอยของปัวซองนั้นเป็นตัวเลือกสำหรับการตอบสนองที่ถูก จำกัด ขอบเขตเป็นสองเท่า

— Nick Cox

0

หากการตอบสนองใช้เวลาเพียงไม่กี่หมวดหมู่คุณอาจสามารถใช้วิธีการจำแนกประเภทหรือการถดถอยตามลำดับหากตัวแปรการตอบสนองของคุณเป็นลำดับ

การถดถอยเชิงเส้นแบบธรรมดาจะไม่ทำให้คุณแยกหมวดหมู่หรือตัวแปรการตอบสนองที่ถูก จำกัด หลังสามารถแก้ไขได้โดยใช้แบบจำลอง logit เช่นในการถดถอยโลจิสติก สำหรับคะแนนทดสอบที่มี 100 หมวดหมู่ 1-100 คุณอาจทำให้การคาดการณ์ของคุณง่ายขึ้นและใช้ตัวแปรตอบสนองแบบ จำกัด

— qwr
แหล่งที่มา

0

ใช้ cdf (ฟังก์ชันการแจกแจงสะสมจากสถิติ) หากโมเดลของคุณคือ y = xb + e ให้เปลี่ยนเป็น y = cdf (xb + e) คุณจะต้องจัดเก็บข้อมูลตัวแปรที่ต้องพึ่งพาของคุณใหม่ให้อยู่ระหว่าง 0 ถึง 1 หากเป็นตัวเลขบวกให้หารด้วยค่าสูงสุดแล้วทำการทำนายแบบจำลองของคุณและคูณด้วยจำนวนเดียวกัน จากนั้นไปตรวจสอบความพอดีและดูว่าการคาดการณ์ที่มีขอบเขตดีขึ้นหรือไม่

คุณอาจต้องการใช้อัลกอริทึมแบบกระป๋องเพื่อดูแลสถิติสำหรับคุณ

— Dougie
แหล่งที่มา

1

สิ่งนี้ดูเหมือนว่าจะทำให้เกิดความสับสนสองข้อเท็จจริง: (1) ขอบเขตการตอบสนองควรถูกปรับให้อยู่ระหว่าง 0 และ 1 สำหรับ logit, probit และรุ่นที่คล้ายกันเพื่อใช้ (2) cdfs ก็แตกต่างกันระหว่าง 0 และ 1 ในการตอบสนองเศษส่วนเช่นนี้ ไม่สร้างโมเดล cdf

— Nick Cox