คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่
คำถามตรงไปตรงมา: มันเหมาะสมที่จะใช้การถดถอยเชิงเส้นเมื่อ Y ถูก จำกัด และไม่ต่อเนื่อง (เช่นคะแนนทดสอบ 1 ~ 100, อันดับหนึ่งที่กำหนดไว้ล่วงหน้า 1 ~ 17)? ในกรณีนี้มันเป็น "ไม่ดี" ที่จะใช้การถดถอยเชิงเส้นหรือมันผิดทั้งหมดที่จะใช้หรือไม่
คำตอบ:
เมื่อการตอบสนองหรือผลลัพธ์ถูก จำกัด ขอบเขตคำถามต่าง ๆ จะเกิดขึ้นในการปรับตัวแบบรวมทั้งต่อไปนี้:
แบบจำลองใด ๆ ที่สามารถทำนายค่าสำหรับการตอบสนองที่อยู่นอกขอบเขตนั้นอยู่ในหลักการที่น่าสงสัย ดังนั้นรูปแบบเชิงเส้นอาจจะเป็นปัญหาที่ไม่มีขอบเขตในY = X ขสำหรับทำนายXและค่าสัมประสิทธิ์ขเมื่อXเป็นตัวมากมายในหนึ่งหรือทั้งสองทิศทาง อย่างไรก็ตามความสัมพันธ์อาจอ่อนแอพอสำหรับสิ่งนี้ที่จะไม่กัดและ / หรือการคาดการณ์อาจอยู่ในขอบเขตที่ดีกว่าช่วงที่สังเกตหรือเป็นไปได้ของตัวทำนาย ในระดับสูงสุดถ้าการตอบสนองมีค่าเฉลี่ย+เสียงรบกวนมันไม่สำคัญว่ารูปแบบใดที่เหมาะสม
เนื่องจากการตอบสนองต้องไม่เกินขอบเขตของความสัมพันธ์แบบไม่เชิงเส้นจึงมักเป็นไปได้มากขึ้นเมื่อมีการตอบสนองที่คาดการณ์ไว้ซึ่งจะเข้าใกล้ขอบเขตแบบไม่แสดงอาการ Sigmoid เส้นโค้งหรือพื้นผิวเช่นที่คาดการณ์ไว้โดยรุ่น logit หรือ probit มีความน่าสนใจในเรื่องนี้และตอนนี้ก็ไม่ยากที่จะพอดี การตอบสนองเช่นการรู้หนังสือ (หรือส่วนที่ใช้ความคิดใหม่ ๆ ) มักจะแสดงเส้นโค้ง sigmoid ในเวลาและเป็นไปได้ด้วยการทำนายอื่น ๆ
การตอบสนองที่ จำกัด ไม่สามารถมีคุณสมบัติความแปรปรวนที่คาดหวังในการถดถอยธรรมดาหรือวานิลลา เมื่อค่าเฉลี่ยของการตอบสนองเข้าใกล้ขอบเขตที่ต่ำกว่าและสูงกว่าความแปรปรวนจะเข้าใกล้ศูนย์เสมอ
ควรเลือกแบบจำลองตามสิ่งที่ทำงานและมีความรู้เกี่ยวกับกระบวนการสร้างต้นแบบ ไม่ว่าลูกค้าหรือผู้ชมจะรู้เกี่ยวกับรูปแบบเฉพาะของครอบครัวก็อาจเป็นแนวทางในการฝึกฝน
โปรดทราบว่าฉันจงใจหลีกเลี่ยงการตัดสินแบบครอบคลุมเช่นดี / ไม่ดีเหมาะสม / ไม่เหมาะสมถูก / ผิด แบบจำลองทั้งหมดเป็นแบบประมาณที่ดีที่สุดและการประมาณแบบใดที่เหมาะสมหรือดีพอสำหรับโครงการไม่ใช่เรื่องง่ายที่จะคาดเดา โดยทั่วไปแล้วฉันชอบแบบจำลอง logit เป็นตัวเลือกแรกสำหรับการตอบสนองแบบ จำกัด แต่แม้ความชอบนั้นขึ้นอยู่กับนิสัยเป็นส่วนใหญ่ (เช่นการหลีกเลี่ยงโมเดล probit ของฉันโดยไม่มีเหตุผลที่ดี) และอีกส่วนคือฉันจะรายงานผลที่ใด ควรได้รับแจ้งอย่างดีทางสถิติ
ตัวอย่างของเครื่องชั่งที่ไม่ต่อเนื่องของคุณมีไว้สำหรับคะแนน 1-100 (ในการมอบหมายที่ฉันทำเครื่องหมาย 0 เป็นไปได้อย่างแน่นอน!) หรือการจัดอันดับ 1-17 สำหรับเครื่องชั่งแบบนั้นฉันมักจะนึกถึงโมเดลต่อเนื่องที่เหมาะสมเพื่อปรับสัดส่วนการตอบสนองเป็น [0, 1] อย่างไรก็ตามมีผู้ปฏิบัติงานของแบบจำลองการถดถอยตามลำดับที่จะปรับรูปแบบดังกล่าวให้มีความสุขด้วยค่าที่ไม่ต่อเนื่องจำนวนมาก ฉันมีความสุขถ้าพวกเขาตอบว่าพวกเขามีจิตใจที่ดี
ฉันทำงานวิจัยด้านสุขภาพ เรารวบรวมผลลัพธ์ที่ผู้ป่วยรายงานเช่นการทำงานของร่างกายหรืออาการซึมเศร้าและพวกเขามักทำคะแนนในรูปแบบที่คุณกล่าวถึง: ระดับ 0 ถึง N ที่สร้างขึ้นโดยการสรุปคำถามแต่ละข้อในระดับ
วรรณกรรมส่วนใหญ่ที่ฉันเคยตรวจทานเพิ่งใช้โมเดลเชิงเส้น (หรือโมเดลเชิงเส้นเชิงลำดับชั้นหากข้อมูลเกิดจากการสังเกตซ้ำ ๆ ) ฉันยังไม่เห็นใครใช้คำแนะนำของ @ NickCox สำหรับแบบจำลอง logit (เศษส่วน) แม้ว่าจะเป็นรูปแบบที่น่าเชื่อถือ
กราฟด้านล่างเกิดจากงานวิทยานิพนธ์ที่กำลังจะมาถึงของฉัน นี่คือที่ฉันพอดีแบบจำลองเชิงเส้น (สีแดง) กับคะแนนคำถามอาการซึมเศร้าที่ถูกแปลงเป็นคะแนน Z และแบบจำลอง IRT (อธิบาย) เป็นสีฟ้าเป็นคำถามเดียวกัน โดยทั่วไปค่าสัมประสิทธิ์สำหรับทั้งสองรุ่นอยู่ในระดับเดียวกัน (เช่นในส่วนเบี่ยงเบนมาตรฐาน) มีข้อตกลงที่ค่อนข้างยุติธรรมในขนาดของสัมประสิทธิ์ ในฐานะที่เป็นนิคพูดพาดพิงถึงโมเดลทั้งหมดผิด แต่โมเดลเชิงเส้นอาจไม่ผิดที่จะใช้
(หมายเหตุ: แบบจำลองด้านบนนั้นเหมาะสมกับmirt
แพคเกจของฟิลชาลเมอร์ในกราฟ R ที่ผลิตโดยใช้ggplot2
และggthemes
. ชุดรูปแบบสีมาจากชุดสีเริ่มต้น Stata)
ดูค่าที่ทำนายและตรวจสอบว่ามีการแจกแจงคร่าวๆเหมือนกับ Ys ดั้งเดิมหรือไม่ หากเป็นกรณีนี้การถดถอยเชิงเส้นอาจเป็นไปได้ และคุณจะได้รับเพียงเล็กน้อยจากการปรับปรุงแบบจำลองของคุณ
การถดถอยเชิงเส้นอาจ "เพียงพอ" อธิบายข้อมูลดังกล่าว แต่ก็ไม่น่าเป็นไปได้ สมมติฐานหลายข้อของการถดถอยเชิงเส้นมีแนวโน้มที่จะถูกละเมิดในข้อมูลประเภทนี้จนถึงระดับที่การถดถอยเชิงเส้นจะไม่ได้รับคำแนะนำ ฉันจะเลือกสมมติฐานสองสามข้อเป็นตัวอย่าง
การละเมิดสมมติฐานเหล่านี้จะลดลงหากข้อมูลมีแนวโน้มที่จะลดลงรอบศูนย์กลางของช่วงห่างจากขอบ แต่จริงๆแล้วการถดถอยเชิงเส้นไม่ใช่เครื่องมือที่ดีที่สุดสำหรับข้อมูลประเภทนี้ ทางเลือกที่ดีกว่ามากอาจเป็นการถดถอยแบบทวินามหรือการถดถอยแบบปัวซอง
หากการตอบสนองใช้เวลาเพียงไม่กี่หมวดหมู่คุณอาจสามารถใช้วิธีการจำแนกประเภทหรือการถดถอยตามลำดับหากตัวแปรการตอบสนองของคุณเป็นลำดับ
การถดถอยเชิงเส้นแบบธรรมดาจะไม่ทำให้คุณแยกหมวดหมู่หรือตัวแปรการตอบสนองที่ถูก จำกัด หลังสามารถแก้ไขได้โดยใช้แบบจำลอง logit เช่นในการถดถอยโลจิสติก สำหรับคะแนนทดสอบที่มี 100 หมวดหมู่ 1-100 คุณอาจทำให้การคาดการณ์ของคุณง่ายขึ้นและใช้ตัวแปรตอบสนองแบบ จำกัด
ใช้ cdf (ฟังก์ชันการแจกแจงสะสมจากสถิติ) หากโมเดลของคุณคือ y = xb + e ให้เปลี่ยนเป็น y = cdf (xb + e) คุณจะต้องจัดเก็บข้อมูลตัวแปรที่ต้องพึ่งพาของคุณใหม่ให้อยู่ระหว่าง 0 ถึง 1 หากเป็นตัวเลขบวกให้หารด้วยค่าสูงสุดแล้วทำการทำนายแบบจำลองของคุณและคูณด้วยจำนวนเดียวกัน จากนั้นไปตรวจสอบความพอดีและดูว่าการคาดการณ์ที่มีขอบเขตดีขึ้นหรือไม่
คุณอาจต้องการใช้อัลกอริทึมแบบกระป๋องเพื่อดูแลสถิติสำหรับคุณ