ใช้การถดถอยโลจิสติกสำหรับตัวแปรขึ้นอยู่กับอย่างต่อเนื่อง


9

ฉันได้รับการแก้ไขสำหรับงานวิจัยของฉันเมื่อเร็ว ๆ นี้และต่อไปนี้เป็นความคิดเห็นของผู้ตรวจทานบนกระดาษของฉัน:

ผลลัพธ์ที่ได้จากแบบจำลองเดียวไม่น่าเชื่อโดยเฉพาะการถดถอยเชิงเส้นมักจะมีข้อบกพร่องในการจัดการกับคนผิดปกติ ฉันขอแนะนำให้ผู้เขียนลองถดถอยโลจิสติกและเปรียบเทียบผลลัพธ์ที่สอดคล้องกับผลลัพธ์ปัจจุบัน หากได้ข้อสังเกตที่คล้ายกันผลลัพธ์จะมีความมั่นคงมากขึ้น

ความคิดเห็นของผู้วิจารณ์ถูกต้องหรือไม่ การถดถอยโลจิสติกดีกว่าการถดถอยเชิงเส้นหลายครั้งหรือไม่

ปัญหาคือว่าตัวแปรตามของฉันไม่ได้จัดหมวดหมู่มันเป็นตัวแปรขนาด ฉันจะทำอะไรได้บ้าง คุณแนะนำวิธีการถดถอยแบบอื่นใดในการประเมินโมเดลของฉัน

คะแนนขึ้นอยู่กับตัวแปรในตารางต่อไปนี้ ความใหม่ความถี่การครอบครองและคะแนนสุดท้ายเป็นตัวแปรอิสระ

ป้อนคำอธิบายรูปภาพที่นี่

ฉันได้แยกตัวแปรเหล่านี้ออกจากไซต์แล้วและฉันตั้งสมมติฐานว่าตัวแปรอิสระเหล่านี้มีผลต่อคะแนนอย่างมาก ดังนั้นฉันเป็นตัวแทนของรุ่นต่อไปนี้:

ป้อนคำอธิบายรูปภาพที่นี่


ยังไงก็ตามค่าของ R กำลังสองสำหรับโมเดลเชิงเส้นนี้คือ 0.316! ผู้ตรวจสอบยังแสดงความคิดเห็นเกี่ยวกับค่านี้เช่นกัน:

ผลลัพธ์จะไม่น่าเชื่อถือเนื่องจากไม่มีตัวบ่งชี้คุณภาพของสัมประสิทธิ์ที่เรียนรู้ R ^ 2 ขนาดเล็กไม่สามารถบ่งบอกถึงประสิทธิภาพที่ดีเนื่องจากรุ่นอาจติดตั้งเกินขนาด

0.316 ต่ำมากสำหรับ R กำลังสองหรือไม่ ในเอกสารก่อนหน้านี้ฉันเห็นคุณค่าที่คล้ายกันมาก

ป้อนคำอธิบายรูปภาพที่นี่


นี่เป็นประเด็นย่อย แต่การเข้าใจว่าการคำนวณคะแนนจะมีประโยชน์ในการให้คำตอบที่ดีได้อย่างไร คุณสามารถแก้ไขคำถามเพื่อแจ้งให้เราทราบได้หรือไม่
whuber

ฉันแก้ไขโพสต์ของฉัน ความรู้ทางสถิติของฉันไม่ดี ฉันจะขอบคุณมากถ้าคุณช่วย
PSS

1
ไม่มีความคิดเกี่ยวกับการเรียกใช้การถดถอยโลจิสติกในตัวแปรขึ้นอยู่กับอย่างต่อเนื่อง ???
PSS

1
คะแนนนั้นต้องอยู่ระหว่าง 0 ถึง 100 หรือไม่ ในกรณีนี้คุณสามารถหารด้วย 100 และทำการถดถอยโลจิสติกส์ในตัวแปรผลลัพธ์ซึ่งจะอยู่ระหว่าง 0 ถึง 1 ... รู้สึกแปลก ๆ ที่ทำสิ่งต่าง ๆ แบบนั้นและฉันก็ไม่แน่ใจว่ามันสมเหตุสมผล แต่ อาจเป็นสิ่งที่ผู้ตรวจสอบแนะนำ
Sam Livingstone

2
ไม่การปรับขนาดเป็น 0-1 หรือการทิ้งข้อมูลที่มีค่าและการจัดหมวดหมู่คะแนนไม่ใช่วิธีแก้ปัญหาที่ดี
Frank Harrell

คำตอบ:


7

รูปแบบการถดถอยโลจิสติกการถดถอยแบบตามสัดส่วนควรทำงานได้ดีสำหรับปัญหานี้ สำหรับการนำไปใช้อย่างมีประสิทธิภาพนั้นสามารถทำให้เกิดความโดดเด่นเป็นพันYค่าเห็นormฟังก์ชั่นในrmsแพคเกจR


ฉันติดตั้ง R และแพ็คเกจที่จำเป็นทั้งหมดแล้ว คุณช่วยยกตัวอย่างฟังก์ชั่น orm ได้ไหม? ฉันไม่พบด้วยการค้นหา สำหรับรูปแบบการถดถอยของฉันรหัสควรเป็นอย่างไร
PSS

1
มันคุ้มค่ากับการใช้เวลาศึกษาเอกสาร ดูเอกสารประกอบคำบรรยายภายใต้biostat.mc.vanderbilt.edu/CourseBios330สำหรับกรณีศึกษาอย่างละเอียดพร้อมรหัส - บทเกี่ยวกับแบบจำลองการถดถอยเพื่อความต่อเนื่องY.
Frank Harrell

1

คุณสามารถลองสั่งรุ่น probit / logit โดยกำหนดค่า 1, 2,3 และ 4 ให้กับคะแนนในวันที่ 1, ..... , 4 ตามลำดับ


คุณเสนอให้ลดตัวแปรใดในสี่เปอร์เซนต์ต่ำสุด (จาก 100) สิ่งนี้จะสำเร็จและทำไม
whuber

-1

คุณสามารถแบ่งขั้ว (แปลงเป็นตัวแปรไบนารี) ได้ หากคะแนนจาก 0 ถึง 100 คุณสามารถกำหนด 0 ให้กับคะแนนใด ๆ ที่น้อยกว่า 50 และ 1 เป็นอย่างอื่น ฉันไม่เคยได้ยินมาก่อนว่านี่เป็นวิธีที่ดีในการจัดการกับคนผิด สิ่งนี้อาจซ่อนค่าผิดปกติเนื่องจากจะไม่สามารถแยกความแตกต่างของคะแนนสูงหรือต่ำมาก มันไม่สมเหตุสมผลสำหรับฉัน แต่คุณสามารถลองได้

ที่สำคัญกว่านั้นคือทำไมคุณจึงบันทึกการแปรสภาพโควาเรียตและตัวแปรตอบกลับทั้งหมดของคุณ? สิ่งนี้จะส่งผลกระทบต่อคุณβ ประมาณการและของคุณ R2 (ฉันคิด).

นอกจากนี้ผู้วิจารณ์พูดว่ามีขนาดเล็ก R2แสดงให้เห็นถึงการมีส่วนร่วมมากเกินไป? ฉันคิดว่าการให้กำลังมากเกินไปคือเมื่อคุณR2สูง แต่โมเดลของคุณทำงานกับข้อมูลใหม่ได้ไม่ดี (เช่นมันตรงกับข้อมูลของคุณ แต่ไม่ได้ทำให้ข้อมูลใหม่ทั่วไป) การมีแนวโน้มมากเกินไปจะเกิดขึ้นเมื่อคุณมีการสังเกตน้อยซึ่งคุณกำลังพยายามทำนายด้วยพารามิเตอร์จำนวนมาก นี่คือสิ่งที่คุณกำลังทำในรุ่น 2 ของคุณเนื่องจากคุณมี 8 การสังเกตซึ่งคุณพยายามอธิบายด้วย 7 พารามิเตอร์

ฉันจะไม่แกล้งฉันรู้เรื่องสถิติอย่างมาก แต่สำหรับฉันแล้วความคิดเห็นของเขาดูเหมือนว่าฉันจะวิจารณ์น้อยลง


ขอบคุณมากสำหรับคำตอบของคุณ เพราะตัวแปรทั้งหมดเบ้ดังนั้นฉันจึงเปลี่ยนให้เป็นธรรมชาติ ฉันถูกไหม? ขอบคุณสำหรับการอธิบายความหมายของคำว่า "overfitting"! ที่จริงแล้วฉันไม่รู้ว่าการบรรจุมากเกินไปหมายถึงอะไร ตอนนี้ฉันสามารถตอบผู้ตรวจสอบและบรรณาธิการได้ อย่างไรก็ตามคำแนะนำของคุณสำหรับฉันที่จะทำให้การประเมินของฉันแข็งแกร่งขึ้นคืออะไร คุณคิดว่าวิธีการถดถอยแบบไหนดีกว่ากัน?
PSS

6
อย่าแบ่งขั้ว Yด้วยเหตุผลใด ๆ.
Frank Harrell

ฉันเห็นด้วยกับ @FrankHarrell ว่าการเลือกเกณฑ์ที่กำหนดเองเพื่อแยกขั้วข้อมูลของคุณไม่สมเหตุสมผล เป็นชุดข้อมูลทั้งหมดของคุณหรือไม่ หากคุณมีข้อสังเกตน้อยมากข้อมูลของคุณจะไม่ถูกเผยแพร่โดยปกติ! นอกจากนี้คุณต้องเข้าใจประเภทของข้อมูลที่คุณจัดการด้วย พวกเขาสามารถใช้ช่วงของค่าใดเป็นความสมเหตุสมผลหรือไม่ที่จะถือว่าพวกเขาควรแจกจ่ายตามปกติ ฉันจะพิจารณาข้อเสนอแนะของ Frank ในการใช้การถดถอยแบบลอจิสติกอันดับ แต่ฉันเดาว่ามันใช้ลำดับของคะแนนแทนค่าของพวกเขาในการถดถอย
pontikos

@ProtentialScientist มันไม่สำคัญว่าการกระจายของคุณจะเบ้ ใน OLS (ทั่วไป) การถดถอยเพียงการกระจายของเรื่องที่เหลือให้ดูที่นี่: what-if-เหลือ-มี-ปกติกระจาย แต่-Y-คือไม่ คุณอาจต้องการอ่านสิ่งนี้: การตีความการแปลงสภาพเพื่อทำนายเพื่อให้เข้าใจว่าเกิดอะไรขึ้นกับแบบจำลองของคุณอันเป็นผลมาจากการเปลี่ยนการทำนายของคุณ
gung - Reinstate Monica

@ProtentialScientist คุณเป็นอย่างไรบ้าง? หากคุณแก้ไขคำถามของคุณเพื่อให้ข้อมูลในรูปแบบ CSV ฉันสามารถลองเรียกใช้ฟังก์ชัน orm ที่ Prof Harrell แนะนำและเราสามารถวิเคราะห์ผลลัพธ์ได้ คุ้มค่าที่คุณจะได้เรียนรู้พื้นฐานของ R (วิธีอ่านไฟล์และเรียกใช้การถดถอย)
pontikos

-1

เป็นไปได้ที่จะใช้การถดถอยโลจิสติกแม้กับตัวแปรที่ขึ้นอยู่กับความต่อเนื่อง มันสมเหตุสมผลถ้าคุณต้องการให้แน่ใจว่าการทำนายscoreนั้นอยู่ภายในเสมอ[0, 100](ฉันตัดสินจากสกรีนช็อตของคุณว่ามันอยู่ในระดับ 100 จุด)

เพื่อให้บรรลุมันเพียงแค่หารคะแนนของคุณด้วย 100 และเรียกใช้การถดถอยโลจิสติกกับ[0,1]ตัวแปรเป้าหมายตามเช่นในคำถามนี้คุณสามารถทำได้ตัวอย่างเช่นด้วยRโดยใช้

glm(y~x, family="binomial", data=your.dataframe)

ฉันไม่ทราบว่าวิธีการนี้จะช่วยลดค่าใช้จ่ายได้หรือไม่ขึ้นอยู่กับประเภทของค่าผิดปกติที่คุณคาดหวัง แต่บางครั้งก็ปรับปรุงความดีของความพอดี (แม้R2หากตัวแปรตามของคุณมีขอบเขตล่างและบนโดยธรรมชาติ

สำหรับคำถามที่สอง R20.3อาจเป็นสิ่งที่ดีที่สุดที่คุณสามารถบีบข้อมูลออกมาได้ หากคุณสร้างแบบจำลองของคุณเพื่อการอนุมานต่ำR2ดีโดยสิ้นเชิงตราบใดที่สัมประสิทธิ์ที่คุณมีความสำคัญ หากคุณต้องการตรวจสอบว่ามีการติดตั้งโมเดลมากเกินไปหรือไม่คุณสามารถตรวจสอบได้R2 ในชุดทดสอบหรือทำการตรวจสอบข้าม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.