การฝึกอบรมการทดสอบการตรวจสอบในการวิเคราะห์ปัญหาการอยู่รอด


14

ฉันดูหัวข้อต่างๆที่นี่ แต่ฉันไม่คิดว่าจะตอบคำถามที่แน่นอน

ฉันมีชุดข้อมูลของนักเรียนประมาณ 50,000 คนและเวลาในการออกกลางคัน ฉันจะทำการลดความเสี่ยงตามสัดส่วนที่มีค่าความแปรปรวนจำนวนมาก ฉันกำลังจะทำการถดถอยโลจิสติกเมื่อออกกลางคัน / อยู่ต่อเป้าหมายหลักคือการคาดการณ์สำหรับนักเรียนกลุ่มใหม่

โดยทั่วไปแล้วฉันไม่มีความหรูหราของข้อมูลและทำตัวแบบที่เหมาะสมกับการลงโทษ แต่คราวนี้ฉันคิดว่าการแยกชุดฝึกอบรมและชุดข้อมูลทดสอบแล้วทำการเลือกตัวแปรในชุดฝึกอบรม จากนั้นใช้ชุดข้อมูลทดสอบสำหรับการประมาณค่าพารามิเตอร์และความสามารถในการทำนาย

นี่เป็นกลยุทธ์ที่ดีใช่ไหม ถ้าไม่ดีกว่าอะไร

ยินดีต้อนรับการอ้างอิง แต่ไม่จำเป็น

คำตอบ:



3

ฉันได้อ่านบทความนี้ด้วยตัวเองเพื่อทำหน้าที่คล้ายกันในการทำนายการเอาตัวรอดที่ตรวจสอบได้ บิตที่ดีเริ่มต้นที่บทที่ 2


สิ่งนี้ปรากฏขึ้นเพื่อเปรียบเทียบค่าประมาณ 5 เท่ากับรุ่น CV (และสรุปได้ว่า 5 เท่าดีกว่า) แต่ฉันสนใจที่จะแยกข้อมูลออกเป็น 2 ส่วนและใช้ส่วนหนึ่งเพื่อตรวจสอบอีกส่วนหนึ่ง
Peter Flom - Reinstate Monica

1
สิ่งที่ฉันค้นพบจากเรื่องนี้และทำไมฉันถึงติดใจในบทความนี้ในตอนแรกก็คือทำอย่างไรจึงจะจัดการกับการเซ็นเซอร์ในการทำนายการเอาตัวรอดเช่นการใช้ฟังก์ชั่นการสูญเสีย (แม้ว่าจะอ่านคำถามของคุณ
Cam.Davidson.Pilon

ฉันมีการเซ็นเซอร์และวิทยานิพนธ์เป็นเรื่องที่น่าสนใจ แต่ก็ไม่ใช่คำตอบสำหรับคำถามของฉันฉันไม่คิด
Peter Flom - Reinstate Monica

1

ฉันได้พบบทความนี้ซึ่งไม่เพียง แต่ตอบคำถามของฉัน แต่ให้วิธีการหาการแยกที่ดีที่สุดสำหรับชุดข้อมูลเฉพาะ ฉันพบสิ่งนี้ต้องขอบคุณ @FrankHarrell ในการใช้คำว่า "การกำหนดค่าแยกที่เหมาะสมที่สุด" ซึ่งฉันก็ใช้ Googled


2
ปีเตอร์ฉันคิดว่ากระดาษใช้กฎการให้คะแนนที่ไม่เหมาะสม อาจได้ผลลัพธ์ที่แตกต่างกันเมื่อใช้กฎการให้คะแนนที่เหมาะสม นอกจากนี้กระดาษไม่ได้ระบุ "ความผันผวน" ของการวิเคราะห์ เมื่อพิจารณาถึงขนาดตัวอย่างขนาดเล็กทั้งหมดการทำกระบวนการซ้ำโดยใช้การแบ่งแบบสุ่มที่แตกต่างกันจะส่งผลให้แบบจำลองที่แตกต่างกันมากและมีความแม่นยำแตกต่างกันมากเมื่อเทียบกับการแยกครั้งแรก ฉันเห็นว่าไม่พึงประสงค์มาก
Frank Harrell

@ FrankHarrell: ฉันเห็นจุดของคุณและมันก็เป็นจุดที่ดีมาก ถ้าอย่างนั้นคุณแนะนำให้ทำอะไร? Peform Monte Carlo วิ่งแยกรถไฟ / ทดสอบแล้วในการวิ่งแต่ละครั้ง ix k-folds CV (หรือ bootstrapping)? แต่สิ่งนี้จะทำให้ชุดข้อมูลทั้งหมดปนเปื้อน .... ฉันไม่เห็นทางออกที่ดีไปกว่าการหาวิธีที่เหมาะสมในการแยกชุดข้อมูลออกเป็นชุดฝึกอบรมและชุดทดสอบ (เกณฑ์จะเป็นอย่างไร) ชุดข้อมูลเพื่อฝึกอบรมและตรวจสอบความถูกต้อง (โดยใช้ CV หรือบูต) โมเดล (ซึ่งหนึ่ง (หรือหลายรายการ) จะถูกใช้เพื่อทำนายค่าเอาต์พุตที่ไม่รู้จักตามข้อมูลอินพุตบางตัว)
jpcgandre

ฉันพูดถึงว่าในโพสต์คุณเพิ่งโพสต์ในหน้าหัวข้ออื่น
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.