สมมติว่าฉันต้องการสร้างตัวจําแนกไบนารี ฉันมีคุณสมบัติหลายพันและตัวอย่างเพียงไม่กี่ 10s จากความรู้โดเมนผมมีเหตุผลที่ดีที่จะเชื่อว่าฉลากชั้นเรียนสามารถคาดการณ์ได้อย่างถูกต้องโดยใช้เพียงไม่กี่อย่าง แต่ผมไม่มีความคิดที่คน ฉันต้องการให้กฎการตัดสินใจขั้นสุดท้ายง่ายต่อการตีความ / อธิบายเพิ่มเติมโดยจำเป็นต้องมีคุณสมบัติจำนวนเล็กน้อย ชุดย่อยบางส่วนของคุณสมบัติของฉันมีความสัมพันธ์กันสูงดังนั้นการเลือกตัวเลือกทำนายที่น้อยที่สุดจะไม่ทำงาน ฉันยังต้องการที่จะสามารถทำการทดสอบสมมติฐานที่มีความหมายเกี่ยวกับคุณสมบัติของฉัน
ขั้นตอนการถดถอยแบบขั้นตอนต่อไปนี้สมเหตุสมผลภายใต้เงื่อนไขเหล่านี้:
เมื่อพิจารณาคุณลักษณะที่มีอยู่แล้วในโมเดล (หรือเพียงแค่การสกัดกั้นในการวนซ้ำครั้งแรก) ให้เลือกคุณลักษณะที่สร้างอัตราส่วนความน่าจะเป็นบันทึกที่ใหญ่ที่สุดเมื่อเพิ่มเข้ากับโมเดล ใช้อัตราส่วนการทดสอบไคสแควร์ในการคำนวณค่า P-value เล็กน้อยสำหรับการทดสอบสมมติฐานแต่ละครั้งที่ดำเนินการในการเลือกนี้ ค่า null ที่นี่คือการเพิ่มตัวแปรพิเศษเข้ากับโมเดลไม่มีความสามารถในการทำนายเพิ่มเติม ทางเลือกคือเพิ่มความสามารถในการทำนาย
ปฏิบัติต่อสมมติฐานที่ทดสอบในขั้นตอนที่ 1 ของการวนซ้ำในแต่ละครอบครัวและคำนวณอัตราการค้นพบที่ผิดพลาดสำหรับค่า P-value ที่น้อยที่สุด (สำหรับสถานที่ที่เลือก) โดยใช้บางอย่างเช่น
ไปที่ 1 เว้นแต่ว่าจะมีคุณสมบัติตรงตามเกณฑ์การหยุดบางอย่าง
รายงานอัตราการค้นพบที่ผิดพลาดสำหรับฟีเจอร์แต่ละรายการ แต่ไม่ใช่ค่า P-value สำหรับโมเดลโดยรวม (เนื่องจากจะมีการขยายตัวอย่างมาก) การทดสอบค่า P ที่ถูกต้องแต่ละการทดสอบหลายรายการเหล่านี้แสดงถึงนัยสำคัญทางสถิติของคุณลักษณะนั้นซึ่งได้รับคุณสมบัติทั้งหมดที่เพิ่มไว้ก่อนหน้านี้ในโมเดล
การทำสิ่งนี้ภายใต้สถานการณ์เหล่านี้ประสบความสำเร็จในการหลีกเลี่ยงการวิพากษ์วิจารณ์ทั่วไปของการถดถอยแบบขั้นตอนทั้งหมดหรือไม่? คำนวณอัตราการค้นพบที่ผิดด้วยวิธีนี้สมเหตุสมผลหรือไม่?