ฉันอยากจะถามคำถามนี้ในสองส่วน ทั้งสองจัดการกับโมเดลเชิงเส้นทั่วไป แต่ข้อตกลงแรกกับการเลือกรูปแบบและข้อตกลงอื่น ๆ ที่มีการทำให้เป็นมาตรฐาน
ความเป็นมา:ฉันใช้โมเดล GLMs (แบบเชิงเส้นโลจิสติกส์การถดถอยแบบแกมม่า) สำหรับการทำนายและคำอธิบาย เมื่อฉันอ้างถึง " สิ่งปกติที่เกิดขึ้นกับการถดถอย " ฉันหมายถึงคำอธิบายด้วย (i) ช่วงความมั่นใจรอบค่าสัมประสิทธิ์ (ii) ช่วงความเชื่อมั่นรอบการทำนายและ (iii) การทดสอบสมมติฐานเกี่ยวกับการรวมกันเชิงเส้นของสัมประสิทธิ์เช่น " มีความแตกต่างระหว่างการรักษา A และการรักษา B หรือไม่ "
คุณสูญเสียความสามารถในการทำสิ่งเหล่านี้อย่างถูกกฎหมายโดยใช้ทฤษฎีปกติภายใต้ข้อใดข้อหนึ่งต่อไปนี้หรือไม่? และถ้าเป็นเช่นนั้นสิ่งเหล่านี้จะดีสำหรับแบบจำลองที่ใช้สำหรับการทำนายที่บริสุทธิ์หรือไม่?
I.เมื่อ GLM มีความเหมาะสมผ่านกระบวนการคัดเลือกแบบบางรุ่น (สำหรับรูปสมส่วนบอกขั้นตอนแบบขั้นตอนตาม AIC)
ครั้งที่สอง เมื่อ GLM เหมาะสมผ่านวิธีการทำให้เป็นมาตรฐาน (พูดโดยใช้ glmnet ใน R)
ความรู้สึกของฉันคือสำหรับฉันคำตอบคือในทางเทคนิคที่คุณควรใช้ bootstrap สำหรับ " สิ่งปกติที่ทำกับการถดถอย " แต่ไม่มีใครปฏิบัติตามนั้น
เพิ่ม:
หลังจากได้รับการตอบสนองและการอ่านที่อื่น ๆ นี่คือสิ่งที่ฉันใช้เวลานี้ (เพื่อประโยชน์ของผู้อื่นเช่นเดียวกับการได้รับการแก้ไข)
I.
A) RE: ข้อผิดพลาดทั่วไป เพื่อสรุปอัตราความผิดพลาดของข้อมูลใหม่เมื่อไม่มีการตั้งค่าไว้การตรวจสอบข้ามสามารถทำงานได้ แต่คุณต้องทำซ้ำขั้นตอนทั้งหมดสำหรับแต่ละครั้ง - โดยใช้ลูปซ้อนกัน - ดังนั้นการเลือกคุณสมบัติใด ๆ การปรับพารามิเตอร์ ฯลฯ ต้องเป็น ทำอย่างอิสระในแต่ละครั้ง แนวคิดนี้ควรมีไว้สำหรับความพยายามในการสร้างแบบจำลอง (รวมถึงวิธีการลงโทษ)
B) RE: การทดสอบสมมติฐานและช่วงความมั่นใจของ GLMเมื่อใช้การเลือกแบบจำลอง (การเลือกคุณสมบัติ, การปรับพารามิเตอร์, การเลือกตัวแปร) สำหรับโมเดลเชิงเส้นแบบทั่วไปและชุดการพักค้างอยู่จะอนุญาตให้ฝึกโมเดลบนพาร์ติชันแล้วพอดีกับข้อมูลที่เหลือหรือชุดข้อมูลแบบเต็ม และใช้โมเดล / ข้อมูลนั้นเพื่อทำการทดสอบสมมุติฐานเป็นต้นหากไม่มีชุดโฮลด์เอ้าท์อยู่สามารถใช้ bootstrap ได้ตราบใดที่กระบวนการเต็มรูปแบบทำซ้ำสำหรับตัวอย่าง bootstrap แต่ละตัวอย่าง สิ่งนี้ จำกัด การทดสอบสมมติฐานที่สามารถทำได้แม้ว่าอาจจะไม่สามารถเลือกตัวแปรได้เช่นกัน
C) RE: ไม่ถือการคาดการณ์เกี่ยวกับชุดข้อมูลในอนาคตจากนั้นใส่แบบจำลองที่มีจุดมุ่งหมายตามทฤษฎีและแบบทดสอบสมมติฐานสองสามข้อและพิจารณาถึงการปล่อยตัวแปรทั้งหมดในแบบจำลอง (สำคัญหรือไม่) (ตามแนวของ Hosmer และ Lemeshow) นี่เป็นชุดตัวแปรขนาดเล็กแบบคลาสสิกของแบบจำลองการถดถอยแล้วอนุญาตให้ใช้การทดสอบของ CI และสมมติฐาน
D) RE: การถดถอยแบบลงโทษ ไม่มีคำแนะนำบางทีคิดว่าสิ่งนี้เหมาะสำหรับการคาดการณ์เท่านั้น (หรือเป็นประเภทของการเลือกคุณสมบัติเพื่อนำไปใช้กับชุดข้อมูลอื่นใน B ด้านบน) เนื่องจากอคติที่แนะนำทำให้ CI และการทดสอบสมมติฐานไม่ฉลาด - แม้กับ bootstrap