ฉันมีคำถามเกี่ยวกับการเลือกแบบจำลองและประสิทธิภาพของตัวแบบในการถดถอยโลจิสติก ฉันมีสามแบบซึ่งตั้งอยู่บนสมมติฐานที่แตกต่างกันสามแบบ สองรุ่นแรก (ให้ตั้งชื่อพวกเขาว่า z และ x) จะมีตัวแปรอธิบายเพียงตัวเดียวในแต่ละรุ่นและรุ่นที่สาม (ให้ชื่อมันด้วย) มีความซับซ้อนมากขึ้น ฉันใช้ AIC สำหรับการเลือกตัวแปรสำหรับรุ่น w แล้ว AIC เพื่อเปรียบเทียบว่าสามรุ่นใดที่อธิบายตัวแปรตามได้ดีที่สุด ฉันพบว่าโมเดล w มีค่า AIC ต่ำที่สุดและตอนนี้ต้องการทำสถิติประสิทธิภาพสำหรับโมเดลนั้นเพื่อให้ได้แนวคิดเกี่ยวกับพลังการทำนายของโมเดล เนื่องจากทั้งหมดที่ฉันรู้คือว่ารุ่นนี้ดีกว่าอีกสองคน แต่ไม่ดีเท่าไหร่
เนื่องจากฉันใช้ข้อมูลทั้งหมดเพื่อเรียนรู้รูปแบบ (เพื่อให้สามารถเปรียบเทียบทั้งสามรุ่น) ฉันจะทำอย่างไรกับประสิทธิภาพของโมเดล จากสิ่งที่ฉันรวบรวมฉันไม่สามารถทำการตรวจสอบความถูกต้องไขว้กันของ k-fold ในรุ่นสุดท้ายที่ฉันได้รับจากการเลือกแบบจำลองโดยใช้ AIC แต่ต้องเริ่มจากจุดเริ่มต้นด้วยตัวแปรอธิบายรวมอยู่ด้วยใช่ไหม ฉันคิดว่ามันเป็นรุ่นสุดท้ายที่ฉันเลือกกับ AIC ที่ฉันต้องการทราบว่ามันทำงานได้ดีเพียงใด แต่ตระหนักว่าฉันได้รับการฝึกอบรมเกี่ยวกับข้อมูลทั้งหมดเพื่อให้โมเดลนั้นมีความลำเอียง ดังนั้นถ้าฉันควรเริ่มจากจุดเริ่มต้นด้วยตัวแปรอธิบายทั้งหมดในทุกเท่าฉันจะได้แบบจำลองขั้นสุดท้ายที่แตกต่างกันสำหรับบางเท่าฉันสามารถเลือกแบบจำลองจากการพับซึ่งให้พลังการทำนายที่ดีที่สุดและนำไปใช้กับชุดข้อมูลแบบเต็มเพื่อเปรียบเทียบ AIC กับอีกสองรุ่น (z และ x)? หรือมันทำงานอย่างไร
ส่วนที่สองของคำถามของฉันคือคำถามพื้นฐานเกี่ยวกับการกำหนดพารามิเตอร์มากเกินไป ฉันมี 156 จุดข้อมูล 52 เป็น 1 ส่วนที่เหลือเป็น 0 ฉันมีตัวแปรอธิบาย 14 แบบให้เลือกสำหรับโมเดล w ฉันรู้ว่าฉันไม่สามารถรวมทั้งหมดได้เนื่องจากการกำหนดค่าพารามิเตอร์มากเกินไปฉันได้อ่านว่าคุณควรใช้ 10% ของกลุ่มของตัวแปรตามที่มีการสังเกตน้อยที่สุด จะเป็น 5 สำหรับฉันเท่านั้น ฉันพยายามตอบคำถามทางนิเวศวิทยามันเป็นการดีที่จะเลือกตัวแปรเริ่มต้นซึ่งฉันคิดว่าจะอธิบายสิ่งที่ดีที่สุดโดยขึ้นอยู่กับนิเวศวิทยาหรือไม่? หรือฉันจะเลือกตัวแปรอธิบายเริ่มต้นได้อย่างไร รู้สึกไม่ถูกต้องที่จะยกเว้นตัวแปรบางอย่างอย่างสมบูรณ์
ดังนั้นฉันมีสามคำถามจริง ๆ :
- เป็นไปได้ไหมที่จะทดสอบประสิทธิภาพของแบบจำลองที่ผ่านการฝึกอบรมกับชุดข้อมูลแบบเต็มด้วยการตรวจสอบความถูกต้องข้าม?
- ถ้าไม่ฉันจะเลือกรุ่นสุดท้ายเมื่อทำการตรวจสอบข้ามได้อย่างไร
- ฉันจะเลือกตัวแปรเริ่มต้นได้อย่างไรเพื่อที่ฉันต้องการให้มีพารามิเตอร์มากเกินไป?
ขอโทษสำหรับคำถามที่ยุ่งเหยิงของฉันและความไม่รู้ของฉัน ฉันรู้ว่ามีการถามคำถามที่คล้ายกัน แต่ยังรู้สึกสับสนเล็กน้อย ชื่นชมความคิดและข้อเสนอแนะใด ๆ