พื้นหลัง
ฉันกำลังทำวิจัยทางคลินิกด้านการแพทย์และมีหลักสูตรสถิติหลายหลักสูตร ฉันไม่เคยตีพิมพ์บทความโดยใช้การถดถอยเชิงเส้น / โลจิสติกและต้องการเลือกตัวแปรอย่างถูกต้อง การตีความเป็นสิ่งสำคัญดังนั้นจึงไม่มีเทคนิคการเรียนรู้ด้วยเครื่อง ฉันได้สรุปความเข้าใจของฉันเกี่ยวกับการเลือกตัวแปร - บางคนจะมีจิตใจที่เข้าใจถึงความเข้าใจผิด ๆ ผมพบว่าสอง (1) ที่คล้ายกัน (2) โพสต์ CV ให้เป็นหนึ่งในนี้ แต่พวกเขาไม่ได้ค่อนข้างเต็มที่ตอบข้อสงสัยของฉัน ความคิดใด ๆ ที่จะได้รับการชื่นชมมาก! ฉันมี 3 คำถามหลักในตอนท้าย
ปัญหาและการสนทนา
ปัญหาการถดถอย / การจำแนกประเภทโดยทั่วไปของฉันมีการสังเกต 200-300 ครั้งอัตราการเกิดเหตุการณ์ไม่พึงประสงค์ 15% (หากการจำแนก) และข้อมูลเกี่ยวกับตัวแปร 25 จาก 40 ที่อ้างว่ามีผลกระทบ "นัยสำคัญทางสถิติ" ในวรรณคดีหรือทำให้น่าเชื่อถือ ความรู้สึกโดยโดเมนความรู้
ฉันใส่ "นัยสำคัญทางสถิติ" ในเครื่องหมายคำพูดเพราะดูเหมือนว่าทุกคนและแม่ของพวกเขาใช้การถดถอยแบบขั้นตอน แต่Harrell (3) และFlom (4) ดูเหมือนจะไม่ชอบด้วยเหตุผลหลายประการ สิ่งนี้ได้รับการสนับสนุนเพิ่มเติมจากการสนทนาโพสต์บล็อกของ Gelman (5) ดูเหมือนว่าเวลาจริงเท่านั้นที่เป็นขั้นตอนเป็นที่ยอมรับคือถ้านี่เป็นการวิเคราะห์เชิงสำรวจอย่างแท้จริงหรือมีใครสนใจทำนายและมีรูปแบบการตรวจสอบข้ามที่เกี่ยวข้อง โดยเฉพาะอย่างยิ่งเนื่องจากผู้ป่วยโรคทางการแพทย์หลายคนต้องทนทุกข์ทรมานจากความไม่ลงรอยกันและการศึกษาประสบจากตัวอย่างขนาดเล็กความเข้าใจของฉันคือจะมีผลบวกเท็จมากมายในวรรณคดี สิ่งนี้ยังทำให้ฉันมีความน่าเชื่อถือน้อยลงในวรรณกรรมสำหรับตัวแปรที่เป็นไปได้
แนวทางที่ได้รับความนิยมอีกวิธีหนึ่งคือการใช้ชุดของการถดถอย / การเชื่อมโยงแบบไม่เปลี่ยนแปลงระหว่างตัวทำนายและตัวแปรอิสระเป็นจุดเริ่มต้น ต่ำกว่าเกณฑ์เฉพาะ (พูด, p <0.2) ดูเหมือนว่าไม่ถูกต้องหรือทำให้เข้าใจผิดอย่างน้อยด้วยเหตุผลที่อธิบายไว้ในโพสต์ StackExchange นี้ (6)
สุดท้ายวิธีอัตโนมัติที่ได้รับความนิยมในการเรียนรู้ของเครื่องคือการใช้การลงโทษเช่น L1 (Lasso), L2 (Ridge) หรือ L1 + L2 คอมโบ (Elastic Net) ความเข้าใจของฉันคือว่าสิ่งเหล่านี้ไม่มีการตีความง่าย ๆ เหมือนกับ OLS หรือการถดถอยโลจิสติก
Gelman + Hill เสนอสิ่งต่อไปนี้:
ในหลักสูตรสถิติของฉันฉันยังจำได้ว่าใช้การทดสอบแบบ F หรือการวิเคราะห์ความเบี่ยงเบนเพื่อเปรียบเทียบแบบจำลองแบบเต็มและแบบซ้อนเพื่อทำตัวแปรการเลือกแบบจำลอง / ตัวแปรตามตัวแปร ดูเหมือนว่ามีเหตุผล แต่ตัวแบบเรียงซ้อนแบบเรียงตามลำดับอย่างเป็นระบบเพื่อค้นหาตัวแปรที่ทำให้เกิดการเบี่ยงเบนที่ใหญ่ที่สุดต่อ df ดูเหมือนว่าจะเป็นไปโดยอัตโนมัติได้อย่างง่ายดาย (ดังนั้นฉันจึงกังวลเล็กน้อย) และดูเหมือนว่า คุณทดสอบการรวมตัวแปร ความเข้าใจของฉันคือว่าสิ่งนี้ควรได้รับการเสริมด้วยการตรวจสอบความหลากสีและพล็อตที่เหลือ (ที่เหลือเทียบกับที่คาดการณ์ไว้)
คำถาม:
Gelman สรุปวิธีไปหรือไม่? คุณจะเพิ่มหรือเปลี่ยนแปลงอะไรในกลยุทธ์ที่เขาเสนอ
นอกเหนือจากการคิดอย่างหมดจดเกี่ยวกับการโต้ตอบและการเปลี่ยนแปลงที่อาจเกิดขึ้น (ซึ่งดูเหมือนว่ามีอคติ / ผิดพลาด / ละเลยได้ง่าย) มีวิธีอื่นที่จะค้นพบสิ่งที่อาจเป็นไปได้หรือไม่? Multivariate adaptive regline spline (MARS)แนะนำให้ฉัน แต่ฉันได้รับแจ้งว่าการไม่เป็นเชิงเส้น / การแปลงไม่ได้แปลเป็นตัวแปรเดียวกันในรูปแบบการถดถอยมาตรฐาน
สมมติว่าเป้าหมายของฉันง่ายมาก: พูดว่า "ฉันต้องการประเมินความสัมพันธ์ของ X1 ใน Y, เพียงบัญชีสำหรับ X2" มันเพียงพอแล้วหรือไม่ที่จะถดถอย Y ~ X1 + X2 รายงานผลลัพธ์โดยไม่ต้องอ้างอิงความสามารถในการทำนายที่แท้จริง การเปลี่ยนแปลงนี้ขึ้นอยู่กับอัตรากิจกรรมหรือขนาดตัวอย่างหรือถ้า R ^ 2 ต่ำมาก (ฉันทราบว่า R ^ 2 ไม่ดีเพราะคุณสามารถเพิ่มได้เสมอโดยการใส่ให้มากเกินไป)? โดยทั่วไปฉันสนใจที่จะอนุมาน / ตีความได้มากกว่าการเพิ่มประสิทธิภาพการทำนาย
ตัวอย่างข้อสรุป:
- "การควบคุม X2 นั้น X1 นั้นไม่มีนัยสำคัญทางสถิติที่เกี่ยวข้องกับ Y เมื่อเทียบกับระดับการอ้างอิงของ X1" (สัมประสิทธิ์การถดถอยโลจิสติก)
- "X1 ไม่ใช่ตัวทำนายที่มีนัยสำคัญทางสถิติของ Y เนื่องจากในการลดลงของความเบี่ยงเบนของแบบจำลองนั้นไม่เพียงพอเมื่อเทียบกับการเปลี่ยนแปลงใน df" (การวิเคราะห์ความเบี่ยงเบน)
การตรวจสอบข้ามจำเป็นหรือไม่ ในกรณีนี้เราอาจต้องการสร้างความสมดุลให้กับชั้นเรียนผ่าน SMOTE การสุ่มตัวอย่างและอื่น ๆ