การถดถอยแบบลอจิสติกและการสุ่มตัวอย่าง


13

ฉันเหมาะสมการถดถอยโลจิสติกแบบขั้นตอนในชุดของข้อมูลใน SPSS ในขั้นตอนนี้ฉันปรับโมเดลของฉันเป็นชุดย่อยแบบสุ่มที่มีค่าประมาณ 60% ของกลุ่มตัวอย่างทั้งหมดมีประมาณ 330 ราย

สิ่งที่ฉันคิดว่าน่าสนใจคือทุกครั้งที่ฉันสุ่มตัวอย่างข้อมูลของฉันอีกครั้งฉันจะได้รับตัวแปรที่แตกต่างกันออกมาในรูปแบบสุดท้าย มีผู้ทำนายไม่กี่คนที่ปรากฏตัวในรุ่นสุดท้ายเสมอ

คำถามของฉันคือสิ่งนี้ วิธีที่ดีที่สุดในการจัดการกับสิ่งนี้คืออะไร? ฉันหวังว่าจะเห็นการรวมกันของตัวแปรทำนาย แต่นั่นไม่ใช่กรณี บางรุ่นมีความรู้สึกที่เข้าใจง่ายกว่ามากจากมุมมองด้านปฏิบัติการ (และจะอธิบายได้ง่ายกว่ากับผู้มีอำนาจตัดสินใจ) และคนอื่น ๆ ก็พอดีกับข้อมูลที่ดีกว่าเล็กน้อย

ในระยะสั้นเนื่องจากมีการสับเปลี่ยนตัวแปรคุณจะแนะนำให้จัดการกับสถานการณ์ของฉันได้อย่างไร

ขอบคุณมากล่วงหน้า

คำตอบ:


16

หากคุณกำลังจะใช้ขั้นตอนแบบขั้นตอนอย่าลองใหม่ สร้างหนึ่งตัวอย่างย่อยแบบสุ่มหนึ่งครั้งและทั้งหมด ทำการวิเคราะห์ของคุณกับมัน ตรวจสอบผลลัพธ์กับข้อมูลที่ถูกระงับ เป็นไปได้ว่าตัวแปร "สำคัญ" ส่วนใหญ่จะกลายเป็นไม่สำคัญ

( แก้ไข 12/2015:คุณสามารถไปไกลกว่าวิธีง่าย ๆ เช่นโดยการ resampling ทำซ้ำขั้นตอนตามขั้นตอนและตรวจสอบซ้ำอีกครั้ง: สิ่งนี้จะนำคุณไปสู่รูปแบบของการตรวจสอบความถูกต้องไขว้กัน แต่ในกรณีเช่นนี้ การเลือกเช่นการถดถอยของสัน, Lasso และ Elastic Net น่าจะดีกว่าการถดถอยแบบขั้นตอน)

มุ่งเน้นไปที่ตัวแปรที่สมเหตุสมผลไม่ใช่ตัวที่เหมาะสมกับข้อมูลดีกว่าเล็กน้อย หากคุณมีตัวแปรจำนวนไม่น้อยกว่า 330 รายการคุณมีความเสี่ยงสูงที่จะได้รับข้อมูลมากเกินไปตั้งแต่แรก พิจารณาใช้เกณฑ์การเข้าและออกอย่างรุนแรงสำหรับการถดถอยแบบขั้นตอน ยึดตาม AIC หรือแทนเกณฑ์สำหรับการทดสอบหรือการทดสอบพีFเสื้อ

(ฉันคิดว่าคุณได้ทำการวิเคราะห์และสำรวจแล้วเพื่อระบุการแสดงออกที่เหมาะสมของตัวแปรอิสระว่าคุณได้ระบุปฏิสัมพันธ์ที่น่าจะเป็นไปได้และคุณได้พิสูจน์แล้วว่ามีความสัมพันธ์เชิงเส้นโดยประมาณระหว่าง logit ของตัวแปรตาม และ regressors ถ้าไม่ให้ทำขั้นตอนเบื้องต้นที่จำเป็นและจากนั้นกลับไปที่การถดถอยแบบขั้นตอน)

ระมัดระวังเกี่ยวกับการปฏิบัติตามคำแนะนำทั่วไปเช่นเดียวกับที่ฉันให้ไว้โดย :-) แนวทางของคุณควรขึ้นอยู่กับวัตถุประสงค์ของการวิเคราะห์ (การคาดการณ์การคาดการณ์ความเข้าใจทางวิทยาศาสตร์การตัดสินใจรวมถึงลักษณะของข้อมูลจำนวนตัวแปร ฯลฯ


2
+1 สำหรับการเน้นความสำคัญของการตีความแบบจำลอง ฉันจะไม่เพิ่มอะไรเกี่ยวกับวิธีการ ML ที่ไม่ทราบ (หรือวิธีการรวมกัน) ด้วยรูปแบบการตรวจสอบข้ามที่ซับซ้อนมากขึ้นเพราะฉันรู้สึกว่าคุณพูดแล้วว่าสิ่งที่สำคัญจริง ๆ ที่นี่: (1) การเลือกคุณสมบัติผ่านการ resampling โดยการเปรียบเทียบผลลัพธ์หนึ่งรายการกับอีกผลลัพธ์หนึ่ง) และ (2) ทั้งหมดขึ้นอยู่กับว่าเรากำลังมองหาแบบจำลองการทำนายหรือแบบอธิบาย
chl

ขอบคุณสำหรับความเข้าใจของคุณ ฉันได้ทำการคัดกรองล่วงหน้าเพื่อ จำกัด พื้นที่การค้นหาของฉันและเพียงต้องการค้นหาแบบจำลองที่ดีที่สุดสำหรับการทำนายด้วยตัวแปรที่น้อยที่สุด ฉันแค่โยนตัวทำนาย 7 ตัวลงในแบบจำลองซึ่งอย่างที่ฉันเข้าใจมันก็น่าจะโอเค ฉันเข้าใจความคิดของการเกาะกลุ่มตัวอย่าง แต่ในทางกลับกันโมเดลของฉันแตกต่างกันอย่างมากและแสดงให้เห็นว่าผลลัพธ์นั้นขึ้นอยู่กับกลุ่มตัวอย่างทั้งหมดซึ่งทำให้ฉันหยุดชั่วคราว
Btibert3

@ Btibert3 ถูกต้อง: เมื่อผลลัพธ์แตกต่างกันไปในชุดย่อยของข้อมูลของคุณคุณสามารถใช้มันเพื่อเป็นหลักฐานว่าตัวแปรอิสระไม่ได้คาดเดาอย่างเข้มงวดหรือสอดคล้องกันของตัวแปรอิสระ
whuber

12

คำถามที่สำคัญคือ "ทำไมคุณถึงต้องการโมเดลที่มีตัวแปรน้อยที่สุดเท่าที่จะเป็นไปได้" หากคุณต้องการให้มีตัวแปรน้อยที่สุดเท่าที่จะเป็นไปได้เพื่อลดต้นทุนในการรวบรวมข้อมูลสำหรับการใช้งานแบบจำลองของคุณคำตอบที่ได้รับจาก whuber และ mbq คือการเริ่มต้นที่ยอดเยี่ยม

หากประสิทธิภาพการทำนายเป็นสิ่งที่สำคัญจริง ๆ แล้วคุณน่าจะดีกว่าถ้าไม่เลือกคุณลักษณะใด ๆ เลยและใช้การถดถอยโลจิสติกเป็นประจำแทน (cf ridge regression) ในความเป็นจริงหากประสิทธิภาพการคาดการณ์เป็นสิ่งที่มีความสำคัญอันดับแรกฉันจะใช้การถดถอยโลจิสติกเป็นประจำที่จัดเป็นกลยุทธ์ "สายพานและเหล็กดัด" เพื่อหลีกเลี่ยงชุดข้อมูลขนาดเล็ก มิลลาร์ในหนังสือของเขาเกี่ยวกับการเลือกชุดย่อยในการถดถอยให้คำแนะนำในภาคผนวกและฉันพบว่ามันเป็นคำแนะนำที่ดีเยี่ยมสำหรับปัญหาเกี่ยวกับคุณสมบัติมากมายและไม่ได้สังเกตมากนัก

หากการทำความเข้าใจข้อมูลนั้นมีความสำคัญแล้วก็ไม่จำเป็นต้องใช้แบบจำลองเพื่อทำความเข้าใจข้อมูลที่จะเป็นแบบเดียวกับที่ใช้ในการทำนาย ในกรณีนั้นฉันจะสุ่มข้อมูลซ้ำหลายครั้งและดูรูปแบบของตัวแปรที่เลือกในตัวอย่างเพื่อค้นหาว่าตัวแปรใดเป็นข้อมูล (ตามที่ mbq แนะนำหากการเลือกคุณลักษณะไม่เสถียรตัวอย่างเดียวจะไม่ให้ภาพเต็ม) แต่ฉันจะยังคงใช้ชุดการถดถอยโลจิสติกส์โลจิสติกส์แบบปกติในการทำนาย


1
+1 สำหรับตัวชี้ไปยังการถดถอยโลจิสติกปกติ ไม่มีความชัดเจนว่าจะ "ดูรูปแบบ" อย่างเป็นทางการได้อย่างไรเมื่อทำการสุ่ม "ข้อมูลซ้ำหลาย ๆ ครั้ง" ฟังดูเหมือนการสอดแนมข้อมูลและดูเหมือนว่าจะนำไปสู่ความยุ่งยากและความผิดพลาด
whuber

5
การเลือกคุณสมบัติเมื่อการเลือกไม่เสถียรจะเป็นสูตรสำหรับความยุ่งยากและความผิดพลาดเสมอ การใช้เพียงตัวอย่างเดียวเท่านั้นที่ช่วยลดความยุ่งยาก แต่เพิ่มโอกาสในการเกิดข้อผิดพลาดเนื่องจากมันกระตุ้นให้คุณทำการอนุมานเกี่ยวกับคุณสมบัติที่เกี่ยวข้องสำหรับปัญหาโดยพิจารณาจากสิ่งที่ดีที่สุดสำหรับตัวอย่างเฉพาะที่คุณดูซึ่งเป็นรูปแบบที่มากเกินไป เหมาะสม การสุ่มตัวอย่างใหม่ช่วยให้คุณทราบถึงความไม่แน่นอนในการเลือกคุณสมบัติ - ซึ่งมักจะสำคัญพอ ๆ ในกรณีนี้เราไม่ควรสรุปที่ชัดเจนเกี่ยวกับคุณสมบัติที่เกี่ยวข้องเนื่องจากมีข้อมูลไม่เพียงพอ
Dikran Marsupial

จุดดี; ฉันเกลียดเมื่อคนนับค่าเฉลี่ยจากการ resampling เท่านั้นมันเป็นขยะ

10

โดยทั่วไปการเลือกคุณลักษณะมีสองปัญหา:

  • น้อยที่สุดที่ดีที่สุดที่คุณค้นหาชุดของตัวแปรที่เล็กที่สุดที่ทำให้คุณมีข้อผิดพลาดน้อยที่สุด
  • ทั้งหมดที่เกี่ยวข้องซึ่งคุณค้นหาตัวแปรทั้งหมดที่เกี่ยวข้องในปัญหา

การบรรจบกันของการเลือกผู้ทำนายอยู่ในโดเมนของปัญหาที่เกี่ยวข้องทั้งหมดซึ่งเป็นเรื่องยากและต้องใช้เครื่องมือที่มีประสิทธิภาพมากกว่าการถดถอยโลจิสติกการคำนวณอย่างหนักและการรักษาอย่างระมัดระวัง

แต่ดูเหมือนว่าคุณกำลังทำปัญหาแรกดังนั้นคุณไม่ควรกังวลเกี่ยวกับเรื่องนี้ โดยทั่วไปฉันสามารถคำตอบของ whuber ที่สอง แต่ฉันไม่เห็นด้วยกับการเรียกร้องที่คุณควรปล่อย resampling - ที่นี่มันจะไม่เป็นวิธีที่จะทำให้การเลือกคุณลักษณะมีเสถียรภาพ ดังนั้นจะให้ข้อมูลเชิงลึกเกี่ยวกับความมั่นใจในความถูกต้องของคุณ


+1 ฉันกังวลว่าการสุ่มตัวอย่างใหม่จำนวนมากจะทำให้เกิดความสับสนและทำให้เข้าใจผิด การสุ่มตัวอย่างใหม่ในวิธีการควบคุมผ่านการตรวจสอบความถูกต้องของข้อมูลหรือตัวอย่างการยืนยันเพื่อยืนยันไม่ชัดเจนว่าเป็นปัญหา
whuber

6

คุณอาจเหลียวมองดูกระดาษStability Selectionโดย Meinshausen และ Buhlmann ใน JR Statist Soc B (2010) 72 ส่วนที่ 4 และการสนทนาหลังจากนั้น พวกเขาพิจารณาว่าจะเกิดอะไรขึ้นเมื่อคุณแบ่งชุดของจุดข้อมูลแบบสุ่มเป็นสองส่วนและค้นหาคุณลักษณะในแต่ละครึ่ง โดยสมมติว่าสิ่งที่คุณเห็นในครึ่งหนึ่งนั้นเป็นอิสระจากสิ่งที่คุณเห็นในการจับคู่อีกครึ่งหนึ่งคุณสามารถพิสูจน์ขอบเขตของจำนวนตัวแปรที่เลือกอย่างผิด ๆ


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.