ทำไมการเลือกตัวแปรจึงจำเป็น?


31

ขั้นตอนการเลือกตัวแปรตามข้อมูลทั่วไป (ตัวอย่างเช่นไปข้างหน้าย้อนหลังตามลำดับส่วนย่อยทั้งหมด) มีแนวโน้มที่จะให้แบบจำลองที่มีคุณสมบัติที่ไม่พึงประสงค์รวมถึง:

  1. สัมประสิทธิ์เอนเอียงห่างจากศูนย์
  2. ข้อผิดพลาดมาตรฐานที่เล็กเกินไปและเป็นช่วงความมั่นใจที่แคบเกินไป
  3. ทดสอบสถิติและค่า p ที่ไม่มีความหมายที่โฆษณา
  4. การประเมินแบบจำลองที่เหมาะสมในแง่ดีเกินไป
  5. คำที่รวมอยู่ซึ่งอาจไม่มีความหมาย (เช่นการยกเว้นคำสั่งที่ต่ำกว่า)

กระนั้นขั้นตอนการเลือกตัวแปรยังคงมีอยู่ ได้รับปัญหาเกี่ยวกับการเลือกตัวแปรทำไมขั้นตอนเหล่านี้จึงจำเป็น? แรงจูงใจในการใช้งานของพวกเขาคืออะไร?

ข้อเสนอบางอย่างเพื่อเริ่มการสนทนา ....

  • ความปรารถนาสำหรับค่าสัมประสิทธิ์การถดถอยที่ตีความได้? (เข้าใจผิดในรูปแบบที่มี IV จำนวนมาก?)
  • กำจัดความแปรปรวนที่แนะนำโดยตัวแปรที่ไม่เกี่ยวข้อง?
  • กำจัดความแปรปรวนร่วม / ความซ้ำซ้อนที่ไม่จำเป็นในหมู่ตัวแปรอิสระหรือไม่?
  • ลดจำนวนการประมาณการพารามิเตอร์ (ปัญหาเรื่องพลังงานขนาดตัวอย่าง)

มีคนอื่นไหม? ปัญหาที่ได้รับการแก้ไขโดยเทคนิคการเลือกตัวแปรมีความสำคัญมากกว่าหรือน้อยกว่ากระบวนการเลือกตัวแปรที่เป็นปัญหา ควรใช้เมื่อใด เมื่อใดที่ไม่ควรใช้


ในความคิดของฉันเพื่อหารือเกี่ยวกับปัญหาอย่างชัดเจนเราต้องระบุมันด้วยวิธีที่ดีก่อนจากนั้นกำหนดในรูปแบบทางคณิตศาสตร์ที่เหมาะสม สำหรับปัญหาการเลือกตัวแปรสำหรับเช่นตัวแบบการถดถอยเชิงเส้น ดูเหมือนว่ามีเหตุผลที่จะแก้ไขแบบจำลองเป็นอันดับแรกและศึกษา (i) ข้อดี / ข้อเสีย (เช่นการปรับปรุง / แย่ลงในการประมาณค่าหรือการทำนาย) ของการเลือกตัวแปร? (ii) ข้อดีของขั้นตอนการเลือกตัวแปรเปรียบเทียบกับการประเมิน LS หรือไม่

คำตอบ:


17

การเลือกตัวแปร (โดยไม่มีการลงโทษ) ทำให้สิ่งเลวร้ายลงเท่านั้น การเลือกตัวแปรนั้นแทบไม่มีโอกาสที่จะค้นหาตัวแปร "ถูกต้อง" และส่งผลให้เกิดการพูดเกินจริงของผลกระทบของตัวแปรที่เหลือและการพูดถึงข้อผิดพลาดมาตรฐานจำนวนมาก เป็นความผิดพลาดที่จะเชื่อว่าการเลือกตัวแปรที่ทำในวิธีปกติช่วยให้เราสามารถแก้ไขปัญหา "ใหญ่ p เล็ก n" บรรทัดล่างคือรุ่นสุดท้ายที่ทำให้เข้าใจผิดในทุก ๆ ด้าน สิ่งนี้เกี่ยวข้องกับคำแถลงที่น่าประหลาดใจที่ฉันอ่านในเอกสารระบาดวิทยา: "เราไม่มีขนาดตัวอย่างที่เพียงพอในการพัฒนาแบบจำลองหลายตัวแปรดังนั้นเราจึงทำการทดสอบที่เป็นไปได้ทั้งหมดสำหรับตาราง 2x2"

เมื่อใดก็ตามที่ชุดข้อมูลในมือถูกนำมาใช้เพื่อกำจัดตัวแปรในขณะที่การใช้งานของ Y ในการตัดสินใจปริมาณทางสถิติทั้งหมดจะถูกบิดเบือน การเลือกตัวแปรทั่วไปเป็นภาพลวงตา

แก้ไข : (คัดลอกความคิดเห็นจากด้านล่างซ่อนโดยครึ่งหน้า)

ฉันไม่ต้องการให้บริการตนเอง แต่กลยุทธ์การสร้างแบบจำลองการถดถอยหนังสือของฉันมีส่วนร่วมในเชิงลึก วัสดุออนไลน์รวมทั้งเอกสารประกอบคำบรรยายอาจจะพบได้ที่หน้าเว็บของฉัน วิธีการบางอย่างที่มีคือการลงโทษ (การถดถอยสัน), การลงโทษ (เชือก) และตาข่ายยางยืดที่เรียกว่า (การรวมกันของและ ) หรือใช้การลดข้อมูล (blinded to response ) ก่อนที่จะทำการถดถอย หนังสือของฉันใช้พื้นที่ในส่วนนี้มากกว่าการลงโทษL2L1L1L2Y


6
ฉันคิดว่าคำตอบนี้จะได้รับการปรับปรุงโดยให้คำแนะนำเกี่ยวกับวิธีดำเนินการต่อไป คำตอบนั้นสร้างข้อความที่กว้างขวางและชัดเจน (ซึ่งโดยทั่วไปแล้วฉันเห็นด้วย) โดยไม่มีการอ้างอิงถึงแหล่งข้อมูลที่จะระงับการอ้างสิทธิ์ การลงโทษแน่นอนไม่ใช่ยาครอบจักรวาลเช่นกันและมีหลายทางเลือกที่จะทำหากมีใครไปตามทางนั้น
พระคาร์ดินัล

3
โปรดดูด้านบนที่ฉันให้ข้อมูลเพิ่มเติม วิธีที่สั้นที่สุดในการระบุปัญหาคือสาเหตุหลักที่ตัวแปร "เลือก" นั้นเป็นเพราะผลกระทบของมันถูกประเมินมากเกินไป
Frank Harrell

2
ใช่ฉันเห็นด้วยว่าหนังสือของคุณมีเนื้อหาที่ดีเกี่ยวกับเรื่องนี้เช่น ESL (ที่กล่าวว่ามีอย่างน้อยสองสามตัวอย่างใน ESL ที่ใช้รูปแบบของการเลือกแบบย้อนหลังบางอย่างเช่นกัน) คุณพูดถึงการลงโทษ (aka การถดถอยของสันเขา ) แต่โดยทั่วไปแล้วไม่ได้ไกลเกินไปในแง่ของตัวแปร / โมเดล เลือกต่อ se ตาข่ายยืดหยุ่นนั้นมีพฤติกรรมที่ใช้ได้ แต่ข้อเสียเปรียบในใจของฉันก็คือไม่ว่าคุณจะมองอย่างไรมันก็ไม่ยอมรับการตีความ "สถิติ" ที่ดีมากหรือเป็นธรรมชาติในขณะที่การและทำได้ดี L2L1L2
พระคาร์ดินัล

2
คะแนนที่ดีแม้ว่าฉันคิดว่าให้การตีความตามธรรมชาติเพราะเป็นเพียงอีกวิธีหนึ่งในการประมาณค่าสัมประสิทธิ์โมเดลเดียวกัน คุณคิดถูกว่าไม่มีจะไม่ลบตัวแปรใด ๆ เราทำเพื่อประสิทธิภาพการทำงานที่เหนือกว่าและการคาดการณ์ที่จะจัดการกับขนาดใหญ่เล็กกรณี L2L2L1pn
Frank Harrell

2
บางทีความคิดเห็นของฉันอาจไม่ชัดเจนเท่าที่ฉันตั้งใจ ใช่ฉันยอมรับว่าการลงโทษด้วยตัวเองมีการตีความที่ดีหลายครั้งถึงแม้ว่ามันจะไม่ส่งผลให้เกิดการเลือกตัวแปรใด ๆ มันเป็นตาข่ายที่ยืดหยุ่นที่ฉันไม่พบว่ามีแรงจูงใจดีหรือเป็นธรรมชาติจากมุมมองทางสถิตินอกเหนือจากข้อเท็จจริงที่ว่าในบางกรณีประสิทธิภาพการทำนายที่ดีขึ้น L2
พระคาร์ดินัล

14

ก่อนอื่นข้อเสียที่คุณกล่าวถึงคือผลกระทบของการเลือกคุณสมบัติที่ผิดเช่นการติดตั้งมากเกินไปไม่เสร็จหรือเกินกำหนด

FS "อุดมคติ" มีสองขั้นตอน สิ่งแรกคือการลบตัวแปรทั้งหมดที่ไม่เกี่ยวข้องกับ DV (เรียกว่าปัญหาที่เกี่ยวข้องทั้งหมด , งานที่ยากมาก, ไม่เกี่ยวข้องกับตัวแบบ / ลักษณนามที่ใช้), อันดับที่สองคือการ จำกัด ชุดของตัวแปรเหล่านั้นเท่านั้นที่สามารถใช้ได้อย่างเหมาะสมที่สุด รูปแบบ (เช่นและเป็นสิ่งที่ดีอย่างเท่าเทียมกันในการอธิบายแต่รูปแบบเชิงเส้นค่อนข้างจะล้มเหลวในการใช้ในกรณีทั่วไป) - หนึ่งนี้เรียกว่าดีที่สุดที่น้อยที่สุดeYYYeY

ระดับที่เกี่ยวข้องทั้งหมดให้ข้อมูลเชิงลึกเกี่ยวกับสิ่งที่ผลักดันกระบวนการที่กำหนดดังนั้นจึงมีค่าที่อธิบายได้ ระดับที่เหมาะสมที่สุดน้อยที่สุด (โดยการออกแบบ) ให้แบบจำลองที่ไม่ติดตั้งซึ่งทำงานกับข้อมูลที่ไม่กระจายเท่าที่จะทำได้

FS ในโลกแห่งความเป็นจริงเพียงแค่ต้องการบรรลุเป้าหมายเหล่านั้นอย่างใดอย่างหนึ่ง


4
ฉันถือว่าคุณกำลังอ้างถึงการลบตัวแปรโดยไม่ต้องใช้ข้อมูลในมือ คุณไม่สามารถใช้ชุดข้อมูลในมือเพื่อทำสิ่งนี้ สิ่งนี้จะไม่น่าเชื่อถือและบิดเบือนข้อสรุปทางสถิติ
Frank Harrell

ดังที่ฉันเขียนนี่เป็นเพียงรากฐานทางทฤษฎีของปัญหา (มาจากตาข่ายของเบย์) วิธีการที่แน่นอนในการตระหนักถึงสิ่งนี้เป็นไปไม่ได้แน่นอนและฉันก็เห็นด้วยอย่างแน่นอนว่าการสร้างแบบจำลองทางสถิติได้รับความเดือดร้อนมากมายจากการใช้ RFE และสิ่งที่คล้ายกัน แต่การเรียนรู้ของเครื่องมีอัลกอริทึม ที่พิสูจน์แล้วว่าไม่ได้ติดตั้งมากเกินไปในการทดสอบที่ยุติธรรม)

RFE คืออะไร ???????
kjetil b halvorsen

@kjetilbhalvorsen การกำจัดคุณลักษณะแบบเรียกซ้ำ

@mbq ขอบคุณสำหรับคำตอบที่น่าสนใจของคุณ! คุณสามารถให้การอ้างอิงใด ๆ (หนังสือเอกสาร ฯลฯ )? ขอบคุณคำตอบของคุณ!
Kare

10

การเลือกตัวแปรนั้นจำเป็นเนื่องจากโมเดลส่วนใหญ่ไม่สามารถจัดการกับตัวแปรที่ไม่เกี่ยวข้องจำนวนมากได้เป็นอย่างดี ตัวแปรเหล่านี้จะทำให้เกิดเสียงรบกวนในแบบจำลองของคุณหรือทำให้แย่ลง เป็นความคิดที่ดีที่จะแยกตัวแปรเหล่านี้ออกจากการวิเคราะห์

นอกจากนี้คุณไม่สามารถรวมตัวแปรทั้งหมดที่มีอยู่ในการวิเคราะห์ทุกครั้งเพราะมีจำนวนของพวกเขาที่ไม่มีที่สิ้นสุด ในบางจุดคุณจะต้องลากเส้นและมันก็เป็นการดีที่จะทำอย่างเคร่งครัด ดังนั้นการอภิปรายทั้งหมดเกี่ยวกับการเลือกตัวแปร

ปัญหาส่วนใหญ่ที่มีการเลือกตัวแปรสามารถจัดการได้โดยการตรวจสอบข้ามหรือโดยใช้แบบจำลองที่มีการลงโทษในตัวและการเลือกคุณสมบัติ (เช่นตาข่ายยืดหยุ่นสำหรับตัวแบบเชิงเส้น)

หากคุณสนใจในผลลัพธ์เชิงประจักษ์ที่เกี่ยวข้องกับตัวแปรหลายตัวที่ทำให้เกิดปัญหามากเกินไปลองดูผลลัพธ์ของการแข่งขันDon't Overfitที่ Kaggle


1
ฉันคิดว่าย่อหน้าแรกประกอบด้วยความเข้าใจผิดที่สำคัญของปัญหา การเลือกตัวแปรไม่ได้ช่วยแก้ไขปัญหาเหล่านั้น แต่อย่างใด แต่เป็นการซ่อนไว้เท่านั้น การเลือกตัวแปรทำให้เกิดปัญหาการ overfitting อย่างมากถึงแม้ว่าคุณจะกล่าวถึงในภายหลังมีบางวิธีที่จะลงโทษตัวเองอย่างสุจริตสำหรับความเสียหายที่เกิดจากการเลือกตัวแปร
Frank Harrell

3
@ Frank Harrell: คุณตัดสินใจเลือกตัวแปรที่จะแยกออกจากโมเดลได้อย่างไร
ซัค

11
(1) ใช้ความรู้ในหัวข้อก่อนดูชุดข้อมูล (2) ใช้การวิเคราะห์ความซ้ำซ้อน / การลดข้อมูลที่ตาบอดถึง Y (3) ใช้วิธีการที่ลงโทษอย่างพอเพียงสำหรับปัญหาการเปรียบเทียบหลายอย่างที่เกิดจากการเลือกคุณลักษณะ (ดูที่อื่นในหน้านี้)
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.