วิธีการทั่วไปสองวิธีในการเลือกตัวแปรที่เกี่ยวข้องคือการทดสอบที่สำคัญและการตรวจสอบความถูกต้องข้าม แต่ละปัญหาพยายามแก้ปัญหาอย่างไรและเมื่อใดที่ฉันจะเลือกใช้อีกอันหนึ่ง
วิธีการทั่วไปสองวิธีในการเลือกตัวแปรที่เกี่ยวข้องคือการทดสอบที่สำคัญและการตรวจสอบความถูกต้องข้าม แต่ละปัญหาพยายามแก้ปัญหาอย่างไรและเมื่อใดที่ฉันจะเลือกใช้อีกอันหนึ่ง
คำตอบ:
ขั้นแรกให้ชัดเจนและใส่คำถามลงในบริบทของการถดถอยเชิงเส้นหลายครั้งที่เราถดถอยตัวแปรการตอบสนองในตัวแปรต่าง ๆ (สัมพันธ์กันหรือไม่) พร้อมพารามิเตอร์เวกเตอร์และฟังก์ชันการถดถอย
ซึ่งอาจเป็นรูปแบบของค่าเฉลี่ยของตัวแปรตอบกลับสำหรับ สังเกตที่กำหนดของx_p x 1 , ... , x P β = ( β 0 , β 1 , ... , β P ) F ( x 1 , ... , x P ) = β 0 + β 1 x 1 + ... + β พีx P , x 1 , … , x p
คำถามคือวิธีการเลือกชุดย่อยของที่ 's ที่จะไม่ใช่ศูนย์และโดยเฉพาะอย่างยิ่งการเปรียบเทียบอย่างมีนัยสำคัญในการทดสอบเมื่อเทียบกับการตรวจสอบข้าม
เพื่อให้ชัดเจนเกี่ยวกับคำศัพท์การทดสอบความสำคัญเป็นแนวคิดทั่วไปซึ่งดำเนินการแตกต่างกันในบริบทที่แตกต่างกัน ขึ้นอยู่กับการเลือกของสถิติทดสอบ การตรวจสอบข้ามจริง ๆ เป็นอัลกอริทึมสำหรับการประเมินข้อผิดพลาดการวางนัยทั่วไปที่คาดหวังซึ่งเป็นแนวคิดทั่วไปที่สำคัญและขึ้นอยู่กับทางเลือกของฟังก์ชันการสูญเสีย
ข้อผิดพลาดทั่วไปที่คาดว่าจะเป็นเพียงเล็กน้อยทางเทคนิคในการกำหนดอย่างเป็นทางการ แต่ในคำพูดมันเป็นความสูญเสียที่คาดหวังของรูปแบบการติดตั้งเมื่อนำมาใช้ในการทำนายในชุดข้อมูลที่เป็นอิสระที่คาดหวังมากกว่าข้อมูลที่ใช้สำหรับการประเมินรวมทั้งข้อมูลที่เป็นอิสระ ชุดที่ใช้สำหรับการทำนาย
ในการทำการเปรียบเทียบที่สมเหตุสมผลให้เน้นว่าสามารถนำมาเป็น 0 หรือไม่
การใช้การทดสอบที่มีนัยสำคัญเราไม่ได้เกี่ยวข้องโดยตรงกับ "ประสิทธิภาพ" ของแบบจำลองภายใต้สมมติฐานว่างกับรุ่นอื่น ๆ แต่เรามีความกังวลเกี่ยวกับการบันทึกว่าเป็นโมฆะ นี้ทำให้รู้สึกมากที่สุด (ให้ฉัน) ในการติดตั้งยืนยันที่วัตถุประสงค์หลักคือเพื่อยืนยันและเอกสารไพรเออรี่ระบุดีสมมติฐานทางวิทยาศาสตร์ซึ่งสามารถสูตร0
ข้อผิดพลาดทั่วไปคาดว่าจะบนมืออื่น ๆ ที่เกี่ยวข้องเฉพาะกับค่าเฉลี่ย "ประสิทธิภาพ" ในแง่ของการสูญเสียการคาดการณ์ที่คาดไว้และสรุปว่ามันเป็นสิ่งที่ดีที่สุดที่จะช่วยให้จะแตกต่างจาก 0 ในแง่ของการทำนายไม่ได้เป็นความพยายามที่จะเอกสาร ที่คือ "จริงๆ" แตกต่างจาก 0สิ่งที่หมายถึง
ฉันเองไม่เคยทำงานเกี่ยวกับปัญหาที่ฉันต้องการการทดสอบที่มีนัยสำคัญอย่างเป็นทางการ แต่ค่าหาทางเข้าไปในงานของฉันและให้คำแนะนำที่สมเหตุสมผลและความประทับใจครั้งแรกสำหรับการเลือกตัวแปร ผม แต่ส่วนใหญ่ใช้วิธีการลงโทษเช่นเชือกร่วมกับข้อผิดพลาดทั่วไปสำหรับการเลือกรูปแบบใด ๆ อย่างเป็นทางการและอย่างช้า ๆ ฉันกำลังพยายามที่จะปราบปรามความโน้มเอียงของฉันจะได้คำนวณ -values
สำหรับการวิเคราะห์เชิงสำรวจฉันไม่เห็นข้อโต้แย้งใด ๆ ที่สนับสนุนการทดสอบนัยสำคัญและค่าและฉันจะแนะนำให้มุ่งเน้นไปที่แนวคิดเช่นข้อผิดพลาดทั่วไปที่คาดไว้สำหรับการเลือกตัวแปร ในบริบทอื่นที่หนึ่งอาจพิจารณาใช้สำหรับการบันทึกว่าไม่ใช่ 0 ฉันจะบอกว่ามันเป็นความคิดที่ดีกว่าในการรายงานการประมาณและช่วงความมั่นใจแทน
เพียงแค่ใช้การทดสอบที่มีความสำคัญและขั้นตอนแบบขั้นตอนเพื่อทำการเลือกแบบจำลองอาจทำให้คุณเชื่อว่าคุณมีโมเดลที่แข็งแกร่งมากพร้อมตัวทำนายที่สำคัญเมื่อคุณไม่ได้ทำ คุณอาจได้รับความสัมพันธ์ที่แข็งแกร่งโดยบังเอิญและความสัมพันธ์เหล่านี้สามารถเพิ่มขึ้นได้เมื่อคุณลบตัวพยากรณ์ที่ไม่จำเป็นออกไป
แน่นอนว่าขั้นตอนการคัดเลือกนั้นจะเก็บเฉพาะตัวแปรเหล่านั้นที่มีความสัมพันธ์มากที่สุดกับผลลัพธ์และเมื่อกระบวนงานแบบขั้นตอนก้าวไปข้างหน้าความน่าจะเป็นในการยอมรับข้อผิดพลาด Type I นั้นใหญ่กว่าที่คุณคาดคิด นี่เป็นเพราะข้อผิดพลาดมาตรฐาน (และค่า p) จึงไม่ได้รับการปรับให้คำนึงถึงความจริงที่ว่าตัวแปรที่ไม่ได้ถูกเลือกสำหรับการรวมอยู่ในรูปแบบการสุ่มและการทดสอบสมมติฐานหลายครั้งได้ดำเนินการเพื่อเลือกชุดนั้น
David Freedman มีกระดาษน่ารักที่เขาแสดงให้เห็นถึงจุดเหล่านี้เรียกว่า " A Note on Screening Regression Equations " นามธรรม:
วิธีแก้ปัญหาหนึ่งที่เป็นไปได้สำหรับปัญหานี้ดังที่คุณกล่าวถึงคือการใช้ชุดตัวเลือกการตรวจสอบข้าม เมื่อฉันไม่มีเศรษฐกิจที่ดี (งานวิจัยของฉัน) หรือเหตุผลทางสถิติที่จะเชื่อแบบจำลองของฉันนี่เป็นวิธีที่ฉันต้องการในการเลือกแบบจำลองที่เหมาะสมและการอนุมานที่มีประสิทธิภาพ
ผู้ตอบแบบสอบถามอื่น ๆ อาจพูดถึงว่าขั้นตอนแบบขั้นตอนโดยใช้ AIC หรือ BIC นั้นเทียบเท่ากับการตรวจสอบข้าม อย่างไรก็ตามวิธีนี้ใช้งานได้เมื่อจำนวนการสังเกตที่สัมพันธ์กับจำนวนผู้ทำนายมีขนาดใหญ่เท่านั้น ในบริบทของการมีตัวแปรหลายตัวที่สัมพันธ์กับจำนวนการสังเกต (อิสระกล่าวว่า 1 ตัวแปรต่อการสังเกต 10 ครั้งหรือน้อยกว่า) การเลือกในลักษณะนี้สามารถแสดงคุณสมบัติที่ไม่ดีที่กล่าวถึงข้างต้น
ในยุคของคอมพิวเตอร์ที่ทรงพลังฉันไม่เห็นเหตุผลที่จะไม่ใช้การตรวจสอบความถูกต้องแบบไขว้เป็นขั้นตอนการเลือกรุ่นแทนการเลือกแบบขั้นตอน