ฉันกำลังทำการวิเคราะห์ที่เป้าหมายหลักคือการเข้าใจข้อมูล ชุดข้อมูลมีขนาดใหญ่พอสำหรับการตรวจสอบข้าม (10k) และตัวทำนายรวมทั้งตัวแปรต่อเนื่องและดัมมี่และผลลัพธ์นั้นต่อเนื่อง เป้าหมายหลักคือการดูว่าเหมาะสมหรือไม่ที่จะใช้ตัวทำนายบางตัวเพื่อให้แบบจำลองตีความได้ง่ายขึ้น
คำถาม:
คำถามของฉันคือ "ซึ่ง vars อธิบายผลลัพธ์และเป็นส่วน 'แข็งแรงพอ' ของคำอธิบายนั้น" แต่หากต้องการเลือกพารามิเตอร์ lambda สำหรับ lasso คุณต้องใช้การตรวจสอบความถูกต้องข้ามเช่นความถูกต้องเชิงทำนายเป็นเกณฑ์ เมื่อทำการอนุมานความถูกต้องตามการคาดการณ์เป็นพร็อกซีที่ดีพอสำหรับคำถามทั่วไปที่ฉันถามหรือไม่
สมมติว่า LASSO เก็บเครื่องมือทำนาย 3 ตัวจาก 8 ตัว และตอนนี้ฉันถามตัวเองว่า: "สิ่งเหล่านี้มีผลต่อผลลัพธ์อย่างไร" ตัวอย่างเช่นฉันพบความแตกต่างทางเพศ หลังการหดตัวของบ่วงบาศค่าสัมประสิทธิ์บ่งชี้ว่าผู้หญิงให้คะแนนสูงกว่าผู้ชาย 1 คะแนน แต่ไม่มีการหดตัว (เช่นบนชุดข้อมูลจริง) พวกเขาได้คะแนน 2.5 คะแนนสูงขึ้น
- ฉันจะเลือกอันไหนเป็นเอฟเฟกต์เพศ "ของจริง" ของฉัน ไปโดยความถูกต้องทำนายก็จะเป็นค่าสัมประสิทธิ์หด
- หรือในบริบทบอกว่าฉันเขียนรายงานสำหรับคนที่ไม่รอบรู้ในสถิติ ฉันจะรายงานค่าสัมประสิทธิ์ใดให้พวกเขาบ้าง