LASSO สำหรับรุ่นอธิบาย: พารามิเตอร์ที่หดตัวหรือไม่?

ฉันกำลังทำการวิเคราะห์ที่เป้าหมายหลักคือการเข้าใจข้อมูล ชุดข้อมูลมีขนาดใหญ่พอสำหรับการตรวจสอบข้าม (10k) และตัวทำนายรวมทั้งตัวแปรต่อเนื่องและดัมมี่และผลลัพธ์นั้นต่อเนื่อง เป้าหมายหลักคือการดูว่าเหมาะสมหรือไม่ที่จะใช้ตัวทำนายบางตัวเพื่อให้แบบจำลองตีความได้ง่ายขึ้น

คำถาม:

คำถามของฉันคือ "ซึ่ง vars อธิบายผลลัพธ์และเป็นส่วน 'แข็งแรงพอ' ของคำอธิบายนั้น" แต่หากต้องการเลือกพารามิเตอร์ lambda สำหรับ lasso คุณต้องใช้การตรวจสอบความถูกต้องข้ามเช่นความถูกต้องเชิงทำนายเป็นเกณฑ์ เมื่อทำการอนุมานความถูกต้องตามการคาดการณ์เป็นพร็อกซีที่ดีพอสำหรับคำถามทั่วไปที่ฉันถามหรือไม่
สมมติว่า LASSO เก็บเครื่องมือทำนาย 3 ตัวจาก 8 ตัว และตอนนี้ฉันถามตัวเองว่า: "สิ่งเหล่านี้มีผลต่อผลลัพธ์อย่างไร" ตัวอย่างเช่นฉันพบความแตกต่างทางเพศ หลังการหดตัวของบ่วงบาศค่าสัมประสิทธิ์บ่งชี้ว่าผู้หญิงให้คะแนนสูงกว่าผู้ชาย 1 คะแนน แต่ไม่มีการหดตัว (เช่นบนชุดข้อมูลจริง) พวกเขาได้คะแนน 2.5 คะแนนสูงขึ้น
- ฉันจะเลือกอันไหนเป็นเอฟเฟกต์เพศ "ของจริง" ของฉัน ไปโดยความถูกต้องทำนายก็จะเป็นค่าสัมประสิทธิ์หด
- หรือในบริบทบอกว่าฉันเขียนรายงานสำหรับคนที่ไม่รอบรู้ในสถิติ ฉันจะรายงานค่าสัมประสิทธิ์ใดให้พวกเขาบ้าง

lasso explanatory-models

— mbokulic
แหล่งที่มา

คุณเป็นคนแบบไหน โมเดลเชิงเส้น, โลจิสติก, ปัวซอง ฯลฯ ?

— TrynnaDoStat

มันเป็นโมเดลเชิงเส้น แต่ฉันไม่คิดว่ามันจะสร้างความแตกต่างให้กับคำถาม

— mbokulic

หากเป้าหมายของคุณคือการประมาณค่าพารามิเตอร์ในแบบจำลองของคุณอย่างแม่นยำคุณจะเลือกแบบจำลองของคุณได้ใกล้แค่ไหน ทำนายความถูกต้องผ่านการตรวจสอบข้ามเป็นวิธีหนึ่งในการทำเช่นนี้และเป็นวิธีที่ต้องการสำหรับการเลือกในการถดถอย LASSO $^*$ $\lambda$

ตอนนี้เพื่อตอบคำถามว่าการประมาณค่าพารามิเตอร์ใดเป็น "การประมาณจริง" เราควรดูว่าพารามิเตอร์ใดที่ "ใกล้เคียงที่สุด" กับค่าพารามิเตอร์จริง "ใกล้เคียงที่สุด" หมายถึงพารามิเตอร์ที่ประมาณการณ์เพื่อลดอคติหรือไม่ ถ้าเป็นเช่นนั้นตัวประมาณกำลังสองน้อยที่สุดจะไม่เอนเอียงในการถดถอยเชิงเส้น การประมาณค่าพารามิเตอร์ที่ใกล้เคียงที่สุดหมายถึงข้อผิดพลาดแบบจัตุรัส (MSE) ที่ใกล้เคียงที่สุดหรือไม่ จากนั้นจะแสดงให้เห็นว่ามีข้อกำหนดของการถดถอยของสันเขาที่จะให้การประมาณที่ลด MSE (คล้ายกับ LASSO, การถดถอยสันริดจ์จะลดขนาดการประมาณพารามิเตอร์เป็นศูนย์ แต่ต่างจาก LASSO การประมาณพารามิเตอร์ไม่ถึงศูนย์) ในทำนองเดียวกัน $\lambda$ ) ในฐานะนักสถิติคุณต้องพิจารณาว่าอะไรคือ "ที่ดีที่สุด" ประมาณการและรายงาน (โดยเฉพาะอย่างยิ่งกับการบ่งชี้ถึงความเชื่อมั่นของการประเมิน) ให้กับผู้ที่ไม่รอบรู้ในสถิติ "ดีที่สุด" คืออะไรอาจหรือไม่อาจเป็นการประเมินแบบเอนเอียง

glmnetฟังก์ชั่นในการวิจัยไม่ได้งานที่ดีงามของการเลือกค่านิยมที่ดีของและในการสรุปการเลือกผ่านการตรวจสอบข้ามและการรายงานประมาณการพารามิเตอร์เป็นวิธีที่ดีที่สุดที่เหมาะสมในการประมาณการ "ของจริง" ค่าของพารามิเตอร์ $\lambda$ $\lambda$

$^*$ แบบจำลอง Bayesian LASSO ที่เลือกโดยความเป็นไปได้เล็กน้อยนั้นเป็นที่ต้องการของบางคน แต่ฉันอาจไม่ถูกต้องโดยสมมติว่าคุณกำลังทำแบบจำลอง LASSO บ่อยครั้ง $\lambda$

— TrynnaDoStat
แหล่งที่มา

คุณหมายถึงอะไรโดย "อคติ" ใน "พารามิเตอร์ที่ประมาณค่าที่ลดอคติ" และฉันจะอ่านส่วนที่เหลืออย่างถูกต้องหรือไม่ถ้าฉันอ่านแบบนี้: ฉันควรเลือกแบบจำลองที่มี MSE โดยประมาณต่ำที่สุด (เช่นในการตรวจสอบข้าม) ตั้งแต่สันจะออกจากคำถามตั้งแต่ฉันต้องการเมทริกซ์ค่าสัมประสิทธิ์เบาบางรายงาน shrinked สัมประสิทธิ์เชือกเป็นวิธีที่จะไป

— mbokulic

@mbokulic โดย bias ฉันหมายถึงอคติทางสถิติ นี่หมายถึงแนวโน้มของกระบวนการวัดค่าสูง / ต่ำประมาณค่าของพารามิเตอร์ประชากร คำตอบของฉันคือบอกว่ามันขึ้นอยู่กับสิ่งที่คุณต้องการ หากคุณไม่ต้องการความเอนเอียงให้ใช้การถดถอยเชิงเส้น หากคุณโอเคกับอคติและชอบที่จะลด MSE ไปกับเชือกและใส่ในความขยันเนื่องจากเมื่อมีการเลือก\

λ

$\lambda$

— TrynnaDoStat

น่าสนใจฉันไม่เคยคิดถึงมันในแบบนั้น ฉันต้องถามอีกครั้งว่าฉันเข้าใจคุณถูกต้องหรือไม่ การถดถอยเชิงเส้นจะให้ค่าประมาณที่ไม่เอนเอียงมากที่สุดของค่าสัมประสิทธิ์ประชากร (ตัวอย่าง "2.5 คะแนนสูงขึ้น" ในคำถามเดิมของฉัน) ในขณะที่บ่วงบาศหรือสันขอบ ลด MSE ที่ไม่อยู่ในกลุ่มตัวอย่าง ถ้าเป็นเช่นนั้นถ้าคุณเพียงต้องการที่จะเข้าใจ (ไม่ใช่ทำนาย) การถดถอยเชิงเส้นจะดีกว่าแม้ว่าคุณจะต้องการทำให้โมเดลง่ายขึ้นด้วยเช่นวิธีการแบบทีละขั้นตอน

— mbokulic

คำตอบที่นี่มีประโยชน์ พวกเขาแนะนำว่า OLS (การถดถอยเชิงเส้น) มีการเดิมพันในตัวอย่างในขณะที่ lasso นั้นเป็นตัวอย่างนอก นอกจากนี้พวกเขาแนะนำว่า OLS สามารถนำไปใช้กับชุดพยากรณ์ที่ถูก จำกัด โดยสายรัดได้ นี่เป็นสิ่งที่สมเหตุสมผลสำหรับเป้าหมายการตีความของฉันแม้ว่าการคาดการณ์ของ OLS จะค่อนข้างเหมาะสมเล็กน้อย

— mbokulic