การตีความค่าสัมประสิทธิ์การถดถอย LASSO

ขณะนี้ฉันกำลังทำงานเพื่อสร้างแบบจำลองการทำนายผลเลขฐานสองบนชุดข้อมูลที่มีตัวแปร ~ 300 และ 800 ข้อสังเกต ฉันได้อ่านมากเกี่ยวกับปัญหาที่เกี่ยวข้องกับการถดถอยแบบขั้นตอนและทำไมไม่ใช้มัน

ฉันอ่านเกี่ยวกับการถดถอยของ LASSO และความสามารถในการเลือกคุณสมบัติและประสบความสำเร็จในการนำไปใช้งานด้วยการใช้แพ็คเกจ "caret" และ "glmnet"

ฉันสามารถดึงค่าสัมประสิทธิ์ของแบบจำลองด้วยค่าที่ดีที่สุดlambdaและalphaจาก "caret"; อย่างไรก็ตามฉันไม่คุ้นเคยกับวิธีตีความค่าสัมประสิทธิ์

สัมประสิทธิ์ LASSO ตีความในวิธีเดียวกันกับการถดถอยโลจิสติกหรือไม่?
มันจะเหมาะสมที่จะใช้คุณสมบัติที่เลือกจาก LASSO ในการถดถอยโลจิสติก?

แก้ไข

การตีความของค่าสัมประสิทธิ์เช่นเดียวกับค่าสัมประสิทธิ์แทนจากการถดถอย LASSO เป็นอัตราต่อรองสำหรับการเปลี่ยนแปลง 1 หน่วยในสัมประสิทธิ์ในขณะที่ค่าคงที่สัมประสิทธิ์อื่น ๆ ทั้งหมด

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

— Michael Luu
แหล่งที่มา

คุณช่วยเติมเต็มสิ่งที่คุณหมายถึงโดย "ตีความในลักษณะเดียวกับการถดถอยโลจิสติก" ได้ไหม? ฉันจะมีประโยชน์มากที่จะรู้ว่าคุณต้องการตีความแบบใด

— Matthew Drury

@ Matthew Drury - ขอบคุณมากที่สละเวลาช่วยฉันเพราะหลักสูตรของฉันไม่เคยผ่าน LASSO โดยทั่วไปจากสิ่งที่ฉันได้รับการสอนในช่วงหลักสูตรบัณฑิตศึกษาของฉันสัมประสิทธิ์การยกกำลังจากการถดถอยโลจิสติกทำให้อัตราการเข้าสู่ระบบของค่าสัมประสิทธิ์เพิ่มขึ้น 1 หน่วยในขณะที่ค่าคงที่สัมประสิทธิ์อื่น ๆ ทั้งหมด

— Michael Luu

α

$\alpha$

λ

$\lambda$

α

$\alpha$

เท่าที่ฉันสามารถบอกได้การทดสอบนัยสำคัญสำหรับค่าสัมประสิทธิ์ยังไม่ได้รับการแนะนำในการใช้งาน LASSO ส่วนใหญ่ ดังนั้นความแตกต่างอาจไม่ใช่ว่าในขณะที่เราสามารถกำหนดตัวแปรที่มีนัยสำคัญทางสถิติใน OLS เราไม่สามารถทำเช่นนั้นกับ LASSO ยกเว้นการทำคำสั่งที่อ่อนแอว่า LASSO สัมประสิทธิ์ของตัวแปรที่สอดคล้องกันที่เลือกเป็นตัวแปร "สำคัญ" ที่ควรพิจารณา?

— godspeed

สัมประสิทธิ์ LASSO ตีความในวิธีเดียวกันกับการถดถอยโลจิสติกหรือไม่?

ให้ฉันใช้ถ้อยคำใหม่: สัมประสิทธิ์ LASSO ตีความในลักษณะเดียวกับตัวอย่างเช่นค่าสัมประสิทธิ์ความน่าจะเป็นสูงสุดของ~~OLS~~ในการถดถอยโลจิสติกหรือไม่

LASSO (วิธีการประมาณค่าที่ถูกลงโทษ) มีจุดมุ่งหมายที่การประเมินปริมาณเดียวกัน (สัมประสิทธิ์แบบจำลอง) เช่นเดียวกับ~~OLS~~ความน่าจะเป็นสูงสุด แบบจำลองเหมือนกันและการตีความยังคงเหมือนเดิม ค่าตัวเลขจาก LASSO โดยทั่วไปจะแตกต่างจากค่าความน่าจะเป็นสูงสุดของ~~OLS~~ : บางค่าจะใกล้เคียงกับศูนย์ส่วนอื่น ๆ จะเป็นศูนย์อย่างแน่นอน หากมีการลงโทษในจำนวนที่เหมาะสมการประมาณการ LASSO จะใกล้เคียงกับมูลค่าที่แท้จริงมากกว่าการประมาณการความเป็นไปได้สูงสุดของ~~OLS~~ซึ่งเป็นผลลัพธ์ที่พึงประสงค์

มันจะเหมาะสมที่จะใช้คุณสมบัติที่เลือกจาก LASSO ในการถดถอยโลจิสติก?

ไม่มีปัญหาโดยเนื้อแท้ แต่คุณสามารถใช้ LASSO ไม่เพียง แต่สำหรับการเลือกคุณสมบัติ แต่ยังสำหรับการประมาณค่าสัมประสิทธิ์ ดังที่ฉันได้กล่าวไว้ข้างต้นการประมาณการ LASSO อาจแม่นยำกว่าการประมาณการ~~OLS~~สูงสุดที่เป็นไปได้

— Richard Hardy
แหล่งที่มา

ขอบคุณมากสำหรับคำตอบนี้! ทำให้รู้สึกมาก! โปรดแก้ตัวความรู้ที่ จำกัด ของฉันในเรื่องนี้ ดังที่คุณได้กล่าวถึงในความคิดเห็นอื่นว่าฉันอาจจะใช้ตาข่ายยืดหยุ่นมากกว่า LASSO ผ่านคาเร็ตเนื่องจากมันเลือกแลมบ์ดาและอัลฟาที่ดีที่สุด เช่นเดียวกันจะเกี่ยวข้องกับสัมประสิทธิ์หรือไม่

— Michael Luu

ใช่มันจะ ตรรกะพื้นฐานยังคงเหมือนเดิม

— Richard Hardy

คุณเขียนว่า "การตีความยังคงเหมือนเดิม" คุณช่วยฉันเข้าใจประเด็นนี้ได้ไหม มันน่าจะเป็นผมว่าการตีความของสัมประสิทธิ์ OLS ในการตั้งค่าการถดถอยพหุคูณอาศัยแปลงถดถอยบางส่วน อย่างไรก็ตามคุณสมบัตินี้ไม่ถือเป็นค่าสัมประสิทธิ์ของบ่วงบาศทำให้ฉันเชื่อว่าการตีความจะแตกต่างกัน

— user795305

@Ben, ถ้าเราสมมติว่ามีตัวแบบทางสถิติพื้นฐาน, เราสามารถประมาณค่าพารามิเตอร์ของมันในวิธีที่ต่างกัน, สองอันที่เป็นที่นิยมคือ OLS และ lasso ค่าสัมประสิทธิ์โดยประมาณนั้นมีเป้าหมายเดียวกันและทั้งคู่มีข้อผิดพลาดในการประมาณค่า (ซึ่งหากยกกำลังสองสามารถแบ่งเป็นอคติและความแปรปรวน) ดังนั้นในความหมายนี้การตีความของพวกเขาจึงเหมือนกัน แน่นอนว่าวิธีการไม่เหมือนกันดังนั้นคุณจะได้รับค่าสัมประสิทธิ์โดยประมาณที่ต่างกัน หากคุณสนใจวิธีการและการตีความทางพีชคณิตและเรขาคณิตมากกว่าสิ่งเหล่านี้จะไม่เหมือนกัน แต่การตีความเนื้อเรื่องเหมือนกัน

— Richard Hardy

(1, \dots, p)^{T}

$(1, \dots, p)^T$