มีวิธีป้องกันที่จะเลือกในแบบจำลอง LASSO เพื่อให้ได้จำนวนผู้ทำนายที่ไม่ใช่ศูนย์หนึ่งคนที่ปรารถนา?


11

เมื่อฉันพิจารณาแลมบ์ดาของฉันผ่านการตรวจสอบข้ามสัมประสิทธิ์ทั้งหมดจะกลายเป็นศูนย์ แต่ฉันมีคำแนะนำบางอย่างจากวรรณกรรมว่าผู้ทำนายบางคนน่าจะส่งผลต่อผลลัพธ์อย่างแน่นอน มันขยะหรือไม่ที่จะเลือกแลมบ์ดาโดยพลการ

ฉันต้องการเลือก 10 อันดับแรกหรือมากกว่านั้นสำหรับนักทำนายจาก 135 สำหรับโมเดล cox และขนาดเอฟเฟกต์น่าเสียดายที่มีขนาดเล็ก


6
ดูเหมือนว่าคุณควรใช้ข้อมูลมาก่อนเนื่องจากคุณมีข้อมูลที่ไม่ใช่ข้อมูล
ความน่าจะเป็นที่เป็นไปได้

ลึกลงไปฉันรู้สึกว่ามันจะถูกต้อง แต่น่าเสียดายที่ฉันขาดความกล้าหาญทางสถิติอย่างสมบูรณ์จนถึงตอนนี้ที่จะเริ่มทำสิ่งนี้
miura

1
ดูเหมือนว่าคุณจะสับสนสองสิ่งที่แตกต่างกัน: (1) หากวรรณกรรมบอกให้คุณใช้ตัวทำนายที่เฉพาะเจาะจงให้รวมไว้ในทุกรูปแบบ (2) แต่คุณดูเหมือนจะตีความสิ่งนี้ใหม่อีกครั้งเพื่อบ่งบอกว่าคุณควรเลือกตัวเลขจำนวนหนึ่งจากผู้ทำนายหลาย ๆ คนไม่ว่าพวกเขาจะมีตัวเลขเฉพาะที่กล่าวถึงในวรรณกรรม คุณช่วยอธิบายสิ่งที่คุณพยายามทำให้สำเร็จได้จริงหรือไม่?
whuber

คำตอบ:


4

หากคุณต้องการมีตัวทำนายอย่างน้อยจำนวนแน่นอนพร้อมค่าบางช่วงที่กำหนดโดยวรรณกรรมทำไมต้องเลือกวิธีบริสุทธิ์ - LASSO เพื่อเริ่มต้นด้วย ตามที่ @probabilityislogic แนะนำคุณควรใช้นักบวชที่ให้ข้อมูลเกี่ยวกับตัวแปรเหล่านั้นที่คุณมีความรู้เกี่ยวกับ หากคุณต้องการเก็บรักษาคุณสมบัติ LASSO บางส่วนสำหรับส่วนที่เหลือของตัวทำนายบางทีคุณอาจใช้การกระจายแบบเลขชี้กำลังสองทางก่อนหน้าสำหรับอินพุตอื่น ๆ เช่นใช้ความหนาแน่นของรูปแบบ ที่

p(βi)=λ2exp(λ|βi|),
λเป็นตัวคูณ lagrange ที่สอดคล้องกับโซลูชัน pure-LASSO คำแถลงสุดท้ายนี้มาจากความจริงที่ว่าหากขาดตัวแปรกับนักบวชที่ให้ข้อมูลนี่เป็นอีกวิธีหนึ่งในการได้มาซึ่ง LASSO (โดยการเพิ่มโหมดหลังให้มากที่สุดเพื่อให้ได้ข้อสรุปเกี่ยวกับกฎเกณฑ์ส่วนที่เหลือ)

3

มีวิธีที่ดีในการแสดง LASSO แต่ใช้ตัวทำนายจำนวนคงที่ มันคือการถดถอยมุมน้อยที่สุด (LAR หรือ LARS) ที่อธิบายไว้ในกระดาษของ Efron ในระหว่างกระบวนการวนซ้ำมันจะสร้างแบบจำลองเชิงเส้นจำนวนหนึ่งแบบจำลองใหม่แต่ละอันจะมีตัวทำนายอีกหนึ่งตัวดังนั้นคุณสามารถเลือกหนึ่งตัวที่มีตัวทำนายจำนวนที่ต้องการ

อีกวิธีหนึ่งคือหรือกู ตามที่กล่าวไว้โดย Nestor โดยใช้ Priors ที่เหมาะสมคุณสามารถรวมความรู้ก่อนหน้าเข้ากับโมเดล ที่เรียกว่าเครื่องเวกเตอร์ที่เกี่ยวข้องโดย Tipping จะมีประโยชน์l1l2


3
ในขณะที่ LARS และ Lasso มีความสัมพันธ์กันอย่างใกล้ชิดสำหรับตัวทำนายจำนวนคงที่พวกเขาอาจไม่ได้รวมตัวแปรเดียวกัน หนึ่งสามารถเลือกค่าโทษของเชือกที่ช่วยให้จำนวนที่ต้องการของการพยากรณ์ แต่ทางเลือกในกรณีที่ค่าจะไม่ซ้ำกัน! ดังนั้น OP จึงยังไม่ได้กำหนดขั้นตอนที่ชัดเจนซึ่งเป็นส่วนหนึ่งของปัญหา สำหรับ LARS มีประโยชน์ที่ดีที่ค่าการลงโทษที่ให้จำนวนผู้ทำนายในรูปแบบช่วงเวลาดังนั้นการเลือกจุดปลาย (อันไหน?) หรือจุดกึ่งกลางหรือเกณฑ์อื่น ๆ นั้นค่อนข้างง่ายกว่า
พระคาร์ดินัล

1
ใช่มันเป็นความจริงที่ LARS และ LASSO นั้นไม่เหมือนกัน แต่ LARS ที่แนะนำโดยผู้เขียนในบทความต้นฉบับสามารถนำเสนอการแก้ไข LARS อย่างง่าย ๆ เพื่อรับโซลูชัน LASSO โดยใช้เทคนิคที่ใช้ LARS
Alexey Zaytsev

ใช่อเล็กซ์นี่เป็นเรื่องจริง ฉันเดาว่าความคิดเห็นของฉันหมุนรอบทำไมย้ายไป LARS ในสถานที่แรก โดยปกติเราสามารถเลือกค่าพารามิเตอร์การลงโทษสำหรับเชือกที่ให้ค่าจำนวนทำนายที่ต้องการได้อย่างง่ายดาย ประเด็นหลักที่ไม่ได้รับการแก้ไขคือวิธีการเลือกการเลือกที่ไม่ซ้ำใครและผลที่ตามมาที่อาจเกิดขึ้นในกรณีของ OP :)
สำคัญ

2

ไม่นั่นไม่สามารถป้องกันได้ อุปสรรค์ที่ยิ่งใหญ่ที่ขั้นตอนการเลือกรุ่นได้รับการออกแบบมาเพื่อเอาชนะคือความสำคัญของการสนับสนุนไม่เป็นที่รู้จัก (ที่นี่เรามีเป็นสัมประสิทธิ์ "ของจริง") เนื่องจากไม่ทราบขั้นตอนการเลือกรุ่นต้องค้นหารุ่นที่เป็นไปได้ทั้งหมดอย่างไรก็ตามถ้าเรารู้เราสามารถตรวจสอบรุ่นซึ่งน้อยกว่ามาก|S|=|{j:βj0}|β|S|2p|S|(p|S|)

ทฤษฎีของเชือกนั้นขึ้นอยู่กับพารามิเตอร์การทำให้เป็นมาตรฐานมีขนาดใหญ่พอที่จะทำให้แบบจำลองที่เลือกนั้นกระจัดกระจายเพียงพอ อาจเป็นได้ว่าฟีเจอร์ 10 รายการของคุณมีจำนวนมากเกินไปหรือน้อยเกินไปเนื่องจากมันไม่สำคัญที่จะเปลี่ยนขอบเขตล่างของให้เป็นขอบเขตบนของ.λλ|S|

Letจะประมาณการที่ขับเคลื่อนด้วยข้อมูลของเราสำหรับและใส่\} จากนั้นบางทีคุณกำลังพยายามทำให้แน่ใจว่าเพื่อให้คุณกู้คืนคุณสมบัติที่เกี่ยวข้องอย่างน้อย? หรือบางทีคุณกำลังพยายามสร้างเพื่อให้คุณรู้ว่าคุณสมบัติที่คุณค้นพบนั้นคุ้มค่าหรือไม่ ในกรณีเหล่านี้ขั้นตอนของคุณจะเป็นธรรมมากขึ้นถ้าคุณมีข้อมูลก่อนที่ในขนาดญาติของ *β^βS^={j:β^j0}SS^S^SS

นอกจากนี้ทราบว่าคุณสามารถปล่อยให้ค่าสัมประสิทธิ์บาง unpenalized glmnetเมื่อดำเนินเชือกในตัวอย่างเช่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.