ทำไมแลมบ์ดา“ ภายในข้อผิดพลาดมาตรฐานเดียวจากค่าต่ำสุด” จึงเป็นค่าที่แนะนำสำหรับแลมบ์ดาในการถดถอยแบบตาข่ายแบบยืดหยุ่น?


23

ฉันเข้าใจว่าแลมบ์ดามีบทบาทอย่างไรในการถดถอยแบบยืดหยุ่น และฉันสามารถเข้าใจได้ว่าเหตุใดจึงเลือก lambda.min ค่าของ lambda ที่ลดข้อผิดพลาดที่ตรวจสอบข้ามได้

คำถามของฉันอยู่ที่ไหนในวรรณคดีสถิติมันแนะนำให้ใช้ lambda.1se นั่นคือค่าของแลมบ์ดาที่ผิดพลาดลดขนาด CV บวกข้อผิดพลาดมาตรฐานหนึ่ง ? ฉันดูเหมือนจะไม่พบการอ้างอิงที่เป็นทางการหรือแม้แต่เหตุผลว่าทำไมสิ่งนี้จึงมักมีคุณค่าอย่างมาก ฉันเข้าใจว่ามันเป็นกฎเกณฑ์ที่เข้มงวดยิ่งขึ้นและจะทำให้พารามิเตอร์หดตัวลงสู่ศูนย์ แต่ฉันไม่แน่ใจว่าเงื่อนไขใดที่ lambda.1se เป็นตัวเลือกที่ดีกว่า lambda.min มีคนช่วยอธิบายได้ไหม


5
การอ้างอิงอย่างเป็นทางการสามารถพบได้ใน Hastie และคณะ "องค์ประกอบของการเรียนรู้ทางสถิติ"หน้า 61 อย่างไรก็ตามพวกเขาไม่ได้ให้เหตุผลมากนักสำหรับตัวเลือกนี้ ...
Richard Hardy

ดูstats.stackexchange.com/questions/80268
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


22

Friedman, Hastie และ Tibshirani (2010) , อ้างถึงองค์ประกอบของการเรียนรู้ทางสถิติ , เขียน,

เรามักจะใช้กฎ“ หนึ่งมาตรฐานข้อผิดพลาด” เมื่อเลือกรุ่นที่ดีที่สุด สิ่งนี้ยอมรับความจริงที่ว่าเส้นโค้งความเสี่ยงถูกคาดการณ์โดยมีข้อผิดพลาดดังนั้นจึงเกิดความผิดพลาดทางด้านของความประหยัด

สาเหตุของการใช้ข้อผิดพลาดมาตรฐานหนึ่งข้อเทียบกับจำนวนอื่น ๆ ดูเหมือนจะเป็นเพราะมาตรฐาน ... ดี Krstajic, et al (2014)เขียน (เหมืองเน้นหนัก):

Breiman และคณะ [25] พบว่าในกรณีของการเลือกขนาดต้นไม้ที่ดีที่สุดสำหรับแบบจำลองต้นไม้จัดประเภทว่าขนาดของต้นไม้ที่มีข้อผิดพลาดการตรวจสอบข้ามน้อยที่สุดสร้างแบบจำลองซึ่งโดยทั่วไปแล้ว overfits ดังนั้นในมาตรา 3.4.3 ของหนังสือ Breiman และคณะ [25] กำหนดกฎข้อผิดพลาดมาตรฐานหนึ่งข้อ (กฎ 1 SE) สำหรับการเลือกขนาดต้นไม้ที่เหมาะสมและจะใช้มันตลอดทั้งเล่ม ในการคำนวณข้อผิดพลาดมาตรฐานสำหรับการตรวจสอบความถูกต้อง V-fold เดี่ยวจำเป็นต้องคำนวณความถูกต้องสำหรับแต่ละเท่าและข้อผิดพลาดมาตรฐานจะถูกคำนวณจาก V Accuracies จากแต่ละเท่า Hastie และคณะ [4] กำหนดกฎ 1 SE ว่าเป็นการเลือกแบบจำลองที่มีข้อผิดพลาดมากที่สุดซึ่งมีข้อผิดพลาดไม่เกินหนึ่งข้อผิดพลาดมาตรฐานเหนือข้อผิดพลาดของแบบจำลองที่ดีที่สุดและพวกเขาแนะนำในหลาย ๆ สถานที่โดยใช้กฎ 1 SEจุดหลักของ 1 กฎ SE กับที่เราเห็นคือการเลือกรูปแบบที่ง่ายที่สุดที่มีความถูกต้องก็เปรียบได้กับรูปแบบที่ดีที่สุด

λ


1
ขอขอบคุณ! ตอนนี้ฉันสามารถอ้างอิงบางสิ่งที่เหมาะสมเมื่อคำถามเกิดขึ้นสำหรับผู้ที่ไม่คุ้นเคยกับตัวเลือกแลมบ์ดา "มาตรฐาน" ลิงก์ไปยัง Krstajic et al ก็ดูดีเช่นกัน
jhersh

การอ้างอิงนั้นบอกว่า "1se พบว่าเหมาะสมที่สุดสำหรับการจัดหมวดหมู่ " แต่คำถามถามถึงการถดถอย ! มีทางเลือกอื่น หากเราลองเช่นกลับไปที่ 2se เราจะพบปัญหาที่แลมบ์ดามีขนาดใหญ่เกินไปและลดค่า coeffts มากเกินไป แต่เราสามารถสร้างแบบจำลองใหม่ซึ่งไม่รวมตัวแปรทั้งหมดที่ไม่ได้เลือกที่ lambda.1se ในรูปแบบดั้งเดิม
smci

@smci การอ้างอิงใด มันไม่ได้อยู่ในเครื่องหมายคำพูดใด ๆ ที่ฉันแยกออกมาซึ่งทั้งคู่ชี้ให้เห็นว่ากฎ 1-SE สามารถใช้งานได้โดยทั่วไปไม่ใช่เฉพาะในการจัดหมวดหมู่
shadowtalker

6

หนังสือของ Breiman และคณะ (อ้างอิงจากคำตอบของ Krstajic) คือการอ้างอิงที่เก่าแก่ที่สุดที่ฉันพบสำหรับกฎ 1SE

นี่คือ Breiman, Friedman, Stone, และ Olshen's ต้นไม้และต้นไม้ถดถอย (1984) พวกเขา "ได้รับ" กฎนี้ในหัวข้อ 3.4.3

ดังนั้นหากคุณต้องการการอ้างอิงอย่างเป็นทางการนั่นน่าจะเป็นแหล่งต้นฉบับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.