ทำไม glmnet ใช้ตาข่ายยืดหยุ่น“ ไร้เดียงสา” จากกระดาษต้นฉบับของ Zou & Hastie


27

ต้นฉบับกระดาษสุทธิยืดหยุ่นZou & Hastie (2005) กูและการเลือกตัวแปรผ่านสุทธิยืดหยุ่นแนะนำฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นสำหรับการถดถอยเชิงเส้น (ที่นี่ผมถือว่าตัวแปรทั้งหมดเป็นศูนย์กลางและมีขนาดหน่วยความแปรปรวน):

L=1nyXβ2+λ1β1+λ2β22,
แต่เรียกมันว่า "netive elastic net" พวกเขาเป็นที่ถกเถียงกันอยู่ว่ามันทำการหดตัวสองครั้ง (lasso และสัน) มีแนวโน้มที่จะหดตัว - และสามารถปรับปรุงได้โดย rescaling แก้ปัญหาผลลัพธ์ดังนี้:
β^=(1+λ2)β^.
พวกเขาให้ข้อโต้แย้งทางทฤษฎีและหลักฐานการทดลองว่าสิ่งนี้นำไปสู่ประสิทธิภาพที่ดีขึ้น

อย่างไรก็ตามglmnetกระดาษต่อมาฟรีดแมน, Hastie, & Tibshirani (2010) เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทางโคตรพิกัดไม่ได้ใช้การลดขนาดนี้และมีเชิงอรรถสั้น ๆ ว่า

Zou และ Hastie (2005) เรียกว่าการลงโทษนี้ตาข่ายยืดหยุ่นไร้เดียงสาและต้องการรุ่นที่ได้รับการช่วยเหลือซึ่งพวกเขาเรียกว่าตาข่ายยืดหยุ่น เราแยกความแตกต่างนี้ตรงนี้

ไม่มีคำอธิบายเพิ่มเติมใด ๆ (หรือในตำราเรียน Hastie et al.) ฉันพบว่ามันค่อนข้างงง ผู้เขียนออกจากการ rescaling ออกเพราะพวกเขาคิดว่ามันเฉพาะกิจเกินไปหรือไม่? เพราะมันทำงานได้แย่ลงในการทดลองเพิ่มเติมหรือไม่ เพราะมันไม่ชัดเจนว่าจะพูดคุยกับกรณี GLM ได้อย่างไร? ฉันไม่รู้. แต่ในกรณีใด ๆglmnetแพคเกจก็กลายเป็นที่นิยมมากตั้งแต่นั้นมาดังนั้นความประทับใจของฉันก็คือทุกวันนี้ไม่มีใครใช้ rescaling จาก Zou & Hastie และคนส่วนใหญ่อาจไม่ตระหนักถึงความเป็นไปได้นี้

คำถาม: ท้ายที่สุดแล้วนี่เป็นการลดความคิดที่ดีหรือไม่ดีเลยใช่ไหม

ด้วยglmnetparametrization, Zou & Hastie rescaling ควรเป็น

β^=(1+λ(1α))β^.

1
ตั้งแต่ในกระดาษ glment เป้าหมายคือเพื่อให้พอดีกับเส้นทาง regularization ทั้งหมดอาจเป็นความคิดที่ว่า rescaling เพียงแค่จะมีการเปลี่ยนแปลงของเสียงเดียวของเส้นทาง?
Matthew Drury

1
@MatthewDrury นั่นเป็นเรื่องจริง แต่ก็ยังถ้า Friedman และคณะ เชื่อว่าการช่วยชีวิตเป็นความคิดที่ดีพวกเขาจะไม่ทิ้งมันไว้ในกระดาษและโดยเฉพาะอย่างยิ่งในglmnetรหัส มันไม่สามารถใช้งานได้แม้จะเป็นคุณสมบัติเสริม (รหัสก่อนหน้าของพวกเขาที่มาพร้อมกับเอกสารฉบับปี 2005 จะสนับสนุนการลดขนาดแน่นอน)
อะมีบาพูดว่า Reinstate Monica

4
แต่น่าเสียดายที่รหัส glmnet ประชาชนไม่สามารถอ่านได้อย่างสมบูรณ์ ...
แมทธิว Drury

คำตอบ:


25

ฉันส่งอีเมลคำถามนี้ถึง Zou และ Hastie และได้รับคำตอบต่อไปนี้จาก Hastie (ฉันหวังว่าเขาจะไม่รังเกียจที่จะพูดถึงฉันที่นี่)

ฉันคิดว่าใน Zou et al เรากังวลเกี่ยวกับความเอนเอียงเพิ่มเติม แต่แน่นอนว่าการให้การ rescaling ช่วยเพิ่มความแปรปรวน มันแค่เลื่อนไปตามเส้นโค้งการแลกเปลี่ยนความเอนเอียง ในไม่ช้าเราจะรวมเวอร์ชั่นของบ่วงบาศที่ผ่อนคลายซึ่งเป็นรูปแบบการลดขนาดที่ดีขึ้น

ฉันตีความคำเหล่านี้เป็นการรับรอง"rescaling" ของสารละลายตาข่ายยืดหยุ่นวานิลลาบางรูปแบบ แต่ Hastie ดูเหมือนจะไม่ยืนตามแนวทางเฉพาะที่หยิบยกใน Zou & Hastie 2005 อีกต่อไป


ในบทต่อไปนี้ฉันจะทบทวนและเปรียบเทียบตัวเลือกการลดขนาดหลายตัวเลือกอย่างย่อ

ฉันจะใช้glmnetและตัวแปรของการสูญเสียด้วยโซลูชั่นแสดงเป็น\

L=12nyβ0Xβ2+λ(αβ1+(1α)β22/2),
β^
  1. แนวทางของ Zou & Hastie คือการใช้โปรดสังเกตว่าสิ่งนี้ทำให้เกิดการลดขนาดไม่สำคัญสำหรับสันเขาบริสุทธิ์เมื่อซึ่งเนื้อหาไม่สมเหตุสมผล ในทางตรงกันข้ามสิ่งนี้ทำให้ไม่มีการลดหย่อนสำหรับบ่วงบาศบริสุทธิ์เมื่อแม้จะมีการเรียกร้องต่างๆในวรรณคดีที่ตัวประมาณค่า Lasso จะได้รับประโยชน์จากการลดขนาด (ดูด้านล่าง)

    β^rescaled=(1+λ(1α))β^.
    α=0α=1
  2. สำหรับบ่วงบาศบริสุทธิ์ Tibshirani แนะนำให้ใช้ลูกผสม Lasso-OLS คือใช้ OLS ประมาณโดยใช้เซตย่อยของตัวทำนายที่เลือกโดย Lasso สิ่งนี้ทำให้ตัวประมาณมีความสอดคล้องกัน (แต่ไม่ยกเลิกการหดตัวซึ่งสามารถเพิ่มข้อผิดพลาดที่คาดไว้) หนึ่งสามารถใช้วิธีการเดียวกันสำหรับ net netแต่ปัญหาที่อาจเกิดขึ้นคือ elastic net สามารถเลือกได้ มีตัวคาดการณ์มากกว่าตัวและ OLS จะพัง (ในทางตรงกันข้ามบ่วงบาศล้วนๆจะไม่เลือกตัวทำนายมากกว่าตัว)

    β^elastic-OLS-hybrid=OLS(Xiβ^i0)
    nn
  3. บ่วงบาศผ่อนคลายกล่าวถึงในอีเมลของ Hastie ที่ยกมาข้างต้นเป็นข้อเสนอแนะในการเรียกใช้บ่วงบาศอีกครั้งในส่วนย่อยของการทำนายที่เลือกโดยบ่วงบาศครั้งแรก แนวคิดคือการใช้บทลงโทษที่แตกต่างกันสองแบบและเพื่อเลือกทั้งสองอย่างผ่านการตรวจสอบข้าม ใคร ๆ ก็สามารถใช้ความคิดแบบเดียวกันนี้กับอีลาสติกเน็ตได้ แต่สิ่งนี้ดูเหมือนจะต้องการพารามิเตอร์การทำให้เป็นมาตรฐานที่แตกต่างกันสี่แบบและการปรับจูนพวกมันเป็นฝันร้าย

    ฉันขอแนะนำรูปแบบตาข่ายแบบยืดหยุ่นที่ง่ายกว่า: หลังจากได้รับให้ทำการถดถอยแบบสันด้วยและเดียวกันในชุดย่อยของตัวทำนายที่เลือก:สิ่งนี้ (a) ไม่ต้องการพารามิเตอร์การทำให้เป็นมาตรฐานเพิ่มเติมใด ๆ (b) ใช้ได้กับตัวทำนายจำนวนที่เลือกและ (c) ไม่ได้ทำอะไรเลยถ้าใครเริ่มด้วยสันเขาบริสุทธิ์ ฟังดูดีสำหรับฉัน.β^α=0λ

    β^relaxed-elastic-net=Ridge(Xiβ^i0).

ฉันกำลังทำงานที่มีขนาดเล็กชุดข้อมูลที่มีและซึ่งเป็นที่คาดการณ์อย่างดีจากพีซีชั้นนำไม่กี่Xฉันจะเปรียบเทียบประสิทธิภาพของตัวประมาณค่าข้างต้นโดยใช้การตรวจสอบความถูกต้องข้าม 11 เท่าแบบพับซ้ำได้ 100x ในฐานะที่เป็นตัวชี้วัดประสิทธิภาพฉันใช้ข้อผิดพลาดในการทดสอบทำให้เป็นมาตรฐานเพื่อให้ได้ผลลัพธ์คล้ายกับ R-squared:ในภาพด้านล่างเส้นประที่สอดคล้องกับตัวประมาณสุทธิและวานิลลาแบบยืดหยุ่นสามตัวสอดคล้องกับวิธีการลดขนาดสามวิธี:npn=44p=3000yX

Rtest2=1ytestβ^0Xtestβ^2ytestβ^02.
β^

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นอย่างน้อยในข้อมูลเหล่านี้ทั้งสามวิธีที่มีประสิทธิภาพสูงกว่าตัวประมาณค่าความยืดหยุ่นสุทธิของวานิลลาและ "ความยืดหยุ่นแบบตาข่าย" ทำหน้าที่ได้ดีที่สุด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.