ถ้า LASSO เทียบเท่ากับการถดถอยเชิงเส้นแบบ Laplace ก่อนจะมีมวลในเซตที่มีส่วนประกอบเป็นศูนย์ได้อย่างไร?


20

เราทุกคนต่างคุ้นเคยกับความคิดเอกสารที่เขียนไว้ในเอกสารว่าการเพิ่มประสิทธิภาพ LASSO (เพื่อความเรียบง่าย จำกัด ความสนใจที่นี่ในกรณีของการถดถอยเชิงเส้น) เทียบเท่ากับโมเดลเชิงเส้นที่มีข้อผิดพลาดแบบเกาส์ซึ่งพารามิเตอร์จะได้รับ Laplace ก่อนหน้า เราทราบด้วยเช่นกันว่าค่าที่สูงกว่าจะตั้งค่าพารามิเตอร์การปรับ\ lambdaยิ่งพารามิเตอร์ส่วนใหญ่ถูกกำหนดเป็นศูนย์ สิ่งนี้ถูกกล่าวว่าฉันมีคำถามความคิดต่อไปนี้:

loss=yXβ22+λβ1

exp(λβ1)
λ

พิจารณาจากมุมมองแบบเบส์เราสามารถคำนวณความน่าจะเป็นด้านหลังที่กล่าวว่าการประมาณค่าพารามิเตอร์ที่ไม่เป็นศูนย์อยู่ในการรวบรวมช่วงเวลาใด ๆและพารามิเตอร์ที่กำหนดเป็นศูนย์โดย LASSO เท่ากับศูนย์ สิ่งที่ฉันสับสนคือเมื่อ Laplace ก่อนหน้านี้ต่อเนื่อง (ในความเป็นจริงอย่างต่อเนื่อง) จากนั้นจะมีมวลในเซตใด ๆ ที่เป็นผลคูณของระยะและ singletons ที่อย่างไร?{0}


8
อะไรทำให้คุณคิดว่าคนหลังนั้นไม่ใช่ไฟล์ PDF ต่อเนื่อง ความจริงที่ว่าจำนวนสูงสุดหลังเกิดขึ้น ณ จุดที่มีส่วนประกอบจำนวนมาก 0 รายการนั้นไม่ได้หมายความว่าตัวหลังนั้นไม่ได้เป็นไฟล์ PDF ต่อเนื่อง
Brian Borchers

ด้านหลังเป็น PDF อย่างต่อเนื่อง ถูกมองว่าเป็นการประมาณค่าความเป็นไปได้สูงสุดที่ จำกัด หากเราจินตนาการว่าการดึงข้อมูลซ้ำจากการกระจายข้อมูลเดียวกันเมื่อแบบจำลองที่แท้จริงมีค่าศูนย์ที่สัมประสิทธิ์การถดถอยหลายครั้งและค่าคงที่การปรับค่ามีขนาดใหญ่พอ พารามิเตอร์ศูนย์จะกระจายออกเป็นช่วงความมั่นใจที่สอดคล้องกัน จากมุมมองแบบเบส์สิ่งนี้เทียบเท่ากับการมีความเป็นไปได้ในเชิงบวกสำหรับชุดดังกล่าว คำถามของฉันคือสิ่งนี้จะเป็นเช่นไรสำหรับการกระจายอย่างต่อเนื่อง
สิทธิ์ Izmirlian

2
โซลูชัน CLME เกิดขึ้นพร้อมกับการประมาณการ MAP ไม่มีอะไรจะพูดอีกแล้ว
Sycorax พูดว่า Reinstate Monica

3
โซลูชัน CMLE ไม่ใช่ตัวอย่างจากคนหลัง
Brian Borchers

2
ไม่มีความขัดแย้งเพราะหลังไม่ได้วางมวลในชุดของมิติที่ต่ำกว่า
ซีอาน

คำตอบ:


7

เช่นเดียวกับความคิดเห็นทั้งหมดข้างต้นการตีความแบบเบย์ของ LASSO ไม่ได้ คำนึงถึงคุณค่าที่คาดหวังของการแจกแจงหลังซึ่งเป็นสิ่งที่คุณต้องการทำถ้าคุณเป็นคนเจ้าระเบียบ หากเป็นเช่นนั้นคุณก็จะถูกต้องว่ามีโอกาสน้อยมากที่คนหลังจะเป็นศูนย์ที่ได้รับข้อมูล

ในความเป็นจริงการตีความแบบเบส์ของ LASSO กำลังใช้ตัวประมาณ MAP (สูงสุด A Posteriori) ของผู้อยู่ด้านหลัง ดูเหมือนว่าคุณคุ้นเคย แต่สำหรับทุกคนที่ไม่ได้นี่เป็นโอกาสสูงสุดของ Bayesian โดยที่คุณใช้ค่าที่สอดคล้องกับความน่าจะเป็นสูงสุดที่เกิดขึ้น (หรือโหมด) เป็นตัวประมาณค่าพารามิเตอร์ใน LASSO เนื่องจากการกระจายเพิ่มขึ้นเป็นทวีคูณจนกระทั่งเป็นศูนย์จากทิศทางลบและหลุดออกไปชี้แจงในทิศทางบวกเว้นแต่ว่าข้อมูลของคุณชี้ให้เห็นอย่างชัดเจนว่าเบต้าเป็นค่าที่สำคัญอื่น ๆ มูลค่าสูงสุดของค่าหลังของคุณน่าจะเป็น 0

เรื่องสั้นสั้น ๆ สัญชาตญาณของคุณดูเหมือนจะขึ้นอยู่กับค่าเฉลี่ยของคนหลัง แต่การตีความ Bayesian ของ LASSO นั้นขึ้นอยู่กับการใช้โหมดของคนหลัง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.