สเกล Lasso มีขนาดเมทริกซ์การออกแบบอย่างไร


10

ถ้าฉันมีเมทริกซ์การออกแบบโดยที่คือจำนวนการสังเกตของมิติความซับซ้อนในการแก้สำหรับด้วย LASSO, wrtและd ? ผมคิดว่าคำตอบควรดูที่วิธีการหนึ่ง Lasso ย้ำเครื่องชั่งน้ำหนักที่มีพารามิเตอร์เหล่านี้มากกว่าวิธีการที่จำนวนซ้ำ (ลู่) เครื่องชั่งน้ำหนักจนกว่าคุณจะรู้สึกอย่างอื่น n วันที่β = argmin β 1XRn×dndndβ^=argminβ12n||Xβ-Y||2+λ||β||1nd

ฉันได้อ่านนี้ซับซ้อนก่อนหน้า Lasso คำถามแต่ดูเหมือนว่าที่ขัดแย้งกับการอภิปรายเกี่ยวกับ glmnet ที่นี่และที่นี่ ผมทราบว่ามีขั้นตอนวิธีการจำนวนมากออกมีรวมทั้ง glmnet ของวิธีการ GLM แต่ผมกำลังเขียนกระดาษเกี่ยวกับการเปลี่ยนองค์ประกอบ Lasso ขั้นตอนวิธีการที่ผู้ปกครองและต้องการที่จะรวมถึงการอภิปรายเกี่ยวกับความซับซ้อน Lasso โดยทั่วไปโดยเฉพาะอย่างยิ่งกับdและnnฉันต้องการทราบความซับซ้อนของ glmnet ในกรณีที่ไม่กระจัดกระจายพื้นฐาน แต่บทความที่อ้างถึงมีความสับสนเล็กน้อยเนื่องจากความซับซ้อนของอัลกอริทึมทั้งหมดไม่ชัดเจน


3
ยังไม่ชัดเจนว่าทำไมคำตอบนี้stats.stackexchange.com/a/190717/28666 (ในเธรดที่คุณเชื่อมโยง) ไม่ตอบคำถามของคุณ คุณสามารถทำอย่างละเอียด? อะไรคือสิ่งที่ขัดแย้งกับอะไร
อะมีบา

หน้า 6 ใน [pdf] [1], ระบุ "ดังนั้นการวนรอบที่สมบูรณ์ผ่านตัวแปร d ทั้งหมดจะต้องเสียค่าใช้จ่าย " แต่คำถามที่คุณเชื่อมโยงไปยังรัฐn) ฉันขาดการวนซ้ำที่นี่เพื่อให้เกิดความซับซ้อนหรือไม่ [1]: jstatsoft.org/article/view/v033i01O ( d 2 n ) d 2O(dn)O(d2n)d2
rnoodle

@amoeba ลิงก์ที่คุณระบุมีไว้สำหรับอัลกอริทึม LARS - ฉันต้องการทราบเกี่ยวกับวิธีการ GLM
rnoodle

การอ้างอิงสำหรับการถดถอยมุมอย่างน้อยและสำหรับการประสานงานโคตรถูกต้อง ความแตกต่างคือ (1) LARS พบทางออกที่ถูกต้องใน (และทำข้ามเส้นทางทั้งหมดที่เป็นไปได้มีความซับซ้อนเท่ากับปัญหา OLS กับปัญหาทั้งหมดซึ่งยัง เกล็ดขณะที่ ) ในขณะที่ (2) โคตรพิกัดกำลังทำ "เพียง" ขั้นตอนเดียวประมาณใน , บรรจบกัน / 'ลง' ใกล้กับขั้นต่ำสุดของ ปัญหา LASSO LARS ใช้ขั้นตอนพร้อมโคตรโคตร ... ไม่มีใครรู้ O ( d n ) O ( d 2 n ) λ O ( d 2 n ) O ( d n ) dO(d2n)O(dn)O(d2n)λO(d2n)O(dn)d
Sextus Empiricus

คำตอบ:


3

คำตอบจากการอ้างอิง

  • O(d2n)สำหรับการถดถอยมุมอย่างน้อย
  • O(dn)เพื่อประสานงานการสืบเชื้อสาย

ถูกต้อง


ความแตกต่างก็คือ

สมการLARSถูกเขียนในรูปแบบปิดและค้นหาวิธีแก้ปัญหาที่แน่นอน

(และการทำเช่นนั้นจะข้ามเส้นทางทั้งหมดของความเป็นไปได้λในขณะที่ความซับซ้อนในการคำนวณนั้นถูกปรับขนาดเช่นเดียวกับการค้นหาวิธีแก้ปัญหาของปัญหากำลังสองน้อยสุดธรรมดาซึ่งยังขยายเป็น )O(d2n)

ในขณะที่

โคตรพิกัดเป็นรูปแบบการวนซ้ำเพื่อประมาณวิธีแก้ปัญหา ขั้นตอนที่อ้างถึง (ซึ่งคำนวณต้นทุนเป็น ) คือ "เพียง" ขั้นตอนเดียวโดยประมาณการรวม / 'มาก' เข้าใกล้กับปัญหา LASSO ขั้นต่ำที่สุดO(dn)


LARS ใช้ (อย่างแน่นอน)ขั้นตอนในการค้นหาวิธีแก้ไข(ด้วยความซับซ้อนของการปรับส k-th เป็น , คำแรกสำหรับการค้นหา Inner-products ใน inactive ระยะชุดและครั้งที่สองสำหรับการแก้มุมใหม่ในตัวแปรที่ใช้งาน) ด้วยโคตรโคตร ๆ ไม่มีใครรู้ถึงอัตราการลู่เข้าและจำนวนของขั้นตอนที่ต้องการ / คาดหวังสำหรับการลู่เข้าแบบ 'เพียงพอ' (หรืออย่างน้อยก็ไม่ได้อธิบายอย่างดี)O ( ( d - k ) n + k 2 ) d - k kdO((d-k)n+k2)d-kk

ในทางกลับกันค่าใช้จ่ายเพิ่มขึ้นอย่างมากสำหรับขนาดที่สูง (ในขณะที่ไม่มีเหตุผลที่ดีที่จะคาดหวังว่าอัตราการลู่เข้าของโคตรของโคตรจะคล้ายกัน = เชิงเส้นถ้าเพิ่มขึ้น) ดังนั้นการประสานงานอย่างสังหรณ์ใจโคตรจะทำงานได้ดีเหนือขีด จำกัด บางอย่างสำหรับdกรณีศึกษานี้แสดงให้เห็นด้วย (ดูข้อมูลอ้างอิงที่แสดงว่า glmnet ทำงานได้ดีกว่า LARS เมื่อในขณะที่อัลกอริทึมทำงานคล้ายกัน)d2nddd>>100d=100


Scaling LARS เป็นปัญหาเกี่ยวกับความซับซ้อนในการคำนวณ การปรับประสานงานเชื้อสายเป็นปัญหาที่เกี่ยวข้องกับความซับซ้อนการคำนวณและการบรรจบกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.