การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?


33

ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน:

  • การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2
  • เชือก
  • สันเขาถดถอย

ดังนั้นคำถามของฉัน:

  1. การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่

  2. การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่

  3. "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า "

หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่

การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ:

" ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 คืออะไร " (quora.com)

" เมื่อใดที่ฉันควรใช้ lasso vs ridge? " (stats.stackexchange.com)


แม้ว่าฉันจะตอบช้า คู่มือเริ่มต้นที่ครอบคลุมสำหรับการถดถอยเชิงเส้นริดจ์และ Lasso จะช่วยให้ผู้เริ่มต้นเข้าใจคำศัพท์เหล่านี้อย่างชัดเจน ดูที่นี่
เรียน

คำตอบ:


34
  1. ใช่.

  2. ใช่.

  3. เชือกเป็นจริงตัวย่อ (หดตัวแน่นอนอย่างน้อยและผู้ประกอบการตัวเลือก) ดังนั้นจึงควรจะได้รับทุน แต่การเขียนที่ทันสมัยเทียบเท่าศัพท์ของMad Max ในทางกลับกันอะมีบาเขียนว่าแม้แต่นักสถิติที่ประกาศคำว่า LASSO ก็ใช้การเรนเดอร์ตัวพิมพ์เล็ก (Hastie, Tibshirani และ Wainwright, สถิติการเรียนรู้ด้วย Sparsity ) หนึ่งสามารถคาดเดาได้ว่าเป็นแรงจูงใจสำหรับสวิตช์ หากคุณกำลังเขียนสำหรับสื่อทางวิชาการพวกเขามักจะมีคู่มือสไตล์สำหรับสิ่งนี้ หากคุณกำลังเขียนในฟอรั่มนี้ก็ไม่เป็นไรและฉันสงสัยว่าใครจะสนใจ

สัญกรณ์คือการอ้างอิงถึงบรรทัดฐานคอฟสกีและL Pพื้นที่ เหล่านี้ก็คุยความคิดของรถแท็กซี่และยุคลิดระยะทางไปยังP > 0ในการแสดงออกต่อไปนี้: x P = ( | x 1 | P + | x 2 | P + . . . + | x n | P ) 1LLพีพี>0 สำคัญเพียงp1เท่านั้นที่กำหนดระยะทางเมตริก 0<p<1ไม่ตรงกับความไม่เท่าเทียมกันของสามเหลี่ยมดังนั้นมันจึงไม่ใช่ระยะทางตามคำจำกัดความส่วนใหญ่

xพี=(|x1|พี+|x2|พี+...+|xn|พี)1พี
พี10<พี<1

ฉันไม่แน่ใจว่าเมื่อการเชื่อมต่อระหว่างสันและ LASSO ได้รับการตระหนัก


6
+1 ในการเรียนรู้เชิงสถิติเมื่อเร็ว ๆ นี้กับตำราเรียนSparsity , Hastie, Tibshirani และ Wainwright ใช้ "lasso" ตัวพิมพ์เล็กทุกตัวและทุกที่และเขียนข้อความต่อไปนี้ (เชิงอรรถในหน้า 8): "Lasso เป็นเชือกที่มีห่วงยาว ปลายใช้ในการจับม้าและวัวควายในแง่ที่เป็นรูปธรรมวิธี "lassos" สัมประสิทธิ์ของแบบจำลองในกระดาษ Lasso ฉบับดั้งเดิม (Tibshirani 1996) ชื่อ "Lasso" ถูกนำมาใช้เป็นคำย่อของ "Least Absolute" ตัวเลือกและตัวดำเนินการหดตัว” "(CC ถึง @ stackoverflowuser2010.)
อะมีบากล่าวว่า Reinstate Monica

3
และพวกเขาดำเนินการต่อ: "การออกเสียง: ในสหรัฐอเมริกา" lasso "มีแนวโน้มที่จะออกเสียงว่า" lass-oh "(โอ้เหมือนแพะ) ในขณะที่ในอังกฤษ" lass-oo "ใน OED (ฉบับที่ 2, 1965):" lasso เป็นลาซาเด่นชัดโดยผู้ที่ใช้มันและโดยคนอังกฤษส่วนใหญ่เช่นกัน "" :-)
อะมีบาพูดว่า Reinstate Monica

4
(+1) ตามตัวย่อที่เหมาะสม (ตัวย่อเหล่านั้นออกเสียงเป็นคำ) ได้รับสกุลเงินการใช้อักษรตัวพิมพ์ใหญ่ของพวกเขามีแนวโน้มที่จะไปโดยคณะกรรมการ นานแล้วที่ฉันได้เห็น 'เรดาร์' หรือ 'เลเซอร์'
Scortchi - Reinstate Monica

2
@Scortchi SCUBA ด้วย ในขณะเดียวกันเรามีคนเขียน STATA และ MATLAB ราวกับว่าเป็นตัวย่อ
shadowtalker

2
@ssdecontrol: "ANOVA" ควรเป็น "AnOVa" หรือไม่
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.