การเชื่อมต่อระหว่างสูตร Lasso


9

คำถามนี้อาจเป็นใบ้ แต่ฉันสังเกตเห็นว่ามีสองสูตรที่แตกต่างกันของการถดถอยLasso เรารู้ว่าปัญหาLassoนั้นเพื่อลดวัตถุประสงค์ที่ประกอบด้วยการสูญเสียกำลังสองบวกกับL-1 โทษระยะแสดงดังนี้

minβyXβ22+λβ1

แต่บ่อยครั้งที่ฉันเห็นตัวประมาณค่า Lasso สามารถเขียนเป็น

β^n(λ)=argminβ{12nyXβ22+λβ1}

คำถามของฉันคือเทียบเท่าหรือไม่ คำว่า12nมาจากไหน การเชื่อมต่อระหว่างสองสูตรนี้ไม่ชัดเจนสำหรับฉัน

[อัพเดท]ฉันเดาคำถามที่อับเรตที่ฉันควรถามคือ

ทำไมถึงมีสูตรที่สอง? อะไรคือข้อได้เปรียบทางทฤษฎีหรือการคำนวณของการกำหนดปัญหาด้วยวิธีการที่?


2
ถ้าคุณตั้งค่าในการกำหนดที่สองเท่ากับครั้งในการกำหนดก่อนแล้วฟังก์ชั่นในการกำหนดวัตถุประสงค์ที่สองคือครั้งฟังก์ชันวัตถุประสงค์ในการกำหนดครั้งแรก ในความเป็นจริงคุณเพียงแค่เปลี่ยนหน่วยของการวัดการสูญเสีย คุณคิดว่ามันจะเปลี่ยนค่าที่ดีที่สุดของอย่างไร? λ1/(2n)λ1/(2n)β
whuber

ขอบคุณ @Whuber นั่นทำให้รู้สึกถึงฉัน แล้วทำไมถึงมีสูตรหลัง? อะไรคือข้อได้เปรียบทางทฤษฎีหรือการคำนวณของการกำหนดปัญหาด้วยวิธีการที่?
Aaron Zeng

คำตอบ:


10

พวกเขามีความเท่าเทียมกันอย่างแน่นอนเนื่องจากคุณสามารถขายตลอดเวลา(ดูความคิดเห็นของ @ whuber's) จากมุมมองทางทฤษฎีมันเป็นเรื่องของความสะดวกสบาย แต่เท่าที่ฉันรู้ว่ามันไม่จำเป็น จากมุมมองการคำนวณฉันพบว่าค่อนข้างน่ารำคาญดังนั้นฉันจึงมักจะใช้สูตรแรกถ้าฉันออกแบบอัลกอริทึมที่ใช้การทำให้เป็นมาตรฐานλ1/(2n)

backstory เล็ก ๆ น้อย ๆ : เมื่อฉันเริ่มเรียนรู้เกี่ยวกับวิธีการลงโทษฉันได้รับความรำคาญแบกรอบ ๆ ทุกที่ในการทำงานของฉันดังนั้นฉันชอบที่จะไม่สนใจมัน - มันทำให้การคำนวณของฉันง่ายขึ้น ในเวลานั้นงานของฉันคือการคำนวณเป็นหลัก ไม่นานมานี้ฉันได้ทำงานด้านทฤษฎีและฉันได้พบสิ่งที่ขาดไม่ได้ (เทียบกับ, พูด, )1/(2n)1/(2n)1/n

รายละเอียดเพิ่มเติม: เมื่อคุณพยายามที่จะวิเคราะห์ลักษณะการทำงานของเชือกเป็นหน้าที่ของขนาดตัวอย่าง , คุณมักมีการจัดการกับผลรวมของตัวแปรสุ่ม IID และในทางปฏิบัติมันเป็นเรื่องปกติที่สะดวกมากขึ้นในการวิเคราะห์ผลบวกดังกล่าวหลังจาก normalizing โดย - - พิจารณากฎหมายของทฤษฎีบทจำนวนมาก / ขีด จำกัด กลาง (หรือหากคุณต้องการจินตนาการความเข้มข้นของการวัดและทฤษฎีกระบวนการเชิงประจักษ์) หากคุณไม่มีคำว่าหน้าการสูญเสียคุณจะต้องลดบางสิ่งบางอย่างในตอนท้ายของการวิเคราะห์ดังนั้นโดยทั่วไปแล้วจะดีกว่าเมื่อเริ่มต้นด้วย ค่านั้นสะดวกเพราะจะยกเลิกปัจจัยที่น่ารำคาญของnn1/n1/22 ในการวิเคราะห์ (เช่นเมื่อคุณหาอนุพันธ์ของเทอมการสูญเสียกำลังสอง)

วิธีการที่จะคิดว่านี้ก็คือว่าเมื่อทำทฤษฎีเรามีความสนใจโดยทั่วไปในพฤติกรรมของการแก้ปัญหาเป็นเพิ่มขึ้น - นั่นคือไม่ได้เป็นบางปริมาณคงที่ ในทางปฏิบัติเมื่อเรารัน Lasso บนชุดข้อมูลคงที่แน่นอนได้รับการแก้ไขจากมุมมองของอัลกอริทึม / การคำนวณ ดังนั้นการมีปัจจัยการทำให้ปกติเป็นอันดับต้น ๆ นั้นไม่ได้มีประโยชน์อะไรเลยnnn

เหล่านี้อาจดูเหมือนเรื่องที่น่ารำคาญของความสะดวกสบาย แต่หลังจากที่ใช้เวลามากพอที่จัดการเหล่านี้ชนิดของความไม่เท่าเทียมกันฉันได้เรียนรู้ที่จะรัก(2n)1/(2n)


3
เมื่อคุณตระหนักถึงสิ่งที่คงที่ normalizing เหล่านั้นสำหรับคุณเริ่มเห็นพวกเขาทุกที่
Matthew Drury

ขอบคุณสำหรับคำอธิบายนี้ เราภูมิใจที่ได้อ่านประสบการณ์อันยอดเยี่ยมของคุณในโดเมนนี้ ขอขอบคุณอีกครั้ง
Christina
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.