สถิติและข้อมูลขนาดใหญ่ lagrange-multipliers

4

ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ 1- องค์ประกอบของการเรียนรู้ทางสถิติ 2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่? ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

15 regression lasso regularization ridge-regression lagrange-multipliers

2

KKT สั้นแบบกราฟิก

วัตถุประสงค์ ยืนยันว่าการเข้าใจ KKT นั้นถูกต้องหรือไม่ ขอคำอธิบายและการยืนยันเพิ่มเติมเกี่ยวกับ KKT พื้นหลัง พยายามทำความเข้าใจกับเงื่อนไข KKT โดยเฉพาะอย่างยิ่งเงื่อนไขเสริมซึ่งจะปรากฏขึ้นสีน้ำเงินในบทความ SVM ฉันไม่ต้องการรายการสูตรนามธรรม แต่ต้องการคำอธิบายที่เป็นรูปธรรมใช้งานง่ายและแบบกราฟิก คำถาม หาก P ซึ่งลดฟังก์ชันต้นทุนให้น้อยที่สุด f (X) จะอยู่ภายในข้อ จำกัด (g (P)> = 0) นั่นคือทางออก ดูเหมือนว่า KKT จะไม่เกี่ยวข้องในกรณีนี้ ดูเหมือนว่า KKT จะบอกว่าถ้า P ไม่ได้อยู่ในข้อ จำกัด แล้วโซลูชัน X ควรตอบสนองด้านล่างในภาพ KKT เกี่ยวกับหรือฉันคิดถึงประเด็นสำคัญอื่น ๆ หรือไม่? คำชี้แจงอื่น ๆ ควรจะ f (x) ให้นูนเพื่อให้ KKT ใช้หรือไม่ …

13 svm optimization lagrange-multipliers

1

LASSO ความสัมพันธ์ระหว่าง

ความเข้าใจของฉันเกี่ยวกับการถดถอย LASSO คือสัมประสิทธิ์การถดถอยถูกเลือกเพื่อแก้ปัญหาการย่อเล็กสุด: minβ∥y−Xβ∥22 s.t.∥β∥1≤tminβ‖y−Xβ‖22 s.t.‖β‖1≤t\min_\beta \|y - X \beta\|_2^2 \ \\s.t. \|\beta\|_1 \leq t ในทางปฏิบัติสิ่งนี้ทำได้โดยใช้ตัวคูณลากรองจ์ทำให้เกิดปัญหาในการแก้ปัญหา minβ∥y−Xβ∥22+λ∥β∥1minβ‖y−Xβ‖22+λ‖β‖1\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 ความสัมพันธ์ระหว่างλλ\lambdaกับtttคืออะไร? วิกิพีเดียอย่างไม่ช่วยเหลือเพียงแค่ระบุว่า "ขึ้นอยู่กับข้อมูล" ทำไมฉันถึงแคร์ ประการแรกสำหรับความอยากรู้ทางปัญญา แต่ฉันก็กังวลเกี่ยวกับผลที่ตามมาสำหรับการเลือกλλ\lambdaโดยการตรวจสอบข้าม โดยเฉพาะถ้าฉันใช้การตรวจสอบความถูกต้องแบบครอส n-fold ฉันพอดีกับโมเดลที่แตกต่างกันกับ n พาร์ติชั่นต่าง ๆ ของข้อมูลการฝึกอบรมของฉัน จากนั้นฉันจะเปรียบเทียบความแม่นยำของโมเดลแต่ละรุ่นกับข้อมูลที่ไม่ได้ใช้สำหรับλλ\lambdaระบุ แต่\ lambdaเดียวกันλλ\lambdaหมายถึงข้อ จำกัด ที่แตกต่างกัน ( ttt ) สำหรับชุดย่อยที่แตกต่างกันของข้อมูล (เช่นt=f(λ)t=f(λ)t=f(\lambda)คือ "data dependent") ไม่ใช่ปัญหาการตรวจสอบข้ามที่ฉันต้องการแก้เพื่อค้นหาtttที่ให้การแลกเปลี่ยนอคติที่แม่นยำที่สุดหรือไม่ …

10 optimization lasso regularization lagrange-multipliers

คำถามติดแท็ก lagrange-multipliers