จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร
เป้าหมายของคุณคืออะไร ทั้งสองสามารถปรับปรุงการวางนัยทั่วไปของโมเดลโดยการลงโทษสัมประสิทธิ์เนื่องจากคุณลักษณะที่มีความสัมพันธ์ตรงข้ามกับผลลัพธ์สามารถ "ชดเชย" ซึ่งกันและกันได้ (ค่าบวกที่มีขนาดใหญ่คือ สิ่งนี้สามารถเกิดขึ้นได้เมื่อมีคุณสมบัติ collinear การเปลี่ยนแปลงเล็กน้อยในข้อมูลอาจส่งผลให้การประมาณพารามิเตอร์แตกต่างกันอย่างมาก (การประมาณค่าความแปรปรวนสูง) การลงโทษสามารถยับยั้งค่าสัมประสิทธิ์ทั้งสองให้เล็กลง (Hastie et al, องค์ประกอบของการเรียนรู้ทางสถิติ , รุ่นที่ 2, หน้า 63)
ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง
การทำให้เป็นมาตรฐานของ L1 สามารถแก้ไขปัญหาความสัมพันธ์แบบหลายค่าได้โดยการ จำกัด บรรทัดฐานสัมประสิทธิ์และตรึงค่าสัมประสิทธิ์บางค่าไว้ที่ 0 การคำนวณการถดถอยแบบ Lasso (การถดถอยด้วยการลงโทษ L1) เป็นโปรแกรมกำลังสองซึ่งต้องการเครื่องมือพิเศษบางอย่างในการแก้ เมื่อคุณมีคุณสมบัติมากกว่าการสังเกตยังไม่มีข้อความ , Lasso จะรักษาค่าสัมประสิทธิ์ยังไม่มีข้อความไม่ใช่ศูนย์มากที่สุด ขึ้นอยู่กับบริบทนั่นอาจไม่ใช่สิ่งที่คุณต้องการ
การทำให้เป็นมาตรฐาน L1 บางครั้งใช้เป็นวิธีการเลือกคุณสมบัติ สมมติว่าคุณมีฮาร์ดไดรฟ์บางชนิดในจำนวนฟีเจอร์ที่คุณสามารถใช้ได้ (เนื่องจากการรวบรวมข้อมูลสำหรับฟีเจอร์ทั้งหมดนั้นมีราคาแพงหรือคุณมีข้อ จำกัด ทางวิศวกรรมที่เข้มงวดเกี่ยวกับจำนวนค่าที่คุณสามารถจัดเก็บเป็นต้น) คุณสามารถลองปรับ L1 ลงโทษเพื่อให้ได้ฟีเจอร์ที่ไม่เป็นศูนย์ตามจำนวนที่คุณต้องการ
การทำให้เป็นมาตรฐาน L2 สามารถแก้ไขปัญหาความสัมพันธ์ระหว่างกันโดยการ จำกัด บรรทัดฐานสัมประสิทธิ์และรักษาตัวแปรทั้งหมด ไม่น่าจะประมาณค่าสัมประสิทธิ์ให้เป็น 0 ได้ตรงนี้ไม่จำเป็นต้องเป็นข้อเสียเปรียบเว้นแต่เวกเตอร์ที่มีค่าเบาบางมีความสำคัญด้วยเหตุผลบางประการ
ในการตั้งค่าการถดถอยมันเป็นคำตอบที่ "คลาสสิค" ต่อปัญหาของการประมาณค่าการถดถอยที่มีคุณสมบัติมากกว่าการสังเกต การทำให้เป็นมาตรฐาน L2 สามารถประมาณค่าสัมประสิทธิ์สำหรับแต่ละคุณลักษณะแม้ว่าจะมีคุณสมบัติมากกว่าการสังเกต (แน่นอนนี่คือแรงจูงใจดั้งเดิมสำหรับ "การถดถอยสัน")
อีกทางเลือกหนึ่งคือelastic net ช่วยให้การทำให้เป็นมาตรฐาน L1 และ L2 เป็นกรณีพิเศษ กรณีใช้งานทั่วไปสำหรับนักวิทยาศาสตร์ด้านข้อมูลในอุตสาหกรรมคือคุณต้องการเลือกรุ่นที่ดีที่สุด แต่ไม่จำเป็นต้องสนใจว่ามันถูกลงโทษโดยใช้ L1, L2 หรือทั้งสองอย่าง Elastic net นั้นดีในสถานการณ์เช่นนี้
แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่
ฉันไม่คุ้นเคยกับสิ่งตีพิมพ์ที่เสนอไปป์ไลน์ L1-then-L2 แต่นี่อาจเป็นเพียงความไม่รู้ของฉัน ดูเหมือนจะไม่มีอะไรผิดปกติกับมัน ฉันจะทำการตรวจสอบวรรณกรรม
มีตัวอย่างของท่อส่ง "phased" ที่คล้ายกันอยู่ หนึ่งคือ "บ่วงบาศที่ผ่อนคลาย" ซึ่งใช้การถดถอยแบบบ่วงบาศสองครั้งหนึ่งครั้งเพื่อเลือกจากกลุ่มขนาดใหญ่ไปยังกลุ่มคุณลักษณะขนาดเล็กและอันดับที่สองเพื่อประมาณค่าสัมประสิทธิ์สำหรับใช้ในแบบจำลอง วิธีนี้ใช้การตรวจสอบข้ามในแต่ละขั้นตอนเพื่อเลือกขนาดของการลงโทษ เหตุผลก็คือในขั้นตอนแรกคุณจะตรวจสอบความถูกต้องและมีแนวโน้มที่จะเลือกบทลงโทษที่มีขนาดใหญ่เพื่อคัดกรองผู้ทำนายที่ไม่เกี่ยวข้องออกไป ในขั้นตอนที่สองคุณตรวจสอบความถูกต้องไขว้และมีแนวโน้มว่าจะได้รับการลงโทษเล็กน้อย สิ่งนี้ถูกกล่าวถึงสั้น ๆ ในองค์ประกอบของการเรียนรู้ทางสถิติโดยมีการอ้างอิงถึง Nicolai Meinshausen ("Relaxed Lasso." สถิติการคำนวณและการวิเคราะห์ข้อมูล เล่มที่ 52 ฉบับที่ 1, 15 กันยายน 2550, pp 374-393)
ผู้ใช้ @amoeba แนะนำ L1-then-OLS ไปป์ไลน์ด้วยเช่นกัน นี่อาจจะดีเพราะมันมีเพียง 1 ไฮเปอร์พารามิเตอร์สำหรับขนาดของการลงโทษ L1 ดังนั้นต้องเล่นซอน้อย
ปัญหาหนึ่งที่อาจเกิดขึ้นได้กับขั้นตอนการวิเคราะห์ "จะค่อย ๆ " ที่ทำบางขั้นตอนและขั้นตอนอื่นแยกจากกันคือว่าไม่มี "ทัศนวิสัย" ระหว่างอัลกอริทึมที่แตกต่างกันดังนั้นกระบวนการหนึ่งจึงสืบทอดข้อมูลใด ๆ ที่เกิดขึ้นในขั้นตอนก่อนหน้า ผลกระทบนี้ไม่ได้เล็กน้อย; การสร้างแบบจำลองที่ไม่ดีอาจส่งผลให้เกิดแบบจำลองขยะ
วิธีหนึ่งในการป้องกันผลข้างเคียงจากการสอดแนมข้อมูลคือการตรวจสอบตัวเลือกทั้งหมดของคุณ อย่างไรก็ตามต้นทุนการคำนวณที่เพิ่มขึ้นสามารถพิสูจน์ได้ซึ่งห้ามปราม