การทำให้เป็นมาตรฐาน L1 จะทำงานได้ดีกว่า L2 และในทางกลับกันหรือไม่


30

หมายเหตุ: ฉันรู้ว่า L1 มีคุณสมบัติการเลือกคุณสมบัติ ฉันพยายามที่จะเข้าใจว่าจะเลือกแบบใดเมื่อการเลือกคุณสมบัติไม่เกี่ยวข้องอย่างสมบูรณ์

  1. จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร
  2. ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง
  3. แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

2
โปรดทราบว่า "การเลือกคุณลักษณะ L1" ควรเรียกว่าการทำให้เป็นปกติของพื้นที่คุณลักษณะ; มีวิธีการที่ดีกว่าในการเลือกการทำความเข้าใจวิธีการรับข้อมูลที่เกี่ยวข้องกับปัญหาแบบจำลอง

@mbq: ฉันอยากรู้ว่า "วิธีที่ดีกว่านี้หลายวิธี" ที่คุณหมายถึงที่นี่?
อะมีบาพูดว่า Reinstate Monica

1
เช่นเดียวกับที่ระบุที่นี่

คำตอบ:


31

จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร

เป้าหมายของคุณคืออะไร ทั้งสองสามารถปรับปรุงการวางนัยทั่วไปของโมเดลโดยการลงโทษสัมประสิทธิ์เนื่องจากคุณลักษณะที่มีความสัมพันธ์ตรงข้ามกับผลลัพธ์สามารถ "ชดเชย" ซึ่งกันและกันได้ (ค่าบวกที่มีขนาดใหญ่คือ สิ่งนี้สามารถเกิดขึ้นได้เมื่อมีคุณสมบัติ collinear การเปลี่ยนแปลงเล็กน้อยในข้อมูลอาจส่งผลให้การประมาณพารามิเตอร์แตกต่างกันอย่างมาก (การประมาณค่าความแปรปรวนสูง) การลงโทษสามารถยับยั้งค่าสัมประสิทธิ์ทั้งสองให้เล็กลง (Hastie et al, องค์ประกอบของการเรียนรู้ทางสถิติ , รุ่นที่ 2, หน้า 63)

ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง

การทำให้เป็นมาตรฐานของ L1 สามารถแก้ไขปัญหาความสัมพันธ์แบบหลายค่าได้โดยการ จำกัด บรรทัดฐานสัมประสิทธิ์และตรึงค่าสัมประสิทธิ์บางค่าไว้ที่ 0 การคำนวณการถดถอยแบบ Lasso (การถดถอยด้วยการลงโทษ L1) เป็นโปรแกรมกำลังสองซึ่งต้องการเครื่องมือพิเศษบางอย่างในการแก้ เมื่อคุณมีคุณสมบัติมากกว่าการสังเกตยังไม่มีข้อความ , Lasso จะรักษาค่าสัมประสิทธิ์ยังไม่มีข้อความไม่ใช่ศูนย์มากที่สุด ขึ้นอยู่กับบริบทนั่นอาจไม่ใช่สิ่งที่คุณต้องการ

การทำให้เป็นมาตรฐาน L1 บางครั้งใช้เป็นวิธีการเลือกคุณสมบัติ สมมติว่าคุณมีฮาร์ดไดรฟ์บางชนิดในจำนวนฟีเจอร์ที่คุณสามารถใช้ได้ (เนื่องจากการรวบรวมข้อมูลสำหรับฟีเจอร์ทั้งหมดนั้นมีราคาแพงหรือคุณมีข้อ จำกัด ทางวิศวกรรมที่เข้มงวดเกี่ยวกับจำนวนค่าที่คุณสามารถจัดเก็บเป็นต้น) คุณสามารถลองปรับ L1 ลงโทษเพื่อให้ได้ฟีเจอร์ที่ไม่เป็นศูนย์ตามจำนวนที่คุณต้องการ

การทำให้เป็นมาตรฐาน L2 สามารถแก้ไขปัญหาความสัมพันธ์ระหว่างกันโดยการ จำกัด บรรทัดฐานสัมประสิทธิ์และรักษาตัวแปรทั้งหมด ไม่น่าจะประมาณค่าสัมประสิทธิ์ให้เป็น 0 ได้ตรงนี้ไม่จำเป็นต้องเป็นข้อเสียเปรียบเว้นแต่เวกเตอร์ที่มีค่าเบาบางมีความสำคัญด้วยเหตุผลบางประการ

ในการตั้งค่าการถดถอยมันเป็นคำตอบที่ "คลาสสิค" ต่อปัญหาของการประมาณค่าการถดถอยที่มีคุณสมบัติมากกว่าการสังเกต การทำให้เป็นมาตรฐาน L2 สามารถประมาณค่าสัมประสิทธิ์สำหรับแต่ละคุณลักษณะแม้ว่าจะมีคุณสมบัติมากกว่าการสังเกต (แน่นอนนี่คือแรงจูงใจดั้งเดิมสำหรับ "การถดถอยสัน")

อีกทางเลือกหนึ่งคือelastic net ช่วยให้การทำให้เป็นมาตรฐาน L1 และ L2 เป็นกรณีพิเศษ กรณีใช้งานทั่วไปสำหรับนักวิทยาศาสตร์ด้านข้อมูลในอุตสาหกรรมคือคุณต้องการเลือกรุ่นที่ดีที่สุด แต่ไม่จำเป็นต้องสนใจว่ามันถูกลงโทษโดยใช้ L1, L2 หรือทั้งสองอย่าง Elastic net นั้นดีในสถานการณ์เช่นนี้

แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

ฉันไม่คุ้นเคยกับสิ่งตีพิมพ์ที่เสนอไปป์ไลน์ L1-then-L2 แต่นี่อาจเป็นเพียงความไม่รู้ของฉัน ดูเหมือนจะไม่มีอะไรผิดปกติกับมัน ฉันจะทำการตรวจสอบวรรณกรรม

มีตัวอย่างของท่อส่ง "phased" ที่คล้ายกันอยู่ หนึ่งคือ "บ่วงบาศที่ผ่อนคลาย" ซึ่งใช้การถดถอยแบบบ่วงบาศสองครั้งหนึ่งครั้งเพื่อเลือกจากกลุ่มขนาดใหญ่ไปยังกลุ่มคุณลักษณะขนาดเล็กและอันดับที่สองเพื่อประมาณค่าสัมประสิทธิ์สำหรับใช้ในแบบจำลอง วิธีนี้ใช้การตรวจสอบข้ามในแต่ละขั้นตอนเพื่อเลือกขนาดของการลงโทษ เหตุผลก็คือในขั้นตอนแรกคุณจะตรวจสอบความถูกต้องและมีแนวโน้มที่จะเลือกบทลงโทษที่มีขนาดใหญ่เพื่อคัดกรองผู้ทำนายที่ไม่เกี่ยวข้องออกไป ในขั้นตอนที่สองคุณตรวจสอบความถูกต้องไขว้และมีแนวโน้มว่าจะได้รับการลงโทษเล็กน้อย สิ่งนี้ถูกกล่าวถึงสั้น ๆ ในองค์ประกอบของการเรียนรู้ทางสถิติโดยมีการอ้างอิงถึง Nicolai Meinshausen ("Relaxed Lasso." สถิติการคำนวณและการวิเคราะห์ข้อมูล เล่มที่ 52 ฉบับที่ 1, 15 กันยายน 2550, pp 374-393)

ผู้ใช้ @amoeba แนะนำ L1-then-OLS ไปป์ไลน์ด้วยเช่นกัน นี่อาจจะดีเพราะมันมีเพียง 1 ไฮเปอร์พารามิเตอร์สำหรับขนาดของการลงโทษ L1 ดังนั้นต้องเล่นซอน้อย

ปัญหาหนึ่งที่อาจเกิดขึ้นได้กับขั้นตอนการวิเคราะห์ "จะค่อย ๆ " ที่ทำบางขั้นตอนและขั้นตอนอื่นแยกจากกันคือว่าไม่มี "ทัศนวิสัย" ระหว่างอัลกอริทึมที่แตกต่างกันดังนั้นกระบวนการหนึ่งจึงสืบทอดข้อมูลใด ๆ ที่เกิดขึ้นในขั้นตอนก่อนหน้า ผลกระทบนี้ไม่ได้เล็กน้อย; การสร้างแบบจำลองที่ไม่ดีอาจส่งผลให้เกิดแบบจำลองขยะ

วิธีหนึ่งในการป้องกันผลข้างเคียงจากการสอดแนมข้อมูลคือการตรวจสอบตัวเลือกทั้งหมดของคุณ อย่างไรก็ตามต้นทุนการคำนวณที่เพิ่มขึ้นสามารถพิสูจน์ได้ซึ่งห้ามปราม


ขออภัยฉันไม่ได้ปฏิบัติตามคำตอบไปยังจุดที่ 3 ของฉัน คุณสามารถอธิบาย?
GeorgeOfTheRF

1
มันคือทั้งหมดที่เกี่ยวกับการบัญชีที่เหมาะสมสำหรับการมองในแง่ดี ด้วยเหตุผลเดียวกันกับที่เราวัดประสิทธิภาพข้อมูลที่ไม่อยู่ในกลุ่มตัวอย่างจำเป็นต้องทำตามขั้นตอนการกรอง / การประมวลผลล่วงหน้าทั้งหมดในวิธีที่ไม่อนุญาตให้มีการรั่วไหลของข้อมูลระหว่างขั้นตอน หากคุณเลือกคุณสมบัติในชุดข้อมูลทั้งหมดของคุณจากนั้นเรียกใช้การวิเคราะห์บางอย่างคุณจะพบสัญญาณรบกวน
Sycorax พูดว่า Reinstate Monica

ตกลง. ดังนั้นวิธีที่แนะนำในการเลือกคุณสมบัติก่อนใช้รุ่น ML คืออะไร
GeorgeOfTheRF

3
คำแนะนำของฉันคือ "ไม่" ดูที่นี่สำหรับตัวอย่างว่าสิ่งนี้จะผิดพลาดได้อย่างไร: stats.stackexchange.com/questions/164048/แต่สิ่งนี้แตกต่างอย่างมากจากคำถามเริ่มต้นของคุณที่คุณควรถามคำถามใหม่ (นี่คือเพื่อประโยชน์ของคุณเนื่องจากคุณสามารถเพิ่มตัวแทนเพิ่มเติมในคำถามใหม่)
Sycorax พูดว่า Reinstate Monica

3
(+1) ฉันไม่เคยเห็น L1 ที่ตามมาด้วยการพูดคุย L2 ในวรรณกรรม แต่มันสมเหตุสมผลสำหรับฉัน มี L1-follow-by-OLS (aka "LARS-OLS hybrid") และ L1-follow-by-L1 (Lasso ที่ผ่อนคลาย) ดังนั้นเราสามารถพิจารณา L1-follow-by-L2 ได้เช่นกัน ตราบใดที่พารามิเตอร์ทั้งสองมีการตรวจสอบข้ามก็ควรจะเป็นกลยุทธ์การทำให้เป็นมาตรฐานได้
อะมีบาพูดว่า Reinstate Monica

19

โดยทั่วไปถ้าคุณต้องการการทำนายที่เหมาะสมให้ใช้ L2 หากคุณต้องการความประหยัดโดยใช้การเลือกปฏิบัติ L1 แต่ทราบว่า parsimony สามารถลวงตาเช่นการทำซ้ำกระบวนการเชือกโดยใช้ bootstrap มักจะเผยให้เห็นความไม่แน่นอนอย่างมีนัยสำคัญในรายการของคุณสมบัติ "เลือก" โดยเฉพาะอย่างยิ่งเมื่อทำนายมีความสัมพันธ์กัน


"การคาดคะเนที่เหมาะสมที่สุด" - คุณหมายถึง L2 โดยทั่วไปให้ความแม่นยำที่ดีกว่ากับข้อมูลที่มองไม่เห็น?
GeorgeOfTheRF

3
ใช่โดยเฉพาะอย่างยิ่งเกี่ยวกับการเลือกปฏิบัติที่คาดการณ์ได้
Frank Harrell

1
L2L1

2
L2L1

เยี่ยมขอบคุณสำหรับการชี้แจง มันสมเหตุสมผลดี (ใช่คุณถูกต้องฉันเชื่อมโยง PD กับมาตรการที่เกี่ยวข้องกับความน่าจะเป็นของการจำแนกประเภทที่ถูกต้องและ / หรือการเรียงลำดับของวิชาในแง่ของความเสี่ยงดังนั้นฉันจึงพูดได้อย่างรวดเร็วว่า
usεr11852พูดว่า Reinstate Monic
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.