regularization


10

มีหลายวิธีในการดำเนินการทำให้เป็นมาตรฐาน - L0, L1และ L2บรรทัดฐานตามบรรทัดฐานเช่น ตามFriedman Hastie & Tibsharani , regularizer ที่ดีที่สุดขึ้นอยู่กับปัญหา: คือธรรมชาติของฟังก์ชั่นเป้าหมายที่แท้จริง, พื้นฐานที่ใช้เฉพาะ, อัตราส่วนสัญญาณต่อเสียงรบกวน, และขนาดตัวอย่าง

มีการวิจัยเชิงประจักษ์เปรียบเทียบวิธีการและประสิทธิภาพของวิธีการทำให้เป็นมาตรฐานแบบต่างๆหรือไม่?


ผู้เขียนทั้งสามอยู่ที่ Stanford ทำไมไม่ลองถามพวกเขาโดยตรง Rob Tibshirani เข้าถึงได้มากและ Jerry Friedman ฟรีดแมนทำการวิจัยจำนวนมากในการถดถอยแบบปกติ ดังนั้นเขาอาจเป็นตัวเลือกที่ดีกว่า
Michael R. Chernick

แน่นอนฉันไม่สามารถพูดได้ว่าฉันให้คำตอบกับเขา แต่การบอกให้เขาเป็นคนที่ดีที่สุดในการตอบคำถามดูเหมือนจะเป็นมากกว่าความคิดเห็นทั่วไปที่มักจะพยายามชี้แจง ฉันมักจะสงสัยว่าทำไมผู้คนมักถามคำถามของพวกเขาที่นี่เมื่อพวกเขาสามารถไปที่แหล่งที่มา ฉันเกือบจะแน่ใจว่าฟรีดแมนสามารถตอบคำถามนี้ได้และมันก็สมเหตุสมผลมากที่จะได้ไปแหล่งข่าวโดยเฉพาะเมื่อมันเป็นคำถามเกี่ยวกับสิ่งที่เขียนในหนังสือของพวกเขา ฉันสามารถไปที่แหล่งที่มารับคำตอบแล้วนำเสนอที่นี่
Michael R. Chernick

1
ผู้คนถูกคุกคามโดยสถานะของแหล่งที่มาในฐานะผู้มีอำนาจสันนิษฐานว่าแหล่งข้อมูลนั้นยุ่งเกินกว่าที่จะรับมือกับคำถามเล็ก ๆ น้อย ๆ และไม่สำคัญพวกเขากลัวที่จะหยาบคาย "ทำไมคุณรบกวนฉันด้วยเรื่องนี้" คำตอบ ... มันง่ายกว่ามากที่จะไปที่แหล่งข้อมูลถ้าคุณก็เป็นแหล่งที่มาเช่นกันสำหรับแหล่งอื่น ๆ
jbowman

1
@ jbowman ใช่ ฉันเข้าใจ. แต่คุณจะสังเกตได้ว่าฉันรู้จัก Tibshirani และ Friedman อย่างเป็นส่วนตัวและรับรองกับ Op ว่าความกลัวของพวกเขานั้นไม่มีมูลกับผู้เขียนเหล่านี้ ฉันไม่ได้พูดถึง Hastie เพราะฉันไม่รู้จักเขาเช่นเดียวกับคนอื่น ๆ ,
Michael R. Chernick

1
@chl ฉันไม่คิดว่าเราจะคาดหวังให้พวกเขาเข้าร่วมเว็บไซต์ได้ มันต้องใช้เวลามากเกินไปสำหรับอาจารย์ที่ยุ่งโดยมีข้อยกเว้นบางอย่างเช่น Frank Harrell และคนอื่น ๆ ที่อาจใช้นามแฝง แต่ฉันคิดว่าพวกเขาจะใช้เวลาตอบคำถามเฉพาะที่ส่งถึงพวกเขาโดยตรง
Michael R. Chernick

คำตอบ:


2

ลองพิจารณาโมเดลเชิงเส้นที่ถูกลงโทษ

L0 การลงโทษนั้นไม่ได้ใช้มากนักและมักจะถูกแทนที่ด้วย L1 บรรทัดฐานที่มีความยืดหยุ่นทางคณิตศาสตร์มากขึ้น

L1การทำให้เป็นมาตรฐานมีคุณสมบัติในการสร้างรูปแบบกระจัดกระจาย ซึ่งหมายความว่าตัวแปรเพียงเล็กน้อยเท่านั้นที่จะมีค่าสัมประสิทธิ์การถดถอย 0 มีการใช้โดยเฉพาะอย่างยิ่งถ้าคุณคิดว่ามีเพียงไม่กี่ตัวเท่านั้นที่มีผลกระทบต่อตัวแปรเอาต์พุตอย่างแท้จริง หากมีตัวแปรที่มีความสัมพันธ์กันมากจะเลือกเพียงหนึ่งในตัวแปรเหล่านี้ที่มีค่าสัมประสิทธิ์ไม่เป็น 0

L2 การลงโทษนั้นเป็นเหมือนถ้าคุณเพิ่มคุณค่า λบนเส้นทแยงมุมของเมทริกซ์อินพุต มันสามารถใช้ตัวอย่างในสถานการณ์ที่จำนวนตัวแปรมีขนาดใหญ่กว่าจำนวนตัวอย่าง เพื่อให้ได้เมทริกซ์จตุรัส กับL2 การลงโทษนอร์มตัวแปรทั้งหมดมีค่าสัมประสิทธิ์การถดถอยที่ไม่เป็นศูนย์


1
ในฐานะที่เป็นผลงานเพิ่มเติมโดยเฉพาะเกี่ยวกับ L0ปกติฉันไม่รู้ว่าฉันจะบอกว่ามันเป็นเพราะมันไม่ใช่ "ความยืดหยุ่นทางคณิตศาสตร์"; ฉันคิดว่าเป็นหลักเพราะการปรับให้เหมาะสมนั้นแพงมาก (มีหลายวิธีที่จะลองทำ แต่ฉันไม่คิดว่าสิ่งใดจะใช้งานได้อย่างสมบูรณ์) ฉันรู้จักหนึ่งใน "บิ๊กชีส" ที่ทำงานในการเลือกตัวแปรที่บอกว่าเขาชอบที่จะใช้L0การลงโทษและการคำนวณนั้นเป็นเหตุผลเดียวที่เขาไม่ทำ
ผู้ชาย

1

เพิ่มเติมเล็กน้อยสำหรับคำตอบของ @Donbeo

1) บรรทัดฐาน L0 ไม่ใช่บรรทัดฐานในความหมายที่แท้จริง มันคือจำนวนของรายการที่ไม่เป็นศูนย์ในเวกเตอร์ บรรทัดฐานนี้เห็นได้ชัดว่าไม่ใช่บรรทัดฐานนูนและไม่ใช่บรรทัดฐานในความหมายที่แท้จริง ดังนั้นคุณอาจเห็นคำศัพท์เช่น L0 'norm' มันกลายเป็นปัญหา combinatorial และด้วยเหตุนี้ NP จึงเป็นเรื่องยาก

2) บรรทัดฐาน L1 ให้โซลูชันกระจัดกระจาย (ค้นหา LASSO) มีผลลัพธ์เชื้อเชิญจาก Candes, Donoho และอื่น ๆ ที่แสดงให้เห็นว่าหากการแก้ปัญหาที่แท้จริงนั้นกระจัดกระจายจริงๆ L1 วิธีการลงโทษจะกู้คืนได้ หากโซลูชันพื้นฐานไม่กระจัดกระจายคุณจะไม่ได้รับโซลูชันพื้นฐานในกรณีที่ p >> n มีผลลัพธ์ที่ดีซึ่งแสดงว่า Lasso นั้นสอดคล้องกัน

3) มีวิธีการเช่น Elastic net โดย Zhou และ Hastie ซึ่งรวม L2 และ L1 เข้าไว้ด้วยกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.