ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ


27

ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน

เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ

ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง

ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้

ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย

ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก


2
ฟังดูเหมือนคำถามที่ต้องการคำตอบ "เพื่อให้ยายของฉันจะเข้าใจ" คำตอบ
EngrStudent - Reinstate Monica

2
@EngrStudent เพราะนั่นคือสิ่งที่ฉันต้องนำเสนอใน Math IA ของฉันสำหรับครูคณิตศาสตร์ระดับมัธยมปลายและผู้ตรวจสอบคณิตศาสตร์ระดับมัธยมศึกษาเพื่ออ่าน
MCKapur

คำตอบ:


4

ถ้าคุณใช้regularizationคุณไม่เพียง แต่ลดความผิดพลาดในตัวอย่าง แต่ModelComplexityPenaltyOutOfSampleErrorผมnSaม.พีล.อีERRโอR+Mโอdอีล.Cโอม.พีล.อีxผมเสื้อYPอีnaล.เสื้อY

แม่นยำยิ่งกว่าสำหรับสมมติฐานที่เป็นพารามิเตอร์บางมักจะ ,เป็นจำนวนตัวอย่างในชุดข้อมูลของคุณและเป็นโทษบางอย่างที่จะขึ้นอยู่กับน้ำหนัก , \นี้เป็นที่รู้จักกันเป็นข้อผิดพลาดเติม ตอนนี้คุณสามารถลดฟังก์ชั่นด้านบนได้หากน้ำหนักมีขนาดค่อนข้างเล็กชั่วโมงHλλ(0,1)ม.ΩWΩ=WTWJaug(h(x),Y,λ,Ω)=J(ชั่วโมง(x),Y)+λ2ม.Ωชั่วโมงHλλ(0,1)ม.ΩWΩ=WTW

นี่คือรหัส R ที่จะเล่นด้วย

w <- c(0.1,0.2,0.3)
out <- t(w) %*% w
print(out)

ดังนั้นแทนที่จะเป็นการลงโทษพื้นที่ทั้งหมดของสมมติฐานเราจึงลงโทษแต่ละสมมติฐานทีละตัว บางครั้งเราเรียกสมมติฐานโดยเวกเตอร์น้ำหนักWเอชเอชWHชั่วโมงชั่วโมงW

สำหรับเหตุผลที่มีน้ำหนักขนาดเล็กไปพร้อมกับรุ่น complexitity ต่ำให้ดูที่สมมติฐานต่อไปนี้:w_3 ทั้งหมดที่เรามีสามที่ใช้งานพารามิเตอร์น้ำหนักw_3} ตอนนี้ขอชุดเป็นค่ามากขนาดเล็กมาก 0 ซึ่งจะช่วยลดความซับซ้อนของโมเดลที่จะ:w_2 แทนที่จะเป็นสามพารามิเตอร์น้ำหนักที่ใช้งานเราได้รับเพียงสองh1(x)=x1×w1+x2×w2+x3×w3w1,,w3w3w3=0h1(x)=x1×w1+x2×w2


1
เห็นได้ชัดว่าหากน้ำหนักลดลงเหลือศูนย์ดังนั้นความซับซ้อนของแบบจำลองจะลดลงเนื่องจากคุณสามารถลบคำศัพท์ออกได้ แต่สิ่งนี้ไม่ได้ช่วยอธิบายว่าทำไมความซับซ้อนของตัวแบบจึงลดลงเมื่อค่าของน้ำหนักเข้าใกล้ศูนย์ ทุกคนสามารถอธิบายได้ด้วยคำที่ไม่ใช่สูตรหรือไม่
greg7gkb

6

ฉันไม่แน่ใจว่าฉันรู้จริง ๆ ว่าฉันกำลังพูดถึงอะไร แต่ฉันจะให้มันยิง มันมีน้ำหนักไม่มากนักที่ป้องกันไม่ให้เกิดการโอเวอร์โหลด (ฉันคิดว่า) มันเป็นความจริงที่ว่าการกำหนดขนาดของโมเดลเป็นประจำจะยิ่งช่วยลดพื้นที่ว่างของโมเดลได้อย่างมาก ในความเป็นจริงคุณสามารถทำให้เป็นปกติประมาณ 10,000,000 ถ้าคุณต้องการโดยการใช้บรรทัดฐาน L2 ของค่า X ของคุณลบเวกเตอร์ 10,000000 สิ่งนี้จะช่วยลดการ overfitting (แน่นอนคุณควรมีเหตุผลบางอย่างที่อยู่เบื้องหลังการทำเช่นนั้น (เช่นค่า Y ของคุณอาจมากกว่า 10,000,000 เท่าของผลรวมของค่า X ของคุณ แต่ไม่มีใครทำอย่างนั้นเพราะคุณสามารถ rescale ข้อมูล)

ความเอนเอียงและความแปรปรวนเป็นทั้งความซับซ้อนของแบบจำลอง สิ่งนี้เกี่ยวข้องกับทฤษฎี VC ดังนั้นให้ดูที่ พื้นที่ขนาดใหญ่ของแบบจำลองที่เป็นไปได้ (เช่นค่าพารามิเตอร์ทั้งหมดของคุณสามารถทำได้โดยทั่วไป) ยิ่งมีโอกาสมากขึ้นที่แบบจำลองจะพอดี หากแบบจำลองของคุณสามารถทำทุกอย่างตั้งแต่การเป็นเส้นตรงไปจนถึงการแกว่งไปมาในทุกทิศทางเช่นคลื่นไซน์ที่สามารถขึ้นและลงก็มีแนวโน้มที่จะรับและจำลองการรบกวนแบบสุ่มในข้อมูลของคุณซึ่งไม่ได้เป็นผลมาจาก สัญญาณพื้นฐาน แต่ผลลัพธ์ของโอกาสโชคดีในชุดข้อมูลนั้น (นี่คือเหตุผลว่าทำไมการรับข้อมูลเพิ่มเติมจึงช่วยให้มีการบรรจุมากเกินไป แต่ไม่ทำให้เกิดการ underfitting)

เมื่อคุณทำให้เป็นปกติโดยทั่วไปคุณกำลังลดพื้นที่รูปแบบ นี่ไม่ได้หมายความว่าฟังก์ชั่นที่นุ่มนวล / ราบเรียบมีอคติสูงและแปรปรวนน้อยลง ลองนึกถึงโมเดลเชิงเส้นที่ซ้อนทับด้วยคลื่นไซน์ซึ่งถูก จำกัด ให้มีการสั่นของคลื่นขนาดเล็กมากที่ไม่ได้ทำอะไรเลย (โดยทั่วไปจะเป็นเส้นฝอย) ฟังก์ชั่นนี้มีความรู้สึกที่ยอดเยี่ยม แต่มีเฉพาะชุดมากกว่าการถดถอยเชิงเส้นเล็กน้อย เหตุผลที่ฟังก์ชั่นที่ราบรื่น / ราบเรียบมีแนวโน้มที่จะมีอคติสูงขึ้นและความแปรปรวนน้อยลงเพราะเราในฐานะนักวิทยาศาสตร์ข้อมูลสันนิษฐานว่าถ้าเรามีพื้นที่ตัวอย่างลดลงเราจะค่อนข้างมากเพราะมีดโกนของ Occam ทำให้แบบจำลองนั้นเรียบเนียนขึ้น ที่สั่นคลอนและสั่นสะเทือนไปทั่วสถานที่ มันสมเหตุสมผลแล้วที่จะสลัดนางแบบออกมาก่อน

การทำให้เป็นมาตรฐานเช่นการถดถอยของสันช่วยลดพื้นที่ของแบบจำลองเนื่องจากทำให้มีราคาแพงกว่าที่จะห่างจากศูนย์ (หรือหมายเลขใด ๆ ) ดังนั้นเมื่อแบบจำลองเผชิญกับการเลือกที่จะคำนึงถึงการก่อกวนเล็ก ๆ น้อย ๆ ในข้อมูลของคุณมันจะมีโอกาสเกิดความผิดพลาดทางด้านข้างได้ไม่มากเพราะโดยทั่วไปจะเป็นการเพิ่มค่าพารามิเตอร์ของคุณ หากการก่อกวนนั้นเกิดขึ้นเนื่องจากโอกาสสุ่ม (เช่นหนึ่งในตัวแปร x ของคุณเพิ่งมีความสัมพันธ์แบบสุ่มเล็กน้อยกับตัวแปร y ของคุณ) โมเดลจะไม่นำสิ่งนั้นมาพิจารณาเทียบกับการถดถอยที่ไม่ทำให้เป็นมาตรฐานเนื่องจากการถดถอยที่ไม่ทำให้เป็นมาตรฐานนั้นไม่มีค่าใช้จ่าย การเพิ่มขนาดเบต้า อย่างไรก็ตามหากการก่อกวนนั้นเกิดจากสัญญาณจริงการถดถอยปกติของคุณน่าจะพลาดมากขึ้นซึ่งเป็นสาเหตุที่ทำให้มีอคติสูงกว่า (และเหตุใดจึงมีความแปรปรวนอคติค้าขาย)


ขอบคุณสำหรับคำตอบที่รอบคอบของคุณ! ดังนั้นใช่ในย่อหน้าที่สี่คุณระบุ "ดังนั้นเมื่อแบบจำลองเผชิญกับการเลือกที่จะคำนึงถึงการก่อกวนเล็ก ๆ น้อย ๆ ในข้อมูลของคุณมันจะมีแนวโน้มที่จะผิดพลาดมากขึ้นเพราะนั่น (โดยทั่วไป) จะเพิ่มพารามิเตอร์ของคุณ ราคา.". นี่คือสิ่งที่ฉันขอในที่เฉพาะเจาะจงว่าทำไมเป็นกรณีนี้หรือไม่? ขอบคุณ!
MCKapur

โดยการเพิ่มปัจจัยลงโทษคุณทำให้โอกาสน้อยที่โมเดลจะมี betas สูงกว่าดังนั้นพื้นที่โมเดลของคุณจะเล็กลง สิ่งอื่นที่ควรจดจำคือถ้าแบบจำลองของคุณมีเสียงดังเป็นไปได้ว่าจะมีความชันเป็นศูนย์เนื่องจากไม่มีสหสัมพันธ์ (นี่คือสิ่งหนึ่งที่ฉันไม่ได้คิดเมื่อสร้างอาร์กิวเมนต์แบบ Wiggly / แบบแบน แต่ฉันคิดว่าอาร์กิวเมนต์ยังคงอยู่ จริงโดยทั่วไป) ดังนั้นหากมีการบิดเบือน / ความสัมพันธ์ก็มีแนวโน้มที่จะเพิ่มเบต้า ดังนั้นการทำให้เป็นมาตรฐานจะลงโทษความจริงข้อนี้และหยุดการถดถอยจากการทำให้ยุ่งเหยิงเหล่านั้นไม่ว่าจะเป็นสัญญาณหรือเสียงรบกวน
www3

@ ww3 ฉันเข้าใจ แต่ทำไม betas ที่ใหญ่ขึ้นส่งผลให้พื้นที่รุ่นสูงขึ้น
MCKapur

ฉันไม่แน่ใจว่าคุณต้องการสิ่งนี้อีกต่อไป แต่ฉันคิดว่าฉันจะตอบ มันไม่ใช่เรื่องใหญ่เลยนะ ตัวอย่างเช่นคุณสามารถดำเนินการถดถอยด้วย Y หรือ 1,000 * Y แต่ละคนจะมีความซับซ้อนเดียวกัน แต่ betas จะสูงกว่า 1,000 ในกรณีที่สอง การทำให้เป็นมาตรฐานโดยทั่วไปทำให้การรวมชุดเบต้าบางอย่างยากขึ้นเช่นมีค่าสัมประสิทธิ์หนึ่งเท่ากับ 1,000 และอีก -1000 และอื่น ๆ ที่เรียบง่าย / เรียบง่ายเหมือน 0 ทั้งหมด ซึ่งหมายความว่าหากคุณมีโมเดลที่มีเสียงดังรบกวนจากข้อมูลแบบจำลองที่ได้รับการจัดกลุ่มมีแนวโน้มน้อยกว่าที่จะรับมัน
www3

หากต้องการดำเนินการต่อโมเดลจะไม่เพิกเฉยต่อเสียงรบกวนที่มีเสียงดังทั้งหมดมันจะเพิกเฉยต่อนิสัยแปลก ๆ ที่เพิ่มค่าสัมบูรณ์ของ betas ซึ่งหมายความว่านิสัยใจคอที่ลดค่าของ betas จะเน้นมากขึ้น ไม่เป็นไรเพราะมีเส้นที่ยาวกว่าคุณสามารถวาดได้มากกว่าเส้นตรง (เช่นเปรียบเทียบสมการกำลังสองกับสมการเชิงเส้นหรือสมการคงที่) ดังนั้นหากมีเสียงดังรบกวนที่ส่งผลกระทบต่อข้อมูลพวกเขามีแนวโน้มที่จะสร้างแบบจำลองให้พอดีกับ wiggly มากขึ้น (ซึ่งเป็นแบบจำลองที่ซับซ้อนกว่า) กว่าแบบจำลองแบบประจบประแจง / ตรง
www3

3

เรื่อง:
ยายของฉันเดิน แต่ไม่ปีนขึ้นไป ปู่ย่าตายายบางคนทำ หนึ่งคุณยายเป็นคนมีชื่อเสียงสำหรับการปีนเขา Kilimanjaro

ภูเขาไฟที่อยู่เฉยๆนั้นใหญ่ มันอยู่เหนือฐาน 16,000 ฟุต (อย่าเกลียดหน่วยจักรวรรดิของฉัน) บางครั้งก็มีธารน้ำแข็งอยู่ด้านบนด้วย

หากคุณปีนขึ้นไปบนปีที่ไม่มีธารน้ำแข็งและคุณขึ้นไปสู่จุดสูงสุดมันเป็นชั้นเดียวกับธารน้ำแข็งหรือไม่? ระดับความสูงนั้นแตกต่างกัน เส้นทางที่คุณต้องใช้นั้นแตกต่างกัน ถ้าคุณไปที่ด้านบนเมื่อความหนาของธารน้ำแข็งใหญ่กว่า นั่นทำให้สำเร็จมากกว่าหรือเปล่า? มีผู้คนประมาณปีละ 35,000 คนพยายามปีนขึ้นแต่ประสบความสำเร็จเพียง 16,000 คนเท่านั้น

แอพลิเคชัน:
ดังนั้นฉันจะอธิบายการควบคุมน้ำหนัก (aka การลดความซับซ้อนของแบบจำลอง) ให้กับยายของฉันดังนี้:

คุณยายสมองของคุณเป็นนักคิดที่น่าทึ่งไม่ว่าคุณจะรู้หรือไม่ก็ตาม ถ้าฉันถามคุณว่ามี 16,000 คนที่คิดว่าพวกเขามาถึงจุดสูงสุดแล้วคุณจะพูดว่า "พวกเขาทั้งหมด"

ถ้าฉันวางเซ็นเซอร์ไว้ในรองเท้าของนักปีนเขาทั้ง 30,000 คนและวัดความสูงเหนือระดับน้ำทะเลคนเหล่านั้นบางคนก็ไม่สูงเท่าคนอื่นและอาจไม่มีคุณสมบัติ เมื่อฉันทำอย่างนั้นฉันจะเป็นนายแบบคงที่ - ฉันกำลังบอกว่าถ้าความสูงไม่เท่ากับเปอร์เซ็นต์ความสูงสูงสุดที่วัดได้มันก็ไม่ใช่ยอด บางคนกระโดดขึ้นไปด้านบน บางคนแค่ข้ามเส้นและนั่งลง

ฉันสามารถเพิ่มละติจูดและลองจิจูดลงในเซ็นเซอร์และใส่สมการคำสั่งที่สูงขึ้นและบางทีฉันอาจได้ขนาดที่พอดีขึ้นและมีคนมากขึ้นบางที 45% ของคนทั้งหมดที่ลองใช้

สมมติว่าปีหน้าเป็นปี "ธารน้ำแข็งขนาดใหญ่" หรือปีที่ "ไม่มีธารน้ำแข็ง" เพราะภูเขาไฟบางแห่งเปลี่ยนอัลเบโดของโลกอย่างแท้จริง ถ้าฉันนำแบบจำลองที่ซับซ้อนและแม่นยำของฉันมาจากปีนี้และนำไปใช้กับคนที่ปีนขึ้นไปปีหน้าแบบจำลองจะได้ผลลัพธ์ที่แปลก บางทีทุกคนจะ "ผ่าน" หรือสูงเกินกว่าจะผ่านได้ อาจไม่มีใครเลยที่จะผ่านและมันจะคิดว่าไม่มีใครปีนจริงเสร็จสิ้น โดยเฉพาะอย่างยิ่งเมื่อแบบจำลองมีความซับซ้อนก็จะมีแนวโน้มที่จะไม่พูดคุยกันได้ดี มันอาจพอดีกับข้อมูล "การฝึกอบรม" ในปีนี้ แต่เมื่อข้อมูลใหม่เข้ามามันจะทำงานได้ไม่ดี

การอภิปราย:
เมื่อคุณจำกัดความซับซ้อนของแบบจำลองคุณจะมีลักษณะทั่วไปที่ดีกว่าโดยไม่มีการปรับให้เหมาะสม การใช้แบบจำลองที่ง่ายกว่ารุ่นที่สร้างขึ้นเพื่อรองรับความผันแปรในโลกแห่งความเป็นจริงมีแนวโน้มที่จะให้ผลลัพธ์ที่ดีกว่า

ตอนนี้คุณมีโทโพโลยีเครือข่ายแบบคงที่ดังนั้นคุณจึงพูดว่า "การนับพารามิเตอร์ของฉันคงที่" - ฉันไม่สามารถเปลี่ยนแปลงความซับซ้อนของโมเดล เรื่องไร้สาระ วัดเอนโทรปีในตุ้มน้ำหนัก เมื่อเอนโทรปีมีค่าสูงก็หมายความว่าค่าสัมประสิทธิ์บางอย่างมีนัยสำคัญมากกว่า "ความเป็นสารสนเทศ" มากกว่าค่าอื่น ๆ หากคุณมีค่าเอนโทรปีต่ำมากหมายความว่าโดยทั่วไปค่าสัมประสิทธิ์จะมีระดับ "สารสนเทศ" ที่คล้ายคลึงกัน การให้ข้อมูลไม่จำเป็นต้องเป็นเรื่องดี ในระบอบประชาธิปไตยคุณต้องการให้ทุกคนเท่าเทียมกันและสิ่งต่าง ๆ เช่น George Orwell "มากกว่าคนอื่น ๆ " เป็นตัวชี้วัดความล้มเหลวของระบบ หากคุณไม่มีเหตุผลที่ยอดเยี่ยมคุณต้องการให้น้ำหนักมีความคล้ายคลึงกัน

ในบันทึกส่วนตัว: แทนที่จะใช้ voodoo หรือ heuristic ฉันชอบสิ่งต่าง ๆ เช่น "เกณฑ์ข้อมูล" เพราะมันทำให้ฉันได้รับผลลัพธ์ที่น่าเชื่อถือและสอดคล้องกัน AIC , AICcและBICเป็นจุดเริ่มต้นทั่วไปและเป็นประโยชน์ ทำซ้ำการวิเคราะห์เพื่อกำหนดความเสถียรของโซลูชันหรือผลลัพธ์ของช่วงข้อมูลเกณฑ์เป็นวิธีการทั่วไป บางคนอาจมองว่าการวางเพดานบนเอนโทรปีในน้ำหนัก


2
แตกต่างที่น่าสนใจ มุมคนอวดรู้: คุณเขียนว่า "Orson Wells" การสะกดคำคือเวลส์ ฉันสงสัยว่าคุณหมายถึง George Orwell ( Animal Farm ) มาตลอด
Nick Cox

@ NickCox - ฉันป่วยหนักมาก สมองของฉันทำงานได้ไม่ดีเท่าที่ฉันต้องการ ออร์เวลล์มันเป็น
EngrStudent - Reinstate Monica

ฉันต้องการที่จะเข้าใจว่าทำไมความซับซ้อนของแบบจำลองจึงแตกต่างกันไปตามจำนวนพารามิเตอร์ที่กำหนดไว้ (ความคิดของย่อหน้าที่สองถึงครั้งสุดท้ายของคุณ) และฉันไม่มีโชค googling "entropy พารามิเตอร์" หรือ "ols พารามิเตอร์ ents" คุณใช้คอนเซปต์ของเอนโทรปีเพราะมันพอดีหรือเป็นชื่อที่แท้จริงและเป็นที่รู้จักอย่างกว้างขวางของคุณสมบัติของพารามิเตอร์โมเดล ขอบคุณล่วงหน้า.
Alvaro Fuentes

1
@AlvaroFuentes - เอนโทรปีในแง่นี้มาจากทฤษฎีข้อมูล นี่คือบทความวิกิพีเดีย คิดว่าน้ำหนักเป็นรายการและคุณสามารถคำนวณเอนโทรปีของระบบของน้ำหนักทั้งหมดโดยใช้วิธีเคอร์เนลเพื่อประมาณความหนาแน่นของความน่าจะเป็น คุณสามารถดูค่าเฉลี่ยเอนโทรปีต่อเซลล์ประสาทเพื่อเปรียบเทียบกับเซลล์ประสาทในระดับที่สูงขึ้น
EngrStudent - Reinstate Monica

0

สัญชาตญาณง่าย ๆ ดังต่อไปนี้ โปรดจำไว้ว่าสำหรับการทำให้เป็นปกติคุณสมบัติควรได้มาตรฐานเพื่อให้มีประมาณ ขนาดเดียวกัน

สมมติว่าฟังก์ชันย่อเล็กสุดเป็นเพียงผลรวมของข้อผิดพลาดกำลังสอง:

SSE

SSESSE

ตอนนี้ให้พิจารณาการทำให้เป็นมาตรฐาน LASSO ในกรณีนี้ ฟังก์ชั่นที่จะย่อเล็กสุดคือ

SSE+λΣ|β|

ตอนนี้การเพิ่มคุณสมบัติพิเศษส่งผลให้มีการลงโทษเพิ่มขึ้น: ผลรวมของสัมประสิทธิ์สัมบูรณ์มีขนาดใหญ่ขึ้น! การลดลงของ SSE ควรมีค่ามากกว่าค่าปรับที่เพิ่มเข้ามา เป็นไปไม่ได้ที่จะเพิ่มคุณสมบัติพิเศษโดยไม่เสียค่าใช้จ่าย

การรวมกันของคุณสมบัติมาตรฐานและการลงโทษรวมของสัมประสิทธิ์สัมบูรณ์ จำกัด พื้นที่การค้นหานำไปสู่การ overfitting น้อยลง

ตอนนี้ LASSO:

SSE+λΣ|β|

มีแนวโน้มที่จะทำให้ค่าสัมประสิทธิ์เป็นศูนย์ในขณะที่การถดถอยสัน:

SSE+λΣβ2

มีแนวโน้มที่จะลดค่าสัมประสิทธิ์ตามสัดส่วน สิ่งนี้สามารถมองเห็นได้ว่าเป็นผลข้างเคียงของประเภทของการลงโทษ ภาพด้านล่างช่วยในเรื่องนี้:

ป้อนคำอธิบายรูปภาพที่นี่

ฟังก์ชั่นการลงโทษแบบสม่ำเสมอในทางปฏิบัติให้ 'งบประมาณ' สำหรับพารามิเตอร์ดังที่ได้กล่าวไว้ข้างต้นโดยพื้นที่สีเขียว

SSE

ภาพที่ถ่ายจากhttps://onlinecourses.science.psu.edu/stat857/node/158

สรุป: การทำให้เป็นมาตรฐานมีการลงโทษการเพิ่มพารามิเตอร์พิเศษและขึ้นอยู่กับประเภทของการทำให้เป็นปกติจะทำให้สัมประสิทธิ์ทั้งหมด (สัน) ลดลงหรือจะตั้งค่าสัมประสิทธิ์เป็น 0 ในขณะที่ยังคงสัมประสิทธิ์อื่นเท่าที่งบประมาณอนุญาต (lasso)


1
คุณเพียงแค่อธิบายความแตกต่างระหว่างการถดถอยแบบบ่วงบาศและสันเขา แต่คำถามก็คือการถามถึงสาเหตุที่การทำให้เป็นปกตินั้นนำไปสู่ความซับซ้อนที่ลดลง
Sobi

โปรดอ่านหัวข้อนี้: "การเพิ่มคุณสมบัติพิเศษตอนนี้ส่งผลให้มีการลงโทษเพิ่มขึ้น: ผลรวมของสัมประสิทธิ์สัมบูรณ์มีขนาดใหญ่ขึ้นการลดลงของ SSE ควรมีค่ามากกว่าโทษพิเศษที่เพิ่มเข้ามา
spdrnl

L1λλL2

ส่วนสำคัญคือประเภทของการลงโทษสำหรับการเพิ่มพารามิเตอร์จะมีผลต่อพารามิเตอร์ในรูปแบบที่แตกต่างกัน ในทางปฏิบัติคุณจะได้รับแบบจำลองพร้อมพารามิเตอร์ที่เหมาะสมกับข้อมูลการฝึกอบรมที่แม่นยำน้อยกว่านั่นคือเป้าหมาย
spdrnl

0

ด้วยการเพิ่มเสียง Guassian ให้กับอินพุตโมเดลการเรียนรู้จะทำตัวเหมือนเป็นตัวปรับธรรมดา L2

เมื่อต้องการดูสาเหตุพิจารณาการถดถอยเชิงเส้นที่เพิ่มเสียงรบกวน iid ลงในคุณลักษณะ การสูญเสียในขณะนี้จะเป็นฟังก์ชั่นของข้อผิดพลาด + การมีส่วนร่วมของน้ำหนักมาตรฐาน

ดูที่มา: https://www.youtube.com/watch?v=qw4vtBYhLp0


0

ฉันจำได้ว่าอยู่ในชั้นเรียนของมหาวิทยาลัยครูของฉันกล่าวว่าการปรับค่าพารามิเตอร์ขนาดใหญ่สามารถลดการ overfitting ได้เนื่องจากมันป้องกันไม่ให้โมเดลวางน้ำหนักมากเกินไปในคุณสมบัติเฉพาะในข้อมูล ป้ายกำกับแทนที่จะพยายามเรียนรู้กฎทั่วไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.