เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐานในการถดถอยพหุนามแทนที่จะลดระดับลง


32

เมื่อทำการถดถอยตัวอย่างเช่นพารามิเตอร์ไฮเปอร์สองตัวที่เลือกมักจะเป็นความสามารถของฟังก์ชัน (เช่นเลขชี้กำลังที่ใหญ่ที่สุดของพหุนาม) และปริมาณของการทำให้เป็นมาตรฐาน สิ่งที่ฉันสับสนคือทำไมไม่เพียงแค่เลือกฟังก์ชั่นความจุต่ำแล้วไม่สนใจการทำให้เป็นมาตรฐาน ด้วยวิธีนี้มันจะไม่เหมาะ ถ้าฉันมีฟังก์ชั่นที่มีความจุสูงพร้อมกับการทำให้เป็นมาตรฐานนั่นก็ไม่ใช่แค่ฟังก์ชั่นความจุต่ำและไม่มีการทำให้เป็นปกติ

คำตอบ:


49

ฉันเพิ่งทำแอปเบราว์เซอร์เล็ก ๆ น้อย ๆ ที่คุณสามารถใช้เล่นกับแนวคิดเหล่านี้: Scatterplot Smoothers (*)

นี่คือข้อมูลบางส่วนที่ฉันสร้างขึ้นโดยมีพหุนามต่ำ

กำลังสองพอดี

เป็นที่ชัดเจนว่าพหุนามกำลังสองนั้นไม่ยืดหยุ่นพอที่จะให้ข้อมูลที่เหมาะสม เรามีภูมิภาคที่มีอคติสูงมากระหว่างถึง0.850.60.85ข้อมูลทั้งหมดอยู่ต่ำกว่าค่าพอดีและหลังจาก0.85ข้อมูลทั้งหมดอยู่เหนือเส้นโค้ง

เพื่อกำจัดอคติเราสามารถเพิ่มระดับของเส้นโค้งเป็นสาม แต่ปัญหายังคงอยู่เส้นโค้งลูกบาศก์ยังคงแข็งเกินไป

ลูกบาศก์พอดี

ดังนั้นเราจึงเพิ่มระดับอย่างต่อเนื่อง แต่ตอนนี้เราประสบปัญหาตรงข้าม

พอดีสิบองศา

เส้นโค้งนี้ติดตามข้อมูล อย่างใกล้ชิดมากเกินไปและมีแนวโน้มว่าจะบินไปในทิศทางที่ไม่เป็นไปตามรูปแบบทั่วไปในข้อมูล นี่คือที่มาของการทำให้เป็นมาตรฐานด้วยเส้นโค้งองศาเดียวกัน (สิบ) และการทำให้เป็นมาตรฐานที่เลือกไว้อย่างดี

ปริญญาตรีสิบปี

เราได้แบบที่ดีจริงๆ!

มันคุ้มค่าที่จะมุ่งเน้นเพียงเล็กน้อยในแง่มุมหนึ่งของ เลือกด้านบน เมื่อคุณปรับพหุนามให้เหมาะสมกับข้อมูลคุณจะมีชุดตัวเลือกสำหรับการศึกษาระดับปริญญา หากเส้นโค้งสามองศาต่ำเกินไปและเส้นโค้งสี่องศานั้นพอดีคุณไม่ต้องไปอยู่ตรงกลาง การทำให้เป็นปกติจะช่วยแก้ปัญหานี้ได้เนื่องจากมันจะช่วยให้คุณสามารถเล่นกับพารามิเตอร์ที่ซับซ้อนได้อย่างต่อเนื่อง

คุณจะอ้างสิทธิ์ว่า "เราได้รับแบบที่ดีจริงๆ!" สำหรับฉันพวกเขาทั้งหมดมีลักษณะเหมือนกันคือสรุปไม่ได้ คุณใช้เหตุผลอะไรในการตัดสินใจว่าอะไรดีและไม่เหมาะสม?

จุดยุติธรรม

ข้อสันนิษฐานที่ฉันทำที่นี่คือแบบจำลองที่พอดีไม่ควรมีรูปแบบที่มองเห็นได้ในส่วนที่เหลือ ตอนนี้ฉันไม่ได้วางแผนส่วนที่เหลือดังนั้นคุณต้องทำงานนิดหน่อยเมื่อดูรูป แต่คุณควรจะสามารถใช้จินตนาการของคุณได้

ในภาพแรกด้วยเส้นโค้งกำลังสองพอดีกับข้อมูลฉันสามารถดูรูปแบบต่อไปนี้ในส่วนที่เหลือ

  • จาก 0.0 ถึง 0.3 พวกมันจะวางอย่างเท่าเทียมกันทั้งด้านบนและด้านล่างของโค้ง
  • จาก 0.3 ถึงประมาณ 0.55 ทั้งหมดจุดข้อมูลอยู่เหนือเส้นโค้ง
  • จาก 0.55 ถึงประมาณ 0.85 ทั้งหมดจุดข้อมูลอยู่ใต้เส้นโค้ง
  • จาก 0.85 ไปพวกเขาอยู่เหนือเส้นโค้งอีกครั้ง

ฉันอ้างถึงพฤติกรรมเหล่านี้ว่าเป็นอคติในท้องถิ่นมีพื้นที่ที่เส้นโค้งไม่ดีพอที่จะประมาณค่าเฉลี่ยตามเงื่อนไขของข้อมูล

เปรียบเทียบสิ่งนี้กับแบบเต็มกับลูกบาศก์เส้นโค้ง ฉันไม่สามารถเลือกภูมิภาคใด ๆ ด้วยตาที่ขนาดพอดีไม่เหมือนว่ากำลังวิ่งอย่างแม่นยำผ่านจุดศูนย์กลางมวลของจุดข้อมูล โดยทั่วไปนี่คือสิ่งที่ฉันหมายถึงว่าเหมาะสม


2

  • พฤติกรรมของพวกเขาที่ขอบเขตของข้อมูลของคุณอาจไม่เป็นระเบียบแม้แต่กับการทำให้เป็นปกติ
  • พวกเขาไม่ได้อยู่ในท้องถิ่นในแง่ใด การเปลี่ยนแปลงข้อมูลของคุณในที่เดียวอาจส่งผลกระทบอย่างมากต่อสถานที่ที่แตกต่างกันมาก

ในสถานการณ์เช่นที่คุณอธิบายให้ทำอีกครั้งโดยใช้ลูกบาศก์ธรรมชาติพร้อมกับการทำให้เป็นปกติซึ่งให้การประนีประนอมที่ดีที่สุดระหว่างความยืดหยุ่นและความมั่นคง คุณสามารถเห็นด้วยตัวคุณเองด้วยการปรับเส้นโค้งบางส่วนในแอพ

Spline ลูกบาศก์ธรรมชาติ

(*) ฉันเชื่อว่ามันใช้งานได้เฉพาะกับ Chrome และ Firefox เนื่องจากฉันใช้คุณสมบัติจาวาสคริปต์ที่ทันสมัยบางอย่าง (และความขี้เกียจโดยรวมเพื่อแก้ไขใน Safari และเช่น) ซอร์สโค้ดอยู่ที่นี่ถ้าคุณสนใจ


3
ขอบคุณและเครื่องมือเบราว์เซอร์ของคุณยอดเยี่ยม - ฉันชอบการสาธิตเชิงโต้ตอบเล็กน้อยเช่นนั้น!
Karnivaurus

@ Karnivaurus ขอบคุณฉันดีใจที่ฉันสามารถช่วย เครื่องมือนี้สนุกที่จะสร้างฉันชอบเขียนจาวาสคริปต์:)
Matthew Drury

3
6 เก่งมากที่เขียนเครื่องมือนี้! คุณจะได้รับรางวัลจากฉันเมื่อด้ายเก่าพอที่จะนำเงินรางวัลมาให้
อะมีบาพูดว่า Reinstate Monica

4
+1 นี่คือคำตอบที่ดีจริงๆ วิธีหนึ่งในการแสดงความไม่แน่นอนของพหุนามระดับสูงคือการวางแผนการถดถอยระดับสูงโดยลบจุดข้อมูลหนึ่งจุดสำหรับแต่ละจุดและเปรียบเทียบกับโซลูชัน RCS
Sycorax พูดว่า Reinstate Monica

1
@MatthewDrury "จำกัด ลูกบาศก์ splines" - ขอโทษด้วย
Sycorax พูดว่า Reinstate Monica

4

ไม่มันไม่เหมือนกัน ตัวอย่างเช่นการเปรียบเทียบพหุนามลำดับที่สองโดยไม่มีการทำให้เป็นมาตรฐานกับพหุนามลำดับที่สี่ด้วย หลังสามารถวางค่าสัมประสิทธิ์ขนาดใหญ่สำหรับพลังที่สามและสี่ตราบนี้ดูเหมือนว่าจะเพิ่มความแม่นยำในการทำนายตามขั้นตอนใดก็ตามที่ใช้ในการเลือกขนาดการลงโทษสำหรับขั้นตอนการทำให้เป็นมาตรฐาน (อาจเป็นการตรวจสอบข้าม) นี่แสดงให้เห็นว่าข้อดีอย่างหนึ่งของการทำให้เป็นปกติคือมันช่วยให้คุณปรับความซับซ้อนของโมเดลโดยอัตโนมัติเพื่อให้เกิดความสมดุลระหว่างการ overfitting และ underfitting


แต่ถ้าคุณเพิ่มการทำให้เป็นปกติในพหุนามลำดับที่สี่สิ่งนี้จะป้องกันมันโดยใช้การแสดงออกอย่างเต็มที่ ดังนั้นด้วยการทำให้เป็นปกติมากขึ้นความหมายจะลดลงจนถึงจุดที่มันแสดงออกได้เหมือนพหุนามลำดับที่สอง ไม่มี?
Karnivaurus

1
บางทีถ้าคุณกำหนดขนาดการลงโทษล่วงหน้า แต่ความรู้สึกนั้นเป็นอย่างไร ควรปรับขนาดการลงโทษตามข้อมูล
Kodiologist

4

สำหรับพหุนามมีการเปลี่ยนแปลงเพียงเล็กน้อยในค่าสัมประสิทธิ์สามารถสร้างความแตกต่างสำหรับเลขยกกำลังที่สูงขึ้น

L2 การทำให้เป็นมาตรฐาน (อย่างน้อยกำลังสอง) มักจะสนับสนุนค่าสัมประสิทธิ์ขนาดเล็กจำนวนมาก แต่ไม่มีค่าใดที่เป็น 0 และดังนั้น monomials คำสั่งที่สูงขึ้นสามารถสร้างความแตกต่างได้


2

ทุกคำตอบที่ดีและผมก็มีการจำลองคล้ายกับแมตต์เพื่อให้คุณเช่นการแสดงเหตุผลอีกรูปแบบที่ซับซ้อนด้วยกูมักจะดีกว่ารูปแบบง่ายๆ

ฉันได้ทำการเปรียบเทียบเพื่อให้ได้คำอธิบายที่เข้าใจง่าย

  • กรณีที่ 1 คุณมีนักเรียนมัธยมปลายที่มีความรู้ จำกัด (โมเดลที่เรียบง่ายโดยไม่มีการทำให้เป็นมาตรฐาน)
  • กรณีที่ 2 คุณมีนักศึกษาระดับบัณฑิตศึกษา แต่ จำกัด เขา / เธอให้ใช้ความรู้ระดับมัธยมปลายเพื่อแก้ปัญหาเท่านั้น (โมเดลที่ซับซ้อนพร้อมการกำหนดมาตรฐาน)

หากคนสองคนกำลังแก้ไขปัญหาเดียวกันโดยปกติแล้วนักศึกษาระดับบัณฑิตศึกษาจะทำงานได้ดีขึ้นเพราะประสบการณ์และความรู้เชิงลึกเกี่ยวกับความรู้

รูปที่ 1 แสดงส่วนควบของข้อมูล 4 ชุด 4 ฟิตติ้ง ได้แก่ เส้นพาราโบลารุ่นที่ 3 และรุ่นที่ 5 คุณสามารถสังเกตรูปแบบลำดับที่ 5 อาจมีปัญหามากเกินไป

ป้อนคำอธิบายรูปภาพที่นี่

ในอีกทางหนึ่งในการทดสอบที่สองเราจะใช้รูปแบบคำสั่งที่ 5 พร้อมระดับการทำให้เป็นมาตรฐานที่แตกต่างกัน เปรียบเทียบอันสุดท้ายกับรุ่นลำดับที่สอง (เน้นสองรุ่น) คุณจะพบว่ารุ่นสุดท้ายคล้ายกัน (โดยประมาณมีความซับซ้อนของรูปแบบเดียวกัน) กับพาราโบลา แต่มีความยืดหยุ่นมากขึ้นกับข้อมูลที่ดีขึ้นเล็กน้อย

ป้อนคำอธิบายรูปภาพที่นี่


1
"คร่าวๆมีความซับซ้อนของแบบจำลองเหมือนกัน" ... นั่นคือการเปรียบเทียบ "ชัดเจน" ด้วยสายตามีวิธีการทางคณิตศาสตร์ในการวัดหรือไม่?
Silverfish
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.