โมเดลที่ยืดหยุ่นและไม่ยืดหยุ่นในการเรียนรู้ของเครื่อง


10

ฉันเจอคำถามง่าย ๆ ในการเปรียบเทียบโมเดลที่ยืดหยุ่น (เช่น splines) กับโมเดลที่ไม่ยืดหยุ่น (เช่นการถดถอยเชิงเส้น) ภายใต้สถานการณ์ที่แตกต่างกัน คำถามคือ:

โดยทั่วไปเราคาดหวังว่าประสิทธิภาพของวิธีการเรียนรู้ทางสถิติที่ยืดหยุ่นจะทำงานได้ดีขึ้นหรือแย่ลงกว่าวิธีที่ไม่ยืดหยุ่นเมื่อ:

  1. จำนวนตัวทำนายพีมีขนาดใหญ่มากและจำนวนการสังเกตnนั้นน้อยมาก
  2. ความแปรปรวนของข้อกำหนดข้อผิดพลาดคือมีค่าสูงมาก?σ2=var(อี)

ฉันคิดว่าสำหรับ (1) เมื่อมีขนาดเล็กโมเดลที่ยืดหยุ่นได้ดีกว่า (ไม่แน่ใจ) สำหรับ (2) ฉันไม่รู้ว่ารุ่นไหนดีกว่ากันn


ข้อผิดพลาดทั่วไปอยู่ไกลจากเรื่องเล็กน้อย น่าเสียดายกฎของหัวแม่มือไม่ได้ช่วยอะไรมากในเรื่องนี้
Marc Claesen

8
ดูเหมือนว่ามาจาก James, Witten, Hastie, Tibshirani's บทนำสู่การเรียนรู้เชิงสถิติ
Noel Evans

1. วิธีการที่ยืดหยุ่นจะเหมาะสมกับการสังเกตการณ์เพียงเล็กน้อย 2. วิธีการที่ยืดหยุ่นเหมาะสมกับเสียงในเงื่อนไขข้อผิดพลาดและเพิ่มความแปรปรวน
Zanark

คำตอบ:


3

ในสถานการณ์ทั้งสองนี้ประสิทธิภาพการเปรียบเทียบความยืดหยุ่นและตัวแบบยืดหยุ่นนั้นยังขึ้นอยู่กับ:

  • เป็นความสัมพันธ์ที่แท้จริง y = f (x) ใกล้กับเชิงเส้นหรือไม่เชิงเส้นมาก
  • คุณปรับแต่ง / จำกัด ระดับความยืดหยุ่นของรุ่น "ยืดหยุ่น" เมื่อทำการติดตั้ง

หากความสัมพันธ์ใกล้เคียงกับเส้นตรงและคุณไม่จำกัดความยืดหยุ่นโมเดลเชิงเส้นควรให้ข้อผิดพลาดในการทดสอบที่ดีขึ้นในทั้งสองกรณี

คุณสามารถดูได้ว่า:

  • ในทั้งสองกรณีข้อมูลมีข้อมูลไม่เพียงพอเกี่ยวกับความสัมพันธ์ที่แท้จริง (ในกรณีแรกความสัมพันธ์คือมิติสูงและคุณมีข้อมูลไม่เพียงพอในกรณีที่สองมันเสียหายด้วยเสียง) แต่
    • โมเดลเชิงเส้นนำข้อมูลก่อนหน้าภายนอกบางอย่างเกี่ยวกับความสัมพันธ์ที่แท้จริง
    • ข้อมูลก่อนหน้านั้นกลายเป็นจริง (ความสัมพันธ์ที่แท้จริงใกล้เคียงกับเชิงเส้น)
  • ในขณะที่รุ่นที่ยืดหยุ่นนั้นไม่มีข้อมูลก่อนหน้า (สามารถใส่ได้ทุกอย่าง) ดังนั้นจึงเหมาะกับเสียงรบกวน

ถ้าอย่างไรก็ตามความสัมพันธ์ที่แท้จริงนั้นไม่ใช่เชิงเส้นก็ยากที่จะบอกว่าใครจะเป็นผู้ชนะ (ทั้งคู่จะหลวม :))

หากคุณปรับแต่ง / จำกัด ระดับความยืดหยุ่นและทำอย่างถูกต้อง (พูดโดยการตรวจสอบความถูกต้องข้าม) โมเดลที่ยืดหยุ่นจะชนะในทุกกรณี


4

แน่นอนว่ามันขึ้นอยู่กับข้อมูลพื้นฐานที่คุณควรสำรวจเพื่อหาลักษณะของมันก่อนที่จะลองทำแบบจำลอง แต่สิ่งที่ฉันได้เรียนรู้จากกฎทั่วไปของหัวแม่มือคือ

  • โมเดลที่ยืดหยุ่นช่วยให้คุณใช้ประโยชน์จากตัวอย่างขนาดใหญ่ได้อย่างเต็มที่ (ขนาดใหญ่ n)
  • โมเดลที่ยืดหยุ่นจะจำเป็นต่อการค้นหาเอฟเฟกต์แบบไม่เชิงเส้น
  • โมเดลที่ยืดหยุ่นจะทำให้คุณพอดีกับเสียงรบกวนมากเกินไปในปัญหา (เมื่อความแปรปรวนของเงื่อนไขข้อผิดพลาดสูง)

1

สำหรับส่วนที่สองฉันคิดว่าแบบจำลองที่มีความยืดหยุ่นมากขึ้นจะพยายามให้พอดีกับแบบจำลองอย่างหนักและข้อมูลการฝึกอบรมมีสัญญาณรบกวนสูงดังนั้นแบบจำลองที่มีความยืดหยุ่นจะพยายามเรียนรู้เสียงดังกล่าวและจะส่งผลให้เกิดข้อผิดพลาดในการทดสอบมากขึ้น ฉันรู้ที่มาของคำถามนี้ขณะที่ฉันอ่านหนังสือเล่มเดียวกันด้วย :)


1

สำหรับส่วนแรกฉันคาดว่าโมเดลที่ยืดหยุ่นนั้นจะทำงานได้ดีขึ้นด้วยจำนวนการสังเกตที่ จำกัด เมื่อ n มีขนาดเล็กมากทั้งสองรุ่น (ไม่ว่าจะยืดหยุ่นหรือไม่ยืดหยุ่น) ก็ไม่สามารถทำนายได้ดีพอ อย่างไรก็ตามรูปแบบที่ยืดหยุ่นนั้นมีแนวโน้มที่จะทำให้ข้อมูลมีขนาดใหญ่เกินไปและจะทำงานได้ไม่ดีเมื่อเทียบกับชุดทดสอบใหม่

เป็นการดีที่ฉันจะรวบรวมข้อสังเกตเพิ่มเติมเพื่อปรับปรุงการกระชับ แต่ถ้าไม่เป็นเช่นนั้นฉันจะใช้โมเดลที่ไม่ยืดหยุ่นพยายามลดข้อผิดพลาดในการทดสอบด้วยชุดทดสอบใหม่



0

สำหรับแต่ละส่วน (a) ถึง (d) ให้ระบุว่า i หรือ ii. ถูกต้องและอธิบายคำตอบของคุณ โดยทั่วไปเราคาดหวังว่าประสิทธิภาพของวิธีการเรียนรู้ทางสถิติที่ยืดหยุ่นจะทำงานได้ดีขึ้นหรือแย่ลงกว่าวิธีที่ไม่ยืดหยุ่นเมื่อ:

ขนาดตัวอย่าง n มีขนาดใหญ่มากและจำนวนตัวทำนาย p มีขนาดเล็ก?

ดีกว่า วิธีการที่ยืดหยุ่นจะพอดีกับข้อมูลที่ใกล้กว่าและด้วยขนาดตัวอย่างที่มีขนาดใหญ่จะทำงานได้ดีกว่าวิธีที่ไม่ยืดหยุ่น

จำนวนตัวทำนาย p มีขนาดใหญ่มากและจำนวนการสังเกตการณ์ n นั้นน้อยมาก

แย่ลง วิธีการที่ยืดหยุ่นนั้นเหมาะสมกับการสังเกตการณ์เพียงเล็กน้อย

ความสัมพันธ์ระหว่างตัวทำนายและการตอบสนองนั้นไม่เป็นเชิงเส้นสูง

ดีกว่า ด้วยองศาอิสระมากขึ้นวิธีการที่ยืดหยุ่นจะเหมาะสมกว่าวิธีที่ยืดหยุ่นได้

ความแปรปรวนของข้อผิดพลาดคือσ2 = Var (ε) มีค่าสูงมาก?

แย่ลง วิธีการที่ยืดหยุ่นจะเหมาะสมกับเสียงในเงื่อนไขข้อผิดพลาดและเพิ่มความแปรปรวน

ที่นำมาจากที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.