ทำไมกำลังพลเกินกำลังไม่ดี?


27

ฉันได้ศึกษาล็อตนี้แล้วพวกเขาบอกว่าการกระทำที่เกินจริงในการเรียนรู้ด้วยเครื่องจักรนั้นไม่ดี แต่เซลล์ประสาทของเราแข็งแกร่งมากและค้นหาการกระทำ / ความรู้สึกที่ดีที่สุดที่เราไปหรือหลีกเลี่ยง / ดีโดยตัวกระตุ้นที่ไม่ดีหรือดีหมายถึงการกระทำจะมีระดับและจบลงด้วยการกระทำที่ดีที่สุด (ขวา) ความมั่นใจที่แข็งแกร่งเป็นพิเศษ มันล้มเหลวอย่างไร มันใช้ทริกเกอร์ที่เป็นบวกและลบเพื่อยกเลิกการเพิ่มการกระทำที่พูดจาก 44pos ถึง 22neg


4
คำถามนี้กว้างกว่าเพียงแค่การเรียนรู้ของเครื่องเครือข่ายประสาทเทียม ฯลฯ มันใช้กับตัวอย่างที่ง่ายพอ ๆ กับการใส่พหุนาม
gerrit


7
@ FriendlyPerson44 หลังจากอ่านคำถามของคุณอีกครั้งฉันคิดว่ามีการตัดการเชื่อมต่อที่สำคัญระหว่างชื่อของคุณกับคำถามจริงของคุณ คุณดูเหมือนจะถามเกี่ยวกับข้อบกพร่องใน AI ของคุณ ( ซึ่งอธิบายอย่างคลุมเครือเท่านั้น ) - ในขณะที่ผู้คนกำลังตอบว่า " ทำไม overfitting เลว "
DoubleDouble

3
@DoubleDouble ฉันเห็นด้วย นอกจากนี้การเชื่อมต่อระหว่างการเรียนรู้ของเครื่องและเซลล์ประสาทนั้นน่าสงสัย การเรียนรู้ของเครื่องไม่เกี่ยวข้องกับ 'การแสดงสมองเหมือน', การจำลองเซลล์ประสาทหรือการจำลองความฉลาด ดูเหมือนว่ามีคำตอบต่าง ๆ มากมายที่อาจช่วย OP ในจุดนี้
Shaz

2
คุณควรแปลงคำถามและชื่อของคุณให้แหลม อาจเป็นไปได้ว่า: "ทำไมเราต้องป้องกันสมองเสมือนจากการให้น้ำหนักเกินในขณะที่สมองของมนุษย์ทำงานได้อย่างยอดเยี่ยม
Falco

คำตอบ:


44

คำอธิบายที่ดีที่สุดที่ฉันเคยได้ยินคือ:

เมื่อคุณทำการเรียนรู้ของเครื่องคุณคิดว่าคุณกำลังพยายามเรียนรู้จากข้อมูลที่ตามหลังการแจกแจงความน่าจะเป็น

ซึ่งหมายความว่าในชุดข้อมูลใด ๆ เนื่องจากการสุ่มจะมีสัญญาณรบกวน : ข้อมูลจะแตกต่างกันแบบสุ่ม

เมื่อคุณมีน้ำหนักเกินคุณจะได้เรียนรู้จากเสียงรบกวนและรวมไว้ในแบบจำลองของคุณ

จากนั้นเมื่อเวลามาถึงการคาดการณ์จากข้อมูลอื่นความแม่นยำของคุณจะลดลง: เสียงดังเข้ามาในแบบจำลองของคุณ แต่มันเป็นข้อมูลเฉพาะของข้อมูลการฝึกอบรมของคุณ แบบจำลองของคุณไม่พูดคุย: มันเจาะจงเกินไปกับชุดข้อมูลที่คุณเลือกให้ฝึกฝน


1
"การเรียนรู้จากเสียงรบกวน" ฟังดูคลุมเครือสำหรับฉัน เกิดอะไรขึ้นกันแน่? คุณยกตัวอย่างได้ไหม
กราฟิลส์

แม้ว่าข้อมูลของคุณจะสะอาดและหมดค่าใช้จ่าย (ทั้งค่าผิดธรรมชาติและไม่ใช่ค่าผิดธรรมชาติ) ยังคงเป็น "การ overfitting" เป็นวิธีปฏิบัติที่ไม่ดีและควรถูกลบออกจากแบบจำลองของคุณ เมื่อแบบจำลองของคุณ "overfitted" นั่นหมายความว่าแบบจำลองของคุณไม่ได้สรุปความรู้ที่ซ่อนอยู่ในข้อมูลและไม่สามารถทำนายจุดข้อมูลอื่น ๆ ได้ เมื่อคุณพอดีโมเดลของคุณคุณจะพอดีกับชุดข้อมูลรถไฟ / การทดสอบของคุณเท่านั้น
Aboelnour

2
@Raphael ระบบจะเริ่มเห็นเสียงในชุดการฝึกอบรมเป็นคุณสมบัติ หากคุณเรียกใช้เน็ตกับข้อมูลจริงที่เสียงรบกวนนั้นหายไปคุณก็จะมีโอกาสน้อยลงเนื่องจากมีคุณสมบัติ (= เสียงที่รวมอยู่) หายไป
drake7707

2
@ ราฟาเอลตัวอย่างเช่น: ฉันมีคอลเลกชันของภาพจากกล้องจราจร ลองฝึกอวนที่ตรวจจับว่ามีรถยนต์อยู่หรือไม่ หลังจากฝึกเสร็จฉันมีชุดให้กับรถยนต์และไม่มีรถยนต์เยี่ยมเลย! ลองใช้เครือข่ายกับชุดใหม่เพื่อตรวจสอบว่าถนนว่างเปล่าโดยไม่มีคนและเหรอทำไมมันตรวจไม่พบถนนว่างเปล่าของฉันที่มีความน่าจะเป็นสูง มองย้อนกลับไปในชุดตัวอย่างและฉันสังเกตเห็นว่าในภาพทุกภาพมีคนอยู่ด้านหลังของภาพเมื่อไม่มีรถยนต์ เนื่องจาก overfitting สุทธิมันวางเน้นคนอยู่
drake7707

1
พิจารณาระบบที่มีเสียงรบกวนเพิ่มโดยการโยนเหรียญ บนหัวคุณเพิ่ม 1 ให้กับค่าและที่หางคุณเพิ่ม 0 เพื่อให้ได้ผลลัพธ์ที่ชัดเจนเราจะเลือกชุดข้อมูลขนาดเล็กที่ไร้สาระสองจุด: (2, 5) และ (2.1, 8) การพลิกเหรียญจะมุ่งหน้าไปที่จุดแรก, ก้อยที่สอง, นำเสียง, สร้างชุดข้อมูล (3, 5), (2.1, 8) ตอนนี้โครงข่ายประสาทกำลังเรียนรู้จากชุดข้อมูลที่ดูเหมือนว่ามีความสัมพันธ์อย่างมีนัยสำคัญระหว่างค่า x และ y แม้ว่าเกือบทั้งหมดเป็นเสียง ถ้าคุณส่งข้อมูลจริงออกมามันจะสร้างผลลัพธ์ที่ผิดจำนวนมาก
Cort Ammon - Reinstate Monica

39

เวอร์ชั่นของ ELI5

นี่เป็นวิธีที่ฉันอธิบายให้ฉันอายุ 6 ปี

เมื่อมีผู้หญิงคนหนึ่งชื่อเมล ( "รับเลย ML?" "พ่อคุณเป็นคนง่อย" ) และทุกวันเมลเล่นกับเพื่อนที่แตกต่างกันและทุกวันที่เธอเล่นมันเป็นวันที่สดใสและยอดเยี่ยม

เมลเล่นกับจอร์แดนในวันจันทร์, ลิลลี่ในวันอังคาร, มีมี่ในวันพุธ, มะกอกในวันพฤหัสบดี .. จากนั้นในวันศุกร์เมลเล่นกับไบรอันน่าและฝนก็ตก มันเป็นพายุฝนฟ้าคะนอง

วันเพิ่มเติมเพื่อนเพิ่มเติม! เมลเล่นกับขวัญในวันเสาร์เกรย์สันในวันอาทิตย์, เอเอสเอในวันจันทร์ ... จากนั้นในวันอังคารเมลเล่นกับบรู๊คและฝนก็ตกอีกครั้งยิ่งแย่กว่าเดิม!

ตอนนี้แม่ของ Mel สร้าง playdates ทั้งหมดดังนั้นในคืนนั้นเธอก็เริ่มเล่า Mel เกี่ยวกับ playdates ใหม่ที่เธอเรียงกัน "Luis ในวันพุธ, Ryan ในวันพฤหัสบดี, Jemini ในวันศุกร์, Bianca ในวันเสาร์ -"

เมลขมวดคิ้ว

แม่ของเมลถามว่า "มีอะไรเหรอเมลคุณไม่ชอบบิอันกาเหรอ?"

เมลตอบว่า "อ๋อแน่ใจเธอเก่ง แต่ทุกครั้งที่ฉันเล่นกับเพื่อนที่ชื่อขึ้นต้นด้วย B ฝนจะตก!"


เกิดอะไรขึ้นกับคำตอบของเมล

ฝนอาจตกไม่ไหวในวันเสาร์

ฉันไม่รู้ฉันหมายถึงไบรอันน่ามาแล้วฝนก็ตกบรู๊คก็มาและฝนก็ตก ...

ใช่ฉันรู้แต่ฝนไม่ได้ขึ้นอยู่กับเพื่อนของคุณ


10
และสำหรับคำถามอื่น ๆ นี่คือความหมายของ "การเรียนรู้จากเสียง"
Kyle Hale

ความคิดเห็นที่ฝนตก - แต่เราทำอย่างนั้นจากนั้นเราก็ทำงานต่อไปและเรียนรู้เพิ่มเติมในภายหลัง
บุคคลที่เป็นมิตร 44

13
@ FriendlyPerson44 คุณถูกต้องผู้คนทำผิดพลาดและทำสิ่งที่ไม่ดีเช่นสมควร คำถามของคุณถามว่าเพราะเหตุใดการบรรจุเกินจึงไม่ดีไม่ว่าคนจะทำหรือไม่
Kyle Hale

1
ปัญหานี้ไม่เพียง แต่นำไปใช้กับหุ่นยนต์เรียนรู้ไม่ดี แต่ยังเรียนรู้คนไม่ดี
Tomáš Zato - Reinstate Monica

ฉันไม่ค่อยตาม: ฝนไม่ควรเป็นตัวแปรทำนายในตอนแรกสิ่งที่เกี่ยวข้องกับ overfitting?
mucaho

14

NN


แต่การกระทำที่เกินความจริงของมันจะเชื่อมโยงกับประสาทสัมผัสเฉพาะและเฉพาะเมื่อมันเห็นความรู้สึกเดียวกันอีกครั้งมันจับคู่กับหน่วยความจำและลิงก์ไปยังการกระทำเหล่านี้มันจะไม่ทำเมื่อรู้สึกเห็นสิ่งอื่น การสรุปเป็นสองสิ่ง - รูปต้นไม้เหล่านี้ทั้งหมดเป็นต้นไม้และใช้ความรู้จากอดีตเพื่อหาสิ่งใหม่นี้ สำหรับ AI ของฉันในการแก้ปัญหานี้จะเห็นต้นไม้และได้ยิน "ต้นไม้" และที่ตรงกับหน่วยความจำและนำมาไว้ข้างหน้าจากนั้นจะเห็นต้นไม้ใหม่และชื่อของพวกเขาและพวกเขาทั้งหมดเชื่อมโยงกับความรู้สึกในหน่วยความจำล่าสุด เสียง. การหาสิ่งเล็ก ๆ น้อย ๆ ที่เกี่ยวข้องกันใหม่โดย knwldge เป็นกิจกรรมใหม่
บุคคลที่เป็นมิตร 44

2
@ FriendlyPerson44 ในการเรียนรู้ของเครื่องจักรภายใต้การดูแลผลของการฝึกอบรมไม่ควรเปลี่ยนแปลงอีกต่อไป นี่คือที่มาของ "overfitting" มันจะเหมือนกับว่าเครื่องได้เรียนรู้ที่จะรู้จักต้นไม้ - อันดับแรกด้วยสีจากนั้นรูปร่างทั่วไปจากนั้นรูปร่างเฉพาะ ( ที่ควรหยุด ) แต่จากนั้นจะเริ่มแยกแยะต้นไม้ด้วยรูปแบบสุ่มเพิ่มเติมที่พบเฉพาะในคุณ ชุดฝึกอบรม เมื่อคุณปล่อยให้มันเห็นภาพสุ่มของต้นไม้ใหม่มันจะตัดสินว่ามันไม่ใช่ต้นไม้ ณ จุดนี้กรณีที่เลวร้ายที่สุดคือมันใช้งานอยู่และไม่มีใครดูแลมัน!
DoubleDouble

แต่ฉันรู้จักต้นไม้โดยบันทึกภาพต้นไม้และเสียง "ต้นไม้" และเชื่อมโยงความรู้สึกทั้งสองเข้าด้วยกันและเมื่อต้นไม้ถูกกล่าวว่าตรงกับสิ่งที่อยู่ในหน่วยความจำและนำการแข่งขันและนำการแข่งขันและสิ่งที่เชื่อมโยงไปยังด้านหน้าของหน่วยความจำ ต้นไม้และเรียกชื่อใหม่ว่าภาพและเสียงเหล่านี้เหมือนกับภาพที่เรียนรู้ครั้งแรก ต้นไม้ไม่ใช่สิ่งกระตุ้นแม้ว่าอาหารและอื่น ๆ จะไม่บันทึกการกระทำเมื่อเห็นสีหรือลวดลาย ฉันเรียนรู้การกระทำจริงๆ
บุคคลที่เป็นมิตร 44

1
@ FriendlyPerson44 สิ่งใดที่เกี่ยวข้องกับสาเหตุที่มีการให้ข้อมูลส่วนเกินเสีย?
DoubleDouble

9

การพูดอย่างคร่าว ๆ มักจะเกิดข้อผิดพลาดมากเกินไปเมื่ออัตราส่วน

ป้อนคำอธิบายรูปภาพที่นี่

สูงเกินไป

ให้คิดว่าการปรับตัวให้เข้ากับสถานการณ์เป็นสิ่งที่แบบจำลองของคุณเรียนรู้ข้อมูลการฝึกอบรมด้วยหัวใจแทนที่จะเรียนรู้ภาพใหญ่ซึ่งทำให้ไม่สามารถสรุปข้อมูลการทดสอบได้: สิ่งนี้เกิดขึ้นเมื่อแบบจำลองนั้นซับซ้อนเกินไปเมื่อเทียบกับขนาดของ ข้อมูลการฝึกอบรมที่จะกล่าวเมื่อขนาดของข้อมูลการฝึกอบรมมีขนาดเล็กเมื่อเทียบกับความซับซ้อนของแบบจำลอง

ตัวอย่าง:

  • หากข้อมูลของคุณอยู่ในสองมิติคุณมี 10,000 คะแนนในชุดการฝึกอบรมและโมเดลเป็นเส้นคุณมีแนวโน้มที่จะอยู่ภายใต้ - พอดี
  • หากข้อมูลของคุณอยู่ในสองมิติคุณมี 10 คะแนนในชุดการฝึกอบรมและแบบจำลองนั้นมีพหุนาม 100 องศาคุณน่าจะมีค่ามากกว่า - พอดี

ป้อนคำอธิบายรูปภาพที่นี่

จากมุมมองทางทฤษฎีจำนวนข้อมูลที่คุณต้องการในการฝึกอบรมแบบจำลองของคุณอย่างถูกต้องเป็นคำถามที่สำคัญยิ่งที่จะตอบในการเรียนรู้ของเครื่อง หนึ่งในวิธีการดังกล่าวจะตอบคำถามนี้เป็นมิติ VC อีกประการหนึ่งคือการถ่วงดุลอำนาจอคติแปรปรวน

จากมุมมองเชิงประจักษ์โดยทั่วไปแล้วผู้คนจะพล็อตข้อผิดพลาดในการฝึกอบรมและข้อผิดพลาดในการทดสอบบนพล็อตเดียวกันและตรวจสอบให้แน่ใจว่าพวกเขาไม่ลดข้อผิดพลาดในการฝึกอบรม

ป้อนคำอธิบายรูปภาพที่นี่

ฉันแนะนำให้ดูหลักสูตรการเรียนรู้ของเครื่อง Coursera ในหัวข้อ "10: คำแนะนำในการใช้การเรียนรู้ของเครื่อง"


1
ฉันชอบบรรทัด "การเรียนรู้ด้วยหัวใจ" เพราะมนุษย์มีความสามารถ (และทำ) ทำสิ่งนี้ในระดับหนึ่ง ลองนึกภาพทำแบบทดสอบที่ยากมากซึ่งคำถามและคำตอบไม่เคยเปลี่ยน แต่คุณจะได้รับคำตอบเมื่อคุณได้รับพวกเขาไม่ถูกต้อง สมมติว่าสมการ (2 +2) นั้นยากคุณจำสมการและพูดว่า '4' - แต่แล้ว (2 + 3) เข้ามา แต่คุณไม่ได้เรียนรู้ที่จะเพิ่มคุณเพิ่งเรียนรู้ที่จะพูดว่า '4' เมื่อคุณมี '2 + 2'
DoubleDouble

คำอธิบายที่ดี
Nikos M.

4

ฉันคิดว่าเราควรพิจารณาสองสถานการณ์:

การฝึกอบรมที่ จำกัด

มีข้อมูลจำนวน จำกัด ที่เราใช้ในการฝึกอบรมโมเดลของเรา หลังจากนั้นเราต้องการใช้โมเดล

ในกรณีนี้ถ้าคุณใช้มากเกินไปคุณจะไม่สร้างแบบจำลองของปรากฏการณ์ที่ให้ข้อมูล แต่คุณจะสร้างแบบจำลองของชุดข้อมูลของคุณ หากชุดข้อมูลของคุณไม่สมบูรณ์ - ฉันมีปัญหาในการจินตนาการชุดข้อมูลที่สมบูรณ์แบบ - โมเดลของคุณจะทำงานได้ไม่ดีในหลาย ๆ สถานการณ์ขึ้นอยู่กับคุณภาพของข้อมูลที่คุณใช้ในการฝึกอบรม ดังนั้นการ overfitting จะนำไปสู่ความเชี่ยวชาญในชุดข้อมูลของคุณเมื่อคุณต้องการให้ลักษณะทั่วไปเพื่อสร้างแบบจำลองปรากฏการณ์พื้นฐาน

การเรียนรู้อย่างต่อเนื่อง

แบบจำลองของเราจะได้รับข้อมูลใหม่ตลอดเวลาและเรียนรู้อย่างต่อเนื่อง อาจมีช่วงเวลาเริ่มต้นของความยืดหยุ่นที่เพิ่มขึ้นเพื่อรับจุดเริ่มต้นที่ยอมรับได้

กรณีที่สองนี้คล้ายกับวิธีการฝึกสมองของมนุษย์ เมื่อมนุษย์เป็นตัวอย่างใหม่เล็กมากในสิ่งที่คุณต้องการเรียนรู้มีอิทธิพลเด่นชัดกว่าเมื่อคุณโตขึ้น

ในกรณีนี้การ overfitting ให้ปัญหาแตกต่างกันเล็กน้อย แต่ที่คล้ายกัน: ระบบที่อยู่ภายใต้กรณีนี้มักจะเป็นระบบที่คาดว่าจะทำหน้าที่ในขณะที่การเรียนรู้ พิจารณาว่ามนุษย์ไม่ได้นั่งอยู่ที่ไหนสักแห่งในขณะที่มีการนำเสนอข้อมูลใหม่เพื่อเรียนรู้จากมัน มนุษย์มีปฏิสัมพันธ์และมีชีวิตรอดในโลกตลอดเวลา

คุณอาจโต้แย้งว่าเนื่องจากข้อมูลยังคงมีอยู่ผลลัพธ์ที่ได้ก็จะออกมาดี แต่ในเวลานี้จะครอบคลุมสิ่งที่จำเป็นต้องเรียนรู้! การ Overfitting จะให้เอฟเฟกต์ช่วงเวลาสั้น ๆ เช่นเดียวกับในกรณีที่ 1 ทำให้ประสิทธิภาพของโมเดลแย่ลง แต่คุณขึ้นอยู่กับประสิทธิภาพของแบบจำลองของคุณในการใช้งาน!

ดูที่วิธีนี้ถ้าคุณถ่อมตัวคุณอาจจำนักล่าที่พยายามจะกินคุณในอนาคตหลังจากมีตัวอย่างอีกมากมาย แต่เมื่อนักล่ากินคุณนั่นก็เป็นที่สงสัย


คำตอบที่ดีสำหรับคำถามที่ op หมายถึง: "ทำไมเราต้องป้องกันการ overfitting ในสมองเสมือนเมื่อสมองของเราทำงานได้ดีโดยไม่มีการชดเชย overfitting - ชดเชย" - เพราะเครื่องได้รับการฝึกฝนในขณะที่มนุษย์เรียนรู้ด้วยตนเอง
Falco

3

สมมติว่าคุณต้องการสอนคอมพิวเตอร์เพื่อพิจารณาระหว่างผลิตภัณฑ์ที่ดีและไม่ดีและให้ชุดข้อมูลต่อไปนี้เพื่อเรียนรู้: ไดอะแกรมพร้อมชุดข้อมูล  0 ถึง 50 คือ 0. 52 และ 74 คือ 0 ค่าที่เหลืออยู่จาก 51 ถึง 100 คือ 1

0 หมายถึงผลิตภัณฑ์มีข้อบกพร่อง 1 หมายความว่าตกลง อย่างที่คุณเห็นมีความสัมพันธ์ที่รุนแรงระหว่างแกน X และ Y หากค่าที่วัดได้ต่ำกว่าหรือเท่ากับ 50 อาจเป็นไปได้มาก (~ 98%) ว่าผลิตภัณฑ์มีข้อบกพร่อง 52 และ 74 เป็นค่าผิดปกติ (ไม่ว่าจะวัดผิดหรือไม่ได้วัดปัจจัยที่มีบทบาท ค่าที่วัดได้อาจเป็นความหนาอุณหภูมิความแข็งหรืออย่างอื่นและเป็นหน่วยที่ไม่สำคัญในตัวอย่างนี้ดังนั้นอัลกอริทึมทั่วไปจะเป็น

if(I<=50)
    return faulty;
else
    return OK;

มันจะมีโอกาส 2% ของการจำแนกประเภท

อัลกอริทึม overfitting จะเป็น:

if(I<50)
    return faulty;
else if(I==52)
    return faulty;
else if(I==74)
    return faulty;
else
    return OK;

ดังนั้นอัลกอริทึม overfitting จะแยกประเภทผลิตภัณฑ์ทั้งหมดที่วัด 52 หรือ 74 เป็นความผิดพลาดแม้ว่าจะมีโอกาสสูงที่พวกเขาจะตกลงเมื่อได้รับชุดข้อมูลใหม่ / ใช้ในการผลิต มันจะมีโอกาสของการจำแนกประเภทอีก 3,92% สำหรับผู้สังเกตการณ์ภายนอกการจำแนกประเภทนี้จะแปลก แต่อธิบายได้ว่าการรู้ชุดข้อมูลดั้งเดิมซึ่งมีการติดตั้งมากเกินไป

สำหรับชุดข้อมูลดั้งเดิมอัลกอริทึมที่ติดตั้งมากที่สุดนั้นดีที่สุดสำหรับชุดข้อมูลใหม่อัลกอริทึมทั่วไป (ไม่ติดตั้ง) มีแนวโน้มที่ดีที่สุด ประโยคสุดท้ายอธิบายความหมายพื้นฐานของการ overfitting พื้นฐาน


2

ในหลักสูตร AI ของวิทยาลัยผู้สอนของเราให้ตัวอย่างในหลอดเลือดดำคล้ายกับของ Kyle Hale:

มีหญิงสาวคนหนึ่งและแม่ของเธอออกไปเดินเล่นในป่าด้วยกันเมื่อเสือตัวหนึ่งกระโจนออกมาจากแปรงและกลืนแม่ของเธอ วันรุ่งขึ้นเธอกำลังเดินผ่านป่ากับพ่อของเธอและเสือก็กระโดดออกจากแปรงอีกครั้ง พ่อของเธอตะโกนใส่เธอเพื่อเรียกใช้ แต่เธอตอบว่า "โอ้พ่อก็โอเคเสือกินแม่เท่านั้น"

แต่ในทางกลับกัน:

มีหญิงสาวคนหนึ่งและแม่ของเธอออกไปเดินเล่นในป่าด้วยกันเมื่อเสือตัวหนึ่งกระโจนออกมาจากแปรงและกลืนแม่ของเธอ วันรุ่งขึ้นพ่อของเธอพบว่าเธอมีความสามารถในห้องและถามเธอว่าทำไมเธอถึงไม่เล่นกับเพื่อน เธอตอบว่า "ไม่! ถ้าฉันออกไปข้างนอกเสือจะกินฉันอย่างแน่นอน!"

ทั้งการบรรจุเกินและการบรรจุไม่เพียงพออาจไม่ดี แต่ฉันจะบอกว่ามันขึ้นอยู่กับบริบทของปัญหาที่คุณกำลังพยายามที่จะแก้



2

สิ่งที่ฉันได้พบจริงคืออะไรเช่นนี้ ก่อนอื่นฉันวัดสิ่งที่ฉันคาดหวังว่าอัตราส่วนอินพุตต่อเอาต์พุตจะเป็นเชิงเส้นคร่าวๆ นี่คือข้อมูลดิบของฉัน:

Input   Expected Result
1.045   0.268333453
2.095   0.435332226
3.14    0.671001483
4.19    0.870664399
5.235   1.073669373
6.285   1.305996464
7.33    1.476337174
8.38    1.741328368
9.425   1.879004941
10.47   2.040661489

และนี่คือกราฟ:

ป้อนคำอธิบายรูปภาพที่นี่

ดูเหมือนจะพอดีกับความคาดหวังของข้อมูลเชิงเส้นของฉัน ควรตรงไปตรงมาสวยมากเพื่ออนุมานสมการใช่ไหม ดังนั้นคุณปล่อยให้โปรแกรมของคุณวิเคราะห์ข้อมูลนี้สักหน่อยและในที่สุดก็รายงานว่าพบสมการที่กระทบกับจุดข้อมูลทั้งหมดด้วยความแม่นยำ 99.99%! ! น่ากลัว และสมการนั้นคือ ... 9sin (x) + x / 5 ซึ่งมีลักษณะเช่นนี้: ป้อนคำอธิบายรูปภาพที่นี่

สมการนั้นทำนายข้อมูลเข้าด้วยความแม่นยำเกือบสมบูรณ์แบบ แต่เนื่องจากมันใส่ข้อมูลของข้อมูลเข้าไว้อย่างมากมันจึงไม่มีประโยชน์อะไรที่จะทำสิ่งอื่น


ฉันคิดว่าการ overfitting นั้นเป็นอีกคำถามหนึ่งที่คุณทำไม่ถูกต้องเมื่อคุณมีข้อมูลอินพุต ที่นี่ไม่มีอะไรที่คุณสามารถทำได้ อินพุตไม่เพียงพอเนื่องจากไม่มีการสุ่มตัวอย่าง
Emre

1
@Emre: ฉันไม่ได้ตั้งใจที่จะทำการสุ่มตัวอย่างฉันตั้งใจให้อินพุต / เอาต์พุตเป็นแบบเส้นตรง แต่การปรับให้แน่นเกินไปนั้นสร้างสมการที่ไม่ใช่เชิงเส้นอย่างชัดเจน ฉันจะแก้ไขเพื่อชี้แจง
Mooing Duck

1

ลองดูที่บทความนี้มันอธิบาย overfitting และ underfitting ค่อนข้างดี

http://scikit-learn.org/stable/auto_examples/model_selection/plot_underfitting_overfitting.html

บทความตรวจสอบตัวอย่างของข้อมูลสัญญาณจากฟังก์ชันโคไซน์ แบบจำลองการ overfitting ทำนายสัญญาณว่าจะมีฟังก์ชั่นที่ซับซ้อนขึ้นเล็กน้อย (นั่นก็คือฟังก์ชั่นโคไซน์เช่นกัน) อย่างไรก็ตามโมเดลที่ overfitted สรุปนี้ไม่ได้ขึ้นอยู่กับการวางนัยทั่วไป แต่ในการท่องจำสัญญาณรบกวนในข้อมูลสัญญาณ


4
หากลิงก์นั้นหยุดคำตอบของคุณจะไร้ค่า โปรดให้ข้อมูลสรุปอย่างน้อย (พร้อมกับการระบุแหล่งที่มาของหลักสูตร) ​​เพื่อให้คำตอบมีค่าโดยไม่ขึ้นกับลิงก์นั้น
กราฟิลส์

1

ไม่มีประสบการณ์ในการเรียนรู้ด้วยเครื่องและการตัดสินจากคำตอบของ @jmiteที่นี่คือการแสดงภาพสิ่งที่ฉันคิดว่าเขาหมายถึง:

กราฟสุ่มของรูปร่างที่เหมาะสมโดยประมาณสำหรับการสาธิต

สมมติว่าแต่ละแท่งในกราฟด้านบนเป็นข้อมูลของคุณซึ่งคุณพยายามที่จะเข้าใจแนวโน้มทั่วไปเพื่อนำไปใช้กับชุดข้อมูลขนาดใหญ่ เป้าหมายของคุณคือการหาเส้นโค้ง หากคุณ overfit - แทนที่จะเป็นเส้นโค้งที่แสดงคุณเชื่อมต่อด้านบนของแต่ละบาร์ด้วยกันจากนั้นนำไปใช้กับชุดข้อมูลของคุณ - และได้รับการตอบสนองแหลมคมที่ไม่ถูกต้องแปลกเพราะเสียง (รูปแบบต่าง ๆ จากที่คาด) ลงในชุดข้อมูลจริงของคุณ

หวังว่าฉันได้ช่วยบ้าง ...


0

ความจริงที่มากเกินไปในชีวิตจริง:

คนผิวขาวเห็นข่าวของคนผิวดำที่ก่ออาชญากรรม คนผิวขาวเห็นข่าวอีกเรื่องของคนผิวดำที่ก่ออาชญากรรม คนผิวขาวเห็นข่าวเรื่องที่สามของคนผิวดำที่ก่ออาชญากรรม คนผิวขาวเห็นข่าวเกี่ยวกับคนผิวขาวที่สวมเสื้อแดงพ่อแม่ผู้มั่งคั่งและประวัติความเจ็บป่วยทางจิตที่ก่ออาชญากรรม คนผิวขาวสรุปว่าคนผิวดำทุกคนกระทำความผิดโดยมีคนผิวขาวเพียงคนเดียวที่สวมเสื้อแดงพ่อแม่ที่ร่ำรวยและมีประวัติป่วยเป็นโรคทางจิต

หากคุณต้องการที่จะเข้าใจว่าทำไม overfitting ประเภทนี้จึงเป็น "ไม่ดี" เพียงแค่แทนที่ "สีดำ" ด้านบนด้วยคุณลักษณะบางอย่างที่มากหรือน้อยที่กำหนดคุณโดยเฉพาะ


stereotyping คือสิ่งที่ laypersons เรียกว่า overfitting
Emre

3
นั่นไม่ได้ทำให้อ้วนมากเกินไป ระบบมากเกินไปจะตัดสินว่าคนเพียงคนเดียวที่เป็นอาชญากรคือคนที่มีสีผิวสีเสื้อเชิ้ตรายได้ของผู้ปกครองและประวัติความเจ็บป่วยทางจิตซึ่งเป็นหนึ่งในอาชญากรในรายงานข่าว
David Richerby

8
@Emre ไม่ stereotyping นั้นตรงกันข้ามกับ overfitting แบบแผนกำลังมาถึงข้อสรุปที่ไม่สนใจคุณสมบัติส่วนใหญ่ของข้อมูลการฝึกอบรม การใส่ข้อมูลอย่างหนักกำลังมาถึงข้อสรุปว่ามีเพียงข้อมูลที่ทุกจุดในข้อมูลการฝึกอบรมที่อธิบายอย่างสมบูรณ์ส่วนหนึ่งของสิ่งที่คุณกำลังพยายามจดจำ
David Richerby

หมายเหตุผู้ดูแล: ความคิดเห็นนอกหัวข้อ / ไม่อยู่ในบริบทถูกลบแล้ว สำหรับการอภิปรายทั่วไปกรุณาเยี่ยมชมวิทยาศาสตร์คอมพิวเตอร์แชท หากคุณมีคำถามเกี่ยวกับโปรแกรมใดโปรแกรมหนึ่งที่อาจจะใช่หรือไม่ใช่ว่าใช้งานเกินความเป็นจริงโปรดถามคำถามใหม่
Gilles 'ดังนั้นหยุดความชั่วร้าย'

2
@ArnabDatta Overfitting กำลังจับคู่โมเดลที่ซับซ้อนเกินไปกับข้อมูลการฝึกอบรมมากเกินไป แบบแผนคือการใช้แบบจำลองที่ง่ายเกินไป
David Richerby

0

ข้อมูลใด ๆ ที่คุณทดสอบจะมีคุณสมบัติที่คุณต้องการให้เรียนรู้และคุณสมบัติบางอย่างที่ไม่เกี่ยวข้องซึ่งคุณไม่ต้องการให้เรียนรู้

John อายุ 11
Jack อายุ 19
Kate อายุ 31
Lana อายุ 39

เหมาะสม: อายุประมาณเป็นเส้นตรงผ่าน ~ อายุ 20
เกินพอดี: มนุษย์สองคนไม่สามารถแยกออกจากกันได้ 10 ปี (คุณสมบัติของเสียงรบกวนในข้อมูล)
Underfit: 1/4 ของมนุษย์ทุกคนมีอายุ 19 ปี (ภาพรวม)


ยินดีต้อนรับ! เรามีตัวอย่างที่ไม่เป็นทางการจำนวนมากอยู่แล้วดังนั้นฉันไม่แน่ใจว่านี่จะเพิ่มขึ้นมากมาย และดูเหมือนยากที่จะทำให้ตัวอย่างนี้เป็นทางการมากขึ้น ตัวอย่างเช่นฟังก์ชันเชิงเส้นที่คุณพูดถึงคืออะไร? ดูเหมือนว่าอินพุตของฟังก์ชันจะเป็นชื่อของบุคคลซึ่งไม่ใช่ตัวเลข ในขณะเดียวกัน "มนุษย์สองคนไม่สามารถแยกจากกันสิบปี" และ "1/4 ของมนุษย์อายุ 19 ปี" ไม่ใช่ตัวอย่างของฟังก์ชั่นที่เรียนรู้จากข้อมูล
David Richerby
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.