ตัวอย่างของ "การทำเกินจริง" ในโลกจริงคืออะไร?


107

ฉันเข้าใจความหมายของ "การ overfitting" แต่ฉันต้องการความช่วยเหลือในการหาตัวอย่างจริงในโลกที่ใช้กับการ overfitting


12
บางทีคุณสามารถอธิบายสิ่งที่คุณ 'เข้าใจ' เกี่ยวกับ 'overfitting หมายถึงอะไร' เพื่อให้ผู้คนสามารถระบุส่วนที่คุณไม่เข้าใจโดยไม่ต้องเดาว่าสิ่งเหล่านี้อาจเป็นอย่างไร
goangit

3
@ssdecontrol ความสัมพันธ์แบบลวงตาไม่ได้ฟิตเกินไป ในความเป็นจริงความสัมพันธ์แบบลวงตาไม่จำเป็นต้องเกี่ยวข้องกับแบบจำลองที่ชัดเจนและแบบจำลองโดยนัยมักเป็นเส้นตรงที่มีพารามิเตอร์สองตัว
Nick Cox

1
@whuber: นี่อาจจะเหมาะสมกว่าที่จะพูดคุยเกี่ยวกับเมตา แต่ฉันรู้สึกประหลาดใจที่เห็นว่าคุณแปลงโพสต์นี้เป็นวิกิชุมชน มันไม่ได้หมายความว่า OP จะไม่ได้รับชื่อเสียงเพิ่มขึ้นสำหรับ upvotes ในอนาคต? สำหรับฉันมันดูเหมือนจะเป็น "การลงโทษ" สำหรับเขา อะไรคือเหตุผลสำหรับสิ่งนั้น
อะมีบา

4
@ amoeba ไม่ใช่การลงโทษ: คำถามนี้ตามที่ระบุไว้ชัดเจนไม่มีคำตอบที่ถูกต้องหรือเป็นที่ยอมรับ ในรูปแบบดั้งเดิมที่ไม่ใช่คำถาม CW มันเป็นหัวข้อที่เป็นผลลัพธ์ - และควรปิดอย่างรวดเร็ว BTW - แต่เนื่องจากอาจมีค่าในการมีตัวอย่างที่ดีบางอย่างที่สร้างขึ้นโดยชุมชนทำให้สถานะ CW แทนที่จะปิดมันดูเหมือนจะเป็นทางออกที่สมเหตุสมผล
whuber

17
จนถึงตอนนี้มีคำตอบเพียงไม่กี่ข้อเท่านั้น (เพียงแค่สองข้อจาก 11 ข้อเท่านั้น) แม้แต่พยายามตอบคำถามซึ่งขอตัวอย่างจากโลกแห่งความจริง นั่นหมายความว่าไม่ใช่การจำลองไม่ใช่ตัวอย่างเชิงทฤษฎีไม่ใช่การ์ตูน แต่เป็นแบบจำลองที่ใช้กับข้อมูลจริงอย่างจริงจัง โปรดทราบด้วยเช่นกันว่าคำถามนั้นพยายามคัดท้ายคำตอบออกไปจากคำอธิบายของสิ่งที่เกินกำลัง
whuber

คำตอบ:


96

นี่เป็นตัวอย่างที่ดีของแบบจำลองชุดการเลือกตั้งประธานาธิบดีจาก xkcd: ป้อนคำอธิบายรูปภาพที่นี่

มีการเลือกตั้งประธานาธิบดีเพียง 56 ครั้งและประธานาธิบดี 43 คน นั่นไม่ใช่ข้อมูลจำนวนมากที่ต้องเรียนรู้ เมื่อพื้นที่การคาดการณ์ขยายรวมถึงสิ่งต่าง ๆ เช่นมีฟันปลอมและค่า Scrabble point ของชื่อมันเป็นเรื่องง่ายมากที่รุ่นจะไม่ต้องปรับคุณสมบัติทั่วไปของข้อมูล (สัญญาณ) และเริ่มจับคู่เสียงรบกวน เมื่อสิ่งนี้เกิดขึ้นความพอดีกับข้อมูลในอดีตอาจดีขึ้น แต่โมเดลจะล้มเหลวอย่างน่าสังเวชเมื่อใช้เพื่ออ้างถึงการเลือกตั้งประธานาธิบดีในอนาคต


15
ฉันคิดว่าคุณควรเพิ่มบางอย่างเกี่ยวกับอคติตัวอย่างเพื่ออธิบายว่าสิ่งนี้เกี่ยวข้องกับการ overfitting อย่างไร เพียงแค่รอยตัด & แปะของการ์ตูนไม่มีคำอธิบาย
Neil Slater

5
คุณสมบัติที่ดีของตัวอย่างนี้คือมันแสดงให้เห็นถึงความแตกต่างระหว่างการ overfitting และความซับซ้อน กฎ "ในฐานะที่เป็นรัฐแคลิฟอร์เนียประเทศชาติเป็นไปอย่างง่าย" แต่ก็ยังมีความเหมาะสม
Tom Minka

2
@TomMinka ในความเป็นจริง overfitting อาจเกิดจากความซับซ้อน (แบบจำลองที่ซับซ้อนเกินไปที่จะพอดีกับข้อมูลที่ง่ายเกินไปดังนั้นพารามิเตอร์เพิ่มเติมจะพอดีกับสิ่งที่มาในมือ) หรือตามที่คุณชี้โดยคุณสมบัติที่มีเสียงดังที่ได้รับน้ำหนักมากกว่าการตัดสินใจที่เกี่ยวข้อง คุณสมบัติ และยังมีแหล่งที่มาอื่น ๆ อีกมากมายที่เป็นไปได้ของการ overfitting (ความแปรปรวนภายในของข้อมูลหรือรูปแบบข้อมูลที่ไม่เกี่ยวข้องกับการเป็นตัวแทนเป้าหมายเป้าหมาย ฯลฯ ) ผมคิดว่าเราควรจะพูดได้ว่ามี overfitting sไม่เพียง overfitting (ซึ่งหมายความว่ามีเพียงสาเหตุหนึ่งซึ่งมักจะไม่ถูกต้อง)
gaborous

80

สิ่งที่ฉันชอบคือตัวอย่าง Matlab ของประชากรในสหรัฐกับเวลา:

  • แบบจำลองเชิงเส้นค่อนข้างดี
  • แบบจำลองกำลังสองอยู่ใกล้
  • แบบจำลองควอร์ติคทำนายการทำลายล้างทั้งหมดตั้งแต่ปีหน้า

(อย่างน้อยฉันก็หวังเป็นอย่างยิ่งว่านี่คือตัวอย่างของการมีลูกมากเกินไป)

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fitting.html#zmw57dd0e115ป้อนคำอธิบายรูปภาพที่นี่


1
เพียงเพื่อให้ชัดเจนภายใต้พล็อตที่พวกเขาพูดว่า: "พฤติกรรมของการพอดีกับพหุนามระดับที่หกเกินกว่าช่วงข้อมูลทำให้มันเป็นทางเลือกที่ดีสำหรับการคาดการณ์และคุณสามารถปฏิเสธแบบนี้ "
usεr11852

49

การศึกษาของเฉินและคณะ (2013) เหมาะกับสอง cubics กับความไม่ต่อเนื่องที่คาดหวังในชีวิตเป็นหน้าที่ของละติจูด

Chen Y. , Ebenstein, A. , Greenstone, M. , และ Li, H. 2013. หลักฐานเกี่ยวกับผลกระทบของการสัมผัสกับมลพิษทางอากาศอย่างต่อเนื่องเกี่ยวกับอายุขัยของนโยบายแม่น้ำห้วยจีน กิจการของ National Academy of Sciences 110: 12936–12941 บทคัดย่อ

แม้จะมีการตีพิมพ์ในวารสารที่โดดเด่น ฯลฯ แต่การรับรองโดยนัยของคนที่มีชื่อเสียง ฯลฯ ฉันก็ยังคงนำเสนอสิ่งนี้เป็นตัวอย่างเบื้องต้นของการปรับตัวให้กระชับ

สัญญาณบอกเล่าเรื่องราวคือความไม่น่าเชื่อของคิวบิก การติดตั้งลูกบาศก์โดยปริยายถือว่ามีเหตุผลบางอย่างว่าทำไมอายุขัยจะแปรเปลี่ยนเป็นพหุนามระดับสามของละติจูดที่คุณอาศัยอยู่ ดูเหมือนจะเป็นไปไม่ได้: มันไม่ง่ายเลยที่จะจินตนาการถึงกลไกทางกายภาพที่น่าเชื่อถือซึ่งจะทำให้เกิดผลกระทบดังกล่าว

ดูเพิ่มเติมการโพสต์ติดตามบล็อกสำหรับการวิเคราะห์รายละเอียดเพิ่มเติมของบทความนี้: หลักฐานเกี่ยวกับผลกระทบของการใช้งานอย่างต่อเนื่องของการถดถอยพหุนามในการอนุมานสาเหตุ (การเรียกร้องที่ร้อนถ่านหินลดอายุการใช้งาน 5 ปีสำหรับครึ่งพันล้านคน)


5
+1 Andrew Gelman ยังเขียนบล็อกหนึ่งหรือสองโพสต์เกี่ยวกับสาเหตุที่ไม่น่าเชื่อถือ นี่คือหนึ่งใน: andrewgelman.com/2013/08/05/ …
Sycorax

@ user777 บล็อก Gelman น่าจะเป็นสิ่งที่ฉันได้ยินครั้งแรก แต่ฉันคิดว่ามันเหมาะสมที่สุดที่จะให้การอ้างอิงเพิ่มปุยความคิดเห็นส่วนตัวของฉันและให้คนตัดสินด้วยตัวเอง
Nick Cox

1
ฉันได้ตัดการแก้ไขโดย @DW ที่นำเสนอความคิดเห็นเกี่ยวกับอายุขัยในประเทศต่าง ๆ ซึ่งไม่ใช่สิ่งที่เกี่ยวกับกระดาษเลย
Nick Cox

2
อีกตัวอย่างหนึ่งที่ฉันคิดว่าเป็นตัวอย่าง (แม้ว่าอาจจะมีการวางแผนมากกว่า "โลกแห่งความเป็นจริง") คือการทายผลการแข่งขันที่ให้ผลการสืบค้นย้อนกลับกลาง - คล้ายกับตัวต่อ โดยทั่วไปจะมีบุคคลที่เพิ่มประสิทธิภาพผลลัพธ์ให้กับกระดานแต้มนำ แต่พวกเขาไม่ใช่ผู้ชนะสำหรับตัวอย่างที่ระงับไว้ Rob Hyndmanมีการพูดคุยเกี่ยวกับเรื่องนี้ มันต้องใช้มุมมองในเชิงลึกมากกว่าที่ฉันคิดว่า OP ต้องการที่นี่
Andy W

2
ฉันเพิ่งจะโพสต์กระดาษ Gelman & Imbens ที่ออกมาจากนี้: nber.org/papers/w20405 (gated, น่าเสียดาย)
shadowtalker

38

ในบทความวิทยาศาสตร์วันที่ 14 มีนาคม 2014 , David Lazer, Ryan Kennedy, Gary King และ Alessandro Vespignani ได้ระบุปัญหาในGoogle แนวโน้มไข้หวัดใหญ่ที่พวกเขาอ้างถึงการบรรจุมากเกินไป

รูป

นี่คือวิธีที่พวกเขาบอกเล่าเรื่องราวรวมถึงการอธิบายถึงลักษณะของการ overfitting และสาเหตุที่ทำให้อัลกอริทึมล้มเหลว:

ในเดือนกุมภาพันธ์ 2013, ... ธรรมชาติรายงานว่า GFT คาดการณ์มากกว่าสองเท่าของสัดส่วนการเข้าชมแพทย์สำหรับการเจ็บป่วยเหมือนไข้หวัดใหญ่ (ILI) มากกว่าศูนย์ควบคุมและป้องกันโรค (CDC) ... สิ่งนี้เกิดขึ้นแม้จะมีการสร้าง GFT ขึ้นเพื่อคาดการณ์รายงาน CDC ...

โดยพื้นฐานแล้ววิธีการคือการค้นหาสิ่งที่ตรงกันที่สุดในบรรดา 50 ล้านคำค้นหาเพื่อให้พอดีกับจุดข้อมูล 1152 โอกาสในการค้นหาข้อความค้นหาที่ตรงกับความชอบของไข้หวัดใหญ่ แต่ไม่เกี่ยวข้องกับโครงสร้างดังนั้นจึงไม่สามารถทำนายอนาคตได้ค่อนข้างสูง ในความเป็นจริงนักพัฒนา GFT รายงานว่ากำจัดคำค้นหาตามฤดูกาลที่ไม่เกี่ยวข้องกับไข้หวัดใหญ่ แต่มีความสัมพันธ์อย่างมากกับข้อมูล CDC เช่นที่เกี่ยวข้องกับบาสเก็ตบอลระดับมัธยมปลาย สิ่งนี้ควรเป็นคำเตือนว่าข้อมูลขนาดใหญ่มีจำนวนคดีมากเกินไปซึ่งเป็นเรื่องมาตรฐานในการวิเคราะห์ข้อมูล วิธีการเฉพาะกิจนี้ในการสลัดคำค้นหาที่แปลกประหลาดล้มเหลวเมื่อ GFT พลาดการระบาดของไข้หวัดใหญ่ A-H1N1 ที่ไม่ใช่ฤดูกาล 2009 อย่างสมบูรณ์

[เน้นเพิ่มแล้ว]


3
น่าเสียดายที่ตัวอย่างนี้มีปัญหาบางอย่าง บทความนี้เสนอเหตุผลสองประการที่แตกต่างกันว่าทำไม GFT จึงทำการคาดคะเนที่ไม่ดี: การให้ข้อมูลมากเกินไปและการเปลี่ยนแปลงในเครื่องมือค้นหา ผู้เขียนยอมรับว่าพวกเขาไม่อยู่ในฐานะที่จะตัดสินว่าเหตุผลใด (ถ้ามี) นั้นถูกต้องดังนั้นจึงเป็นการเก็งกำไรเป็นหลัก นอกจากนี้ย่อหน้าเกี่ยวกับการ overfitting อ้างถึงเวอร์ชันดั้งเดิมของระบบในขณะที่การคาดการณ์ในกราฟถูกสร้างขึ้นด้วยระบบที่ปรับเปลี่ยน
Tom Minka

1
@ Tom บทความไม่ได้เขียนราวกับว่าข้อกล่าวหาของ overfitting เป็นการเก็งกำไร: ผู้เขียนยืนยันอย่างตรงไปตรงมาว่า ฉันคิดว่ามันเป็นคำสั่งที่สมเหตุสมผล พวกเขายังกล่าวถึงสาเหตุที่พวกเขาต้องคาดเดาค่อนข้างมาก: Google ไม่เปิดเผยหรือโปร่งใสเกี่ยวกับอัลกอริทึม ดูเหมือนว่าฉันจะไม่มีความหมายสำหรับวัตถุประสงค์ปัจจุบันไม่ว่าจะเกิด overfitting ในรุ่นเดียวหรือหลายรุ่น แต่เมื่อฉันจำผู้เขียนได้กล่าวถึงเรื่องนี้ด้วยและชี้ให้เห็นหลักฐานของการ overfitting อย่างต่อเนื่องในอัลกอริทึมปัจจุบัน
whuber

2
บทความเพียงกล่าวว่า overfitting เป็นความกังวลมาตรฐานในการวิเคราะห์ข้อมูล มันไม่ได้อ้างว่ามีเหตุผลมากเกินไป การอ้างอิง (2)มีรายละเอียดเพิ่มเติม แต่การกล่าวอีกครั้งว่าการให้ข้อมูลมากเกินไปเป็นเพียง "ปัญหาที่เป็นไปได้" โดยมีข้อความว่า "เนื่องจากอัลกอริทึมการค้นหาและคำค้นหาผลลัพธ์ที่ใช้เพื่อกำหนดรุ่น GFT ต้นฉบับและที่อัปเดต ยากที่จะระบุสาเหตุของการปฏิบัติที่ไม่ดีของระบบและให้คำแนะนำเพื่อการปรับปรุง "
Tom Minka

@ Tom ฉันจะยืนตามใบเสนอราคาที่นี่ซึ่งเป็นสิ่งที่ถูกต้องเนื่องจากการสนับสนุนที่เพียงพอสำหรับสาเหตุที่โมเดล Google Flu มีค่าควรพิจารณาในบริบทปัจจุบัน
whuber

การสนทนาที่น่าสนใจ ฉันจะเพิ่มเพียงว่ากราฟอาจสนับสนุนการโต้แย้งที่ดีกว่าถ้าบรรทัดที่มีข้อความ
rolando2

32

ฉันเห็นภาพนี้เมื่อสองสามสัปดาห์ก่อนและคิดว่ามันค่อนข้างเกี่ยวข้องกับคำถามในมือ

ภาพมส์

แทนที่จะเรียงลำดับแบบเชิงเส้นให้เหมาะสมมันจึงมีพหุนามควอร์ติคซึ่งมีขนาดพอดี แต่ทำให้ได้คำตอบที่ไร้สาระอย่างชัดเจน


12
สิ่งนี้ไม่ตอบคำถามตามที่ถามและอาจดีกว่าเป็นความคิดเห็นหรือไม่ถูกโพสต์เลย สิ่งนี้ไม่ได้ให้ตัวอย่างจริงของการ overfitting (ซึ่งเป็นคำถามที่ถาม) นอกจากนี้ยังไม่ได้อธิบายว่ารูปภาพตัวอย่างเกี่ยวข้องกับการ overfitting อย่างไร ในที่สุดมันสั้นมาก เราต้องการคำตอบโดยละเอียดและละเอียดซึ่งตอบคำถามที่ถามไม่ใช่เพียงการอภิปรายที่เกี่ยวข้องกับคำถาม
DW

9
ในความเป็นจริงนี่เป็นกรณีของการ overfitting เนื่องจากโมเดลที่ซับซ้อนเกินไปเนื่องจากคุณสามารถสร้างฟังก์ชันอนันต์ของฟังก์ชันลำดับสูงกว่า (ไม่ใช่เชิงเส้น) เพื่อสร้างจำนวนอนันต์ของคำสุดท้ายที่แตกต่างกันของลำดับในขณะที่ยังคงเหมาะสม อื่น ๆ (ที่รู้จักกัน) เงื่อนไขโดยใช้การแก้ไข Lagrange ตามที่อธิบายไว้ที่นี่
gaborous

@ user1121352 ในการ์ตูนพหุนามลำดับสูงเป็นแบบจำลองที่แท้จริงดังนั้นจึงไม่เกี่ยวกับการปรับให้กระชับเกินไปเลย คำตอบเช่น "9" (เลขคี่ถัดไป) หรือ "11" (คี่นายกต่อไป) จริง ๆ แล้วจะอยู่ภายใต้ -fitting เพราะมันใช้แบบจำลองที่ง่ายเกินไปในการทำนายค่าต่อไป การ์ตูนแสดงให้เห็นถึงกรณีตรงกันข้ามจริงๆว่าโมเดลที่ซับซ้อนกว่านี้อาจเป็นจริงได้
Sycorax

8
พหุนามควอร์ติค (ตามที่ตีความโดยฉัน) มีจุดมุ่งหมายเพื่อเป็นคำตอบที่ไร้สาระเนื่องจากคำตอบที่ชัดเจนที่ทุกคนจะให้ก่อนที่จะเห็นการแก้ปัญหาที่ไร้สาระจะเป็น 9 (หรือค่า OEIS อื่น ๆ ) ฉันสันนิษฐานว่ารูปแบบ "doge" สื่อถึงการเสียดสี แต่เราเห็นกฎหมายของ Poe ชัดเจนที่นี่
March Ho

2
ตรงนี้เป็นจุดที่ฉันพยายามทำซึ่งก็คือเราไม่รู้ว่าหน้าที่ที่แท้จริงคืออะไร หากคุณกำลังทำการวิเคราะห์ดั้งเดิมคุณไม่มีทรัพยากรอย่าง OEIS ที่จะดึงดูดความจริง: นั่นคือสิ่งที่โมเดลของคุณพยายามสร้าง ฉันขอขอบคุณที่การ์ตูนกำลังพยายามเสียดสี แต่การวางตำแหน่งของการ์ตูนในการสนทนานี้ทำให้เกิดความละเอียดอ่อนที่สำคัญสำหรับคำถามเกี่ยวกับการ overfitting และการสร้างแบบจำลองทางสถิติโดยทั่วไป ความตั้งใจของผู้สร้างดั้งเดิมนั้นไม่เกี่ยวข้องเพราะคุณได้สร้างมันใหม่ที่นี่!
Sycorax

22

สำหรับฉันตัวอย่างที่ดีที่สุดคือระบบ Ptolemaicในดาราศาสตร์ ปโตเลมีสันนิษฐานว่าโลกเป็นศูนย์กลางของจักรวาลและสร้างระบบที่ซับซ้อนของวงโคจรแบบวงกลมซ้อนกันซึ่งจะอธิบายการเคลื่อนที่ของวัตถุบนท้องฟ้าได้ดี นักดาราศาสตร์ต้องเพิ่มวงกลมเพื่ออธิบายการเบี่ยงเบนจนกระทั่งวันหนึ่งมันก็สับสนจนผู้คนเริ่มสงสัย นั่นคือเมื่อโคเปอร์นิคัสสร้างแบบจำลองที่สมจริงยิ่งขึ้น

นี่คือตัวอย่างที่ดีที่สุดของการ overfitting ให้ฉัน คุณไม่สามารถปรับกระบวนการสร้างข้อมูล (DGP) ให้พอดีกับข้อมูลได้ คุณสามารถใส่แบบจำลองที่ไม่ได้รับอนุญาตมากเกินไปได้เท่านั้น โมเดลเกือบทั้งหมดของเราในสังคมศาสตร์นั้นได้รับการสะกดผิดดังนั้นกุญแจสำคัญคือการจดจำสิ่งนี้และทำให้พวกเขาจดจำ ไม่พยายามจับทุกแง่มุมของชุดข้อมูล แต่พยายามที่จะจับคุณสมบัติที่สำคัญผ่านการทำให้เข้าใจง่าย


15
สิ่งนี้ดูเหมือนจะไม่ได้เป็นตัวอย่างของการ overfitting ไม่มีอะไรผิดปกติกับระบบ Ptolemaic ซึ่งเป็นแบบจำลองการทำนาย: มันซับซ้อนเพียงเพราะระบบพิกัดนั้นมีจุดศูนย์กลางทางโลกมากกว่าที่จะเกิดขึ้นกับศูนย์กลางกาแลคซีของมวล ดังนั้นปัญหาคือความถูกต้องเหมาะสมถูกต้องกับโมเดลที่ซับซ้อนมากเกินไป (Ellipses นั้นง่ายกว่า epicycles) มันเป็นความท้าทายที่แท้จริงในการค้นหานางแบบที่ไม่เป็นเชิงเส้น!
whuber

1
คุณจะพบกับวงกลมจำนวนมากเพื่อจำลองวงโคจรของดวงจันทร์ของดาวพฤหัสในระบบดาวโทเลม่า
Aksakal

17
ถูกต้อง - แต่เมื่อเห็นแล้วไม่จำเป็นต้องให้น้ำหนักมากเกินไป การทดสอบกรดอยู่ในการทำนายค่าในอนาคตซึ่งในระบบนั้นทำงานได้ดีพอที่จะยืนได้ถึง 1,400 ปี ข้อมูลoverfitไม่เมื่อรูปแบบที่มีความซับซ้อนมาก แต่เมื่อมันจึงเป็นเรื่องที่มีความยืดหยุ่นที่โดยจับรายละเอียดภายนอกมันผลิตการคาดการณ์มากที่ไม่ถูกต้องมากขึ้นกว่าที่คาดว่าจะได้จากการวิเคราะห์ของเศษรูปแบบของการฝึกอบรมเกี่ยวกับข้อมูลของตน
whuber

2
EY=Σk=09βkxผม

2
EY=Σk=09βkxkx

22

สมมติว่าคุณมี 100 จุดบนกราฟ

คุณสามารถพูดได้ว่า: อืมฉันต้องการทำนายสิ่งต่อไป

  • กับสาย
  • ด้วยพหุนามลำดับที่ 2
  • ด้วยพหุนามลำดับที่ 3
  • ...
  • ด้วยพหุนามลำดับที่ 100

ที่นี่คุณสามารถดูภาพประกอบที่เรียบง่ายสำหรับตัวอย่างนี้: ป้อนคำอธิบายรูปภาพที่นี่

ลำดับพหุนามยิ่งสูงก็จะพอดีกับจุดที่มีอยู่

อย่างไรก็ตามพหุนามคำสั่งที่สูงถึงแม้จะดูเหมือนจะเป็นนางแบบที่ดีกว่าสำหรับจุดเหล่านี้ มันจำลองเสียงรบกวนมากกว่าการกระจายข้อมูลที่แท้จริง

ดังนั้นหากคุณเพิ่มจุดใหม่ลงในกราฟด้วยเส้นโค้งที่เหมาะสมอย่างสมบูรณ์มันอาจจะอยู่ห่างจากเส้นโค้งมากกว่าถ้าคุณใช้พหุนามลำดับต่ำที่ง่ายกว่า


"ดังนั้นถ้าคุณเพิ่มจุดใหม่ลงในกราฟด้วยเส้นโค้งที่เหมาะสมอย่างสมบูรณ์มันอาจจะอยู่ห่างจากเส้นโค้งมากกว่าถ้าคุณใช้พหุนามลำดับต่ำที่ง่ายกว่า" - ยิ่งกว่านั้นนี่ยังคงเป็นจริงแม้ว่า กระบวนการสร้างข้อมูลสำหรับจุดใหม่ (เช่นความสัมพันธ์ในประชากร) จริง ๆ แล้วพหุนามพลังงานสูงเช่นเดียวกับที่คุณติดตั้ง
Silverfish

19
รูปภาพที่นี่ไม่ถูกต้อง - ตัวอย่างเช่นพหุนาม 9 องศาได้รับการพล็อตเป็นฟังก์ชันเชิงเส้นแบบเชิงเส้น แต่ฉันคิดว่าในความเป็นจริงมันควรแกว่งขึ้นลงในช่วงระหว่างจุดต่างๆ คุณควรเห็นผลกระทบนี้ในพหุนาม 5 องศาด้วย
Ken Williams

17

การวิเคราะห์ที่อาจมีส่วนทำให้เกิดภัยพิบัติฟูกูชิม่าเป็นตัวอย่างของการล้น มีความสัมพันธ์ที่รู้จักกันดีในวิทยาศาสตร์โลกที่อธิบายถึงความน่าจะเป็นของการเกิดแผ่นดินไหวในขนาดที่กำหนดเนื่องจากความถี่ที่สังเกตได้ของการเกิดแผ่นดินไหว "น้อยกว่า" คือ สิ่งนี้เป็นที่รู้จักกันในนามความสัมพันธ์ของกูเทนแบร์ก - ริกเตอร์และมีการบันทึกข้อมูลแบบเส้นตรงในช่วงหลายทศวรรษที่ผ่านมา การวิเคราะห์ความเสี่ยงจากแผ่นดินไหวในบริเวณใกล้เคียงของเครื่องปฏิกรณ์ (แผนภาพนี้จากหนังสือ "สัญญาณและเสียงรบกวน" ที่ยอดเยี่ยมของเนทซิลเวอร์) แสดง "kink" ในข้อมูล การเพิกเฉยต่อความหงิกงอนำไปสู่การประมาณความเสี่ยงรายปีของแผ่นดินไหวขนาด 9 ประมาณ 1 ใน 300 - เป็นสิ่งที่ต้องเตรียม อย่างไรก็ตาม (ตามที่เห็นได้ชัดในระหว่างการประเมินความเสี่ยงเริ่มต้นสำหรับเครื่องปฏิกรณ์) ลดการทำนายความเสี่ยงเป็น 1 ใน 13,000 ปี หนึ่งไม่สามารถทำผิดวิศวกรที่ไม่ได้ออกแบบเครื่องปฏิกรณ์ที่จะทนต่อเหตุการณ์ที่ไม่น่าเป็นไปได้ - แต่อย่างใดอย่างหนึ่งควรผิดนักสถิติที่ overfitted (แล้วประเมิน) ข้อมูล ...

ป้อนคำอธิบายรูปภาพที่นี่


มันเป็นข้อสรุปว่าแบบจำลองความชันสองนั้นพอดีหรือไม่ หงิกงอเด่น ฉันเดาว่าแต่ละส่วนของเส้นนั้นประมาณจากพูด 3 คะแนนแต่ละอันคุณจะได้การคาดการณ์ที่ดีกว่าในเรื่องของการระงับมากกว่าโดยการประมาณหนึ่งบรรทัด (แน่นอนการสังเกตเหตุการณ์ "1 ใน 13,000 ปี" ที่ตามมาโต้แย้งกับมัน! แต่มันยากที่จะตีความเพราะเราจะไม่ตรวจสอบโมเดลนี้อีกครั้งถ้ามันไม่ได้เกิดขึ้น) หากมีเหตุผลทางกายภาพที่จะเพิกเฉย หงิกงอที่รับรู้แล้วกรณีนี้เกินพอดีแข็งแรงกว่า - ฉันไม่รู้ว่าข้อมูลดังกล่าวมักจะตรงกับความสัมพันธ์ในอุดมคติของกูเทนแบร์ก - ริกเตอร์
Silverfish

สิ่งนี้แสดงให้เห็นถึงความเสี่ยงของการคาดการณ์แบบกราฟิกและความต้องการฟังก์ชั่นการสูญเสียที่คำนึงถึงความรุนแรงของผลที่เกิดจากข้อผิดพลาด ...
Silverfish

3
ปัญหาคือข้อมูลที่น้อยมากถูกใช้สำหรับบางจุดสุดท้าย - ดังนั้นพวกเขาจึงมีความไม่แน่นอนอย่างมาก เมื่อดูข้อมูลอย่างใกล้ชิดคุณจะเห็นว่ามีเหตุการณ์ 7.9 เหตุการณ์เดียวและหลาย 7.7 เหตุการณ์ ไม่ค่อยมีใครรู้จักเกี่ยวกับการเกิดแผ่นดินไหวมากกว่า 8.0 เนื่องจากมีไม่บ่อยนัก - แต่เมื่อคุณสังเกตการณ์การสั่นสะเทือน 9.0 (การสั่นสะเทือนของ Tohoku ที่ทำให้เกิดสึนามิ) คุณสามารถสรุปผลของคุณเองได้ เส้นตรงอาจจะอนุรักษ์นิยม - แต่เมื่อพูดถึงความปลอดภัยของนิวเคลียร์การอนุรักษ์เป็นสิ่งที่ดี
Floris

1
@ Floris จุดดี มันจะดีกว่าถ้าพวกเขาใช้พล็อตกล่องที่ไม่เพียง แต่แสดงความถี่ที่สังเกต แต่ยังมั่นใจช่วงเวลาสำหรับความถี่เหล่านั้นด้วย ถ้าอย่างนั้นก็คงได้กล่องที่แคบมากทางด้านซ้ายในไดอะแกรมและกล่องที่กว้างมากไปทางขวา (ช่วงความเชื่อมั่นดังกล่าวสามารถคำนวณได้โดยสมมติว่าแต่ละความถี่เป็นไปตามการแจกแจงแบบปัวซง)
user763305

3
@ user763305 - ใช่ฉันค่อนข้างมั่นใจว่าการเพิ่มช่วงความมั่นใจจะแสดงว่าเส้นตรงไม่สอดคล้องกับข้อมูล (หรือกล่าวอีกนัยหนึ่งว่าคุณไม่สามารถปฏิเสธสมมติฐานว่างเปล่าที่ว่าข้อมูลนั้นเป็นเส้นตรง)
Floris

15

"อ๊ะ! แพทออกจาก บริษัท เราจะไปหาคนมาแทนได้อย่างไร"

การโพสต์งาน:

ต้องการ: วิศวกรไฟฟ้า บุคคลอายุ 42 ปีสำเร็จการศึกษาระดับปริญญาตรีสาขาวิศวกรรมไฟฟ้าคณิตศาสตร์และการเลี้ยงสัตว์ จะต้องมีความสูง 68 นิ้วที่มีผมสีน้ำตาลตุ่นเหนือตาซ้ายและมีแนวโน้มที่จะ diatribes ยืดยาวกับห่านและการใช้คำผิด 'คำแนะนำ'

ในแง่คณิตศาสตร์การ overfittingมักหมายถึงการสร้างแบบจำลองที่มีพารามิเตอร์มากกว่าที่จำเป็นทำให้เหมาะสมสำหรับชุดข้อมูลที่เฉพาะเจาะจงมากขึ้น แต่ไม่มีการจับรายละเอียดที่เกี่ยวข้องจำเป็นต้องพอดีกับชุดข้อมูลอื่น ๆ จากชั้นเรียนที่สนใจ

ในตัวอย่างข้างต้นผู้โพสต์ไม่สามารถแยกความแตกต่างที่เกี่ยวข้องจากลักษณะที่ไม่เกี่ยวข้อง คุณสมบัติที่เป็นไปได้มักจะพบโดยคนคนเดียวที่พวกเขารู้แล้วว่าเหมาะสมกับงาน (แต่ไม่ต้องการอีกต่อไป)


8
ในขณะที่สนุกสนานคำตอบนี้ไม่ได้ให้ข้อมูลเชิงลึกเกี่ยวกับความหมายที่มากเกินไปในแง่สถิติ บางทีคุณอาจขยายคำตอบของคุณเพื่อชี้แจงความสัมพันธ์ระหว่างคุณลักษณะเฉพาะเหล่านี้และการสร้างแบบจำลองทางสถิติ
Sycorax

+1 เครื่องหมาย ฉันเห็นด้วยกับ @ user777 เพียงเล็กน้อย บางทีประโยคหนึ่งอาจนำตัวอย่างที่กระชับกลับบ้านได้ แต่การเพิ่มมากเกินไปจะนำออกไปจากความเรียบง่าย
ndoogan

ฉันคิดว่านี่เป็นคำตอบที่ยอดเยี่ยม - มันแสดงให้เห็นถึงประเภทของการ overfitting ทั่วไปที่จำข้อมูลการฝึกอบรมโดยเฉพาะอย่างยิ่งกรณีทั่วไปเมื่อจำนวนข้อมูลการฝึกอบรมไม่เพียงพอที่จะทำให้พลังการแสดงออกของแบบจำลองลดลง
Ken Williams

14

อันนี้ทำขึ้น แต่ฉันหวังว่ามันจะแสดงให้เห็นถึงกรณี

ตัวอย่างที่ 1

k=100n=100

set.seed(123)
k <- 100
data <- replicate(k, rnorm(100))
colnames(data) <- make.names(1:k)
data <- as.data.frame(data)

ทีนี้มาลองถดถอยเชิงเส้นตรงกัน:

fit <- lm(X1 ~ ., data=data)

และนี่คือบทสรุปสำหรับผู้ทำนายสิบคนแรก:

> summary(fit)

Call:
lm(formula = X1 ~ ., data = data)

Residuals:
ALL 100 residuals are 0: no residual degrees of freedom!

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.502e-01         NA      NA       NA
X2           3.153e-02         NA      NA       NA
X3          -6.200e-01         NA      NA       NA
X4           7.087e-01         NA      NA       NA
X5           4.392e-01         NA      NA       NA
X6           2.979e-01         NA      NA       NA
X7          -9.092e-02         NA      NA       NA
X8          -5.783e-01         NA      NA       NA
X9           5.965e-01         NA      NA       NA
X10         -8.289e-01         NA      NA       NA
...
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 99 and 0 DF,  p-value: NA

ผลการค้นหาดูแปลก ๆ แต่ลองคิดดูสิ

ป้อนคำอธิบายรูปภาพที่นี่

X1X1

> sum(abs(data$X1-fitted(fit)))
[1] 0

มันเป็นศูนย์ดังนั้นแผนการก็ไม่ได้โกหกเรา: โมเดลพอดี และมันมีความแม่นยำในการจำแนกประเภทอย่างไร?

> sum(data$X1==fitted(fit))
[1] 100

X1

ตัวอย่างที่ 2

อีกหนึ่งตัวอย่าง ช่วยสร้างข้อมูลเพิ่มเติม:

data2 <- cbind(1:10, diag(10))
colnames(data2) <- make.names(1:11)
data2 <- as.data.frame(data2)

ดังนั้นดูเหมือนว่านี้:

   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
1   1  1  0  0  0  0  0  0  0   0   0
2   2  0  1  0  0  0  0  0  0   0   0
3   3  0  0  1  0  0  0  0  0   0   0
4   4  0  0  0  1  0  0  0  0   0   0
5   5  0  0  0  0  1  0  0  0   0   0
6   6  0  0  0  0  0  1  0  0   0   0
7   7  0  0  0  0  0  0  1  0   0   0
8   8  0  0  0  0  0  0  0  1   0   0
9   9  0  0  0  0  0  0  0  0   1   0
10 10  0  0  0  0  0  0  0  0   0   1

และตอนนี้ให้พอดีกับการถดถอยเชิงเส้นกับสิ่งนี้:

fit2 <- lm(X1~., data2)

ดังนั้นเราจึงได้รับการประมาณการต่อไปนี้:

> summary(fit2)

Call:
lm(formula = X1 ~ ., data = data2)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       10         NA      NA       NA
X2                -9         NA      NA       NA
X3                -8         NA      NA       NA
X4                -7         NA      NA       NA
X5                -6         NA      NA       NA
X6                -5         NA      NA       NA
X7                -4         NA      NA       NA
X8                -3         NA      NA       NA
X9                -2         NA      NA       NA
X10               -1         NA      NA       NA
X11               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA

R2=1X1

X1=10+X2×-9+X3×-8+X4×-7+X5×-6+X6×-5+X7×-4+X8×-3+X9×-2

X1=1

10+1×-9+0×-8+0×-7+0×-6+0×-5+0×-4+0×-3+0×-2

มันอธิบายได้ด้วยตนเอง คุณสามารถนึกถึงตัวอย่างที่ 1คล้ายกับตัวอย่างที่ 2แต่เพิ่ม "เสียง" บางอย่างเข้าด้วยกัน หากคุณมีข้อมูลมากพอและใช้เพื่อ "คาดการณ์" บางครั้งคุณสมบัติ "เดียว" อาจทำให้คุณเชื่อว่าคุณมี "รูปแบบ" ที่อธิบายตัวแปรตามได้ดีในขณะที่มันอาจเป็นเรื่องบังเอิญ ในตัวอย่างที่ 2ไม่มีการคาดการณ์ใด ๆ แต่สิ่งเดียวกันเกิดขึ้นในตัวอย่างที่ 1เพียงแค่ค่าของตัวแปรต่างกัน

ตัวอย่างชีวิตจริง

ตัวอย่างชีวิตจริงของสิ่งนี้คือการทำนายการโจมตีของผู้ก่อการร้ายเมื่อวันที่ 11 กันยายน 2544 โดยการดู "รูปแบบ" ในจำนวนที่สุ่มโดยคอมพิวเตอร์เครื่องสร้างตัวเลขปลอมโดยGlobal Consciousness Projectหรือ"ข้อความลับ" ใน "Moby Dick"ที่เปิดเผยข้อเท็จจริงเกี่ยวกับการลอบสังหารคนดัง (แรงบันดาลใจจากสิ่งที่คล้ายกันในคัมภีร์ไบเบิล )

ข้อสรุป

หากคุณดูหนักพอคุณจะพบ "รูปแบบ" เพื่ออะไร อย่างไรก็ตามรูปแบบเหล่านั้นจะไม่ยอมให้คุณเรียนรู้อะไรเกี่ยวกับจักรวาลและจะไม่ช่วยให้คุณได้ข้อสรุปทั่วไป พวกเขาจะพอดีกับข้อมูลของคุณอย่างสมบูรณ์ แต่จะไร้ประโยชน์เพราะพวกเขาจะไม่พอดีกับสิ่งอื่นแล้วตัวข้อมูล พวกเขาจะไม่ยอมให้คุณทำการคาดการณ์นอกกลุ่มตัวอย่างที่สมเหตุสมผลเพราะสิ่งที่พวกเขาจะทำคือพวกเขาจะเลียนแบบมากกว่าที่จะอธิบายข้อมูล


5
ฉันขอแนะนำให้วางตัวอย่างชีวิตจริงไว้ที่ด้านบนสุดของคำตอบนี้ นั่นคือส่วนที่เกี่ยวข้องกับคำถาม - ส่วนที่เหลือเป็นน้ำเกรวี่
shadowtalker

8

ปัญหาทั่วไปที่ส่งผลให้เกิดการ overfitting ในชีวิตจริงคือนอกเหนือจากข้อกำหนดสำหรับแบบจำลองที่ระบุอย่างถูกต้องแล้วเราอาจเพิ่มสิ่งที่ไม่เกี่ยวข้อง: พลังที่ไม่เกี่ยวข้อง (หรือการแปลงอื่น ๆ ) ของคำที่ถูกต้องตัวแปรที่ไม่เกี่ยวข้องหรือปฏิสัมพันธ์ที่ไม่เกี่ยวข้อง

นี้เกิดขึ้นในการถดถอยพหุคูณถ้าคุณเพิ่มตัวแปรที่ไม่ควรจะปรากฏในรูปแบบที่กำหนดไว้อย่างถูกต้อง แต่ไม่ต้องการที่จะลดลงเพราะคุณกลัวการกระตุ้นให้เกิดอคติตัวแปรละเว้น แน่นอนคุณไม่มีทางรู้ว่าคุณรวมมันผิดเนื่องจากคุณไม่สามารถมองเห็นประชากรทั้งหมดเพียงตัวอย่างของคุณดังนั้นจึงไม่สามารถทราบได้อย่างแน่นอนว่าข้อกำหนดที่ถูกต้องคืออะไร (เนื่องจาก @Scortchi ชี้ให้เห็นในความคิดเห็นอาจไม่มีสิ่งใดในแบบจำลอง "ถูกต้อง" - ในแง่นั้นจุดประสงค์ของการสร้างแบบจำลองคือการหาสเปคที่ "ดีพอ" เพื่อหลีกเลี่ยงการบรรจุมากเกินไปเกี่ยวข้องกับการหลีกเลี่ยงความซับซ้อนของโมเดล มากกว่าที่จะอยู่ได้จากข้อมูลที่มีอยู่) หากคุณต้องการตัวอย่างจริงของการ overfitting สิ่งนี้จะเกิดขึ้นทุกครั้งคุณโยนตัวทำนายที่เป็นไปได้ทั้งหมดลงในแบบจำลองการถดถอยหากจริง ๆ แล้วพวกมันไม่มีความสัมพันธ์กับการตอบสนองเมื่อผลกระทบของผู้อื่นถูกแบ่งออกเป็นส่วน ๆ

ด้วยการ overfitting ประเภทนี้ข่าวดีก็คือการรวมคำที่ไม่เกี่ยวข้องเหล่านี้ไม่ได้แนะนำความลำเอียงของตัวประมาณของคุณและในตัวอย่างที่มีขนาดใหญ่มากค่าสัมประสิทธิ์ของคำที่ไม่เกี่ยวข้องควรอยู่ใกล้กับศูนย์ แต่ก็มีข่าวร้าย: เนื่องจากข้อมูลที่ จำกัด จากตัวอย่างของคุณกำลังถูกใช้เพื่อประเมินพารามิเตอร์เพิ่มเติมมันสามารถทำได้โดยมีความแม่นยำน้อยกว่า - ดังนั้นข้อผิดพลาดมาตรฐานของคำที่เกี่ยวข้องจะเพิ่มขึ้นอย่างแท้จริง นั่นก็หมายความว่าพวกมันมีแนวโน้มที่จะอยู่ห่างจากค่าที่แท้จริงมากกว่าการประมาณการจากการถดถอยที่ระบุอย่างถูกต้องซึ่งหมายความว่าหากได้รับค่าใหม่ของตัวแปรอธิบายของคุณการคาดการณ์จากตัวแบบ overfitted จะมีความแม่นยำน้อยกว่า รูปแบบที่ระบุอย่างถูกต้อง

นี่คือพล็อตของ GDP ของบันทึกเทียบกับประชากรของบันทึกสำหรับ 50 รัฐของสหรัฐอเมริกาในปี 2010 ตัวอย่างแบบสุ่มจาก 10 รัฐถูกเลือก (เน้นด้วยสีแดง) และสำหรับตัวอย่างนั้นเราพอดีกับโมเดลเชิงเส้นอย่างง่ายและพหุนามของปริญญา 5 สำหรับตัวอย่าง คะแนนพหุนามมีองศาอิสระเพิ่มขึ้นที่ปล่อยให้ "ดิ้น" ใกล้กับข้อมูลที่สังเกตได้มากกว่าเส้นตรง แต่ 50 รัฐในภาพรวมเชื่อฟังความสัมพันธ์เชิงเส้นเกือบทั้งหมดดังนั้นประสิทธิภาพการทำนายของแบบจำลองพหุนามในจุด 40 ตัวอย่างนอกนั้นแย่มากเมื่อเทียบกับแบบจำลองที่มีความซับซ้อนน้อยกว่าโดยเฉพาะอย่างยิ่งเมื่อคาดการณ์ พหุนามมีความเหมาะสมอย่างมากกับโครงสร้างแบบสุ่ม (เสียง) ของตัวอย่างซึ่งไม่ได้พูดถึงประชากรที่กว้างขึ้น มันยากจนโดยเฉพาะอย่างยิ่งในการประมาณค่าเกินกว่าช่วงที่สังเกตได้ของตัวอย่างการแก้ไขคำตอบนี้)

การคาดการณ์จากแบบจำลองที่ซับซ้อนมากเกินไป

RYผม=2x1,ผม+5+εผมx2x3x1x2x3

require(MASS) #for multivariate normal simulation    
nsample <- 25   #sample to regress 
nholdout <- 1e6  #to check model predictions
Sigma <- matrix(c(1, 0.5, 0.4, 0.5, 1, 0.3, 0.4, 0.3, 1), nrow=3)
df <- as.data.frame(mvrnorm(n=(nsample+nholdout), mu=c(5,5,5), Sigma=Sigma))
colnames(df) <- c("x1", "x2", "x3")
df$y <- 5 + 2 * df$x1 + rnorm(n=nrow(df)) #y = 5 + *x1 + e

holdout.df <- df[1:nholdout,]
regress.df <- df[(nholdout+1):(nholdout+nsample),]

overfit.lm <- lm(y ~ x1*x2*x3, regress.df)
correctspec.lm <- lm(y ~ x1, regress.df)
summary(overfit.lm)
summary(correctspec.lm)

holdout.df$overfitPred <- predict.lm(overfit.lm, newdata=holdout.df)
holdout.df$correctSpecPred <- predict.lm(correctspec.lm, newdata=holdout.df)
with(holdout.df, sum((y - overfitPred)^2)) #SSE
with(holdout.df, sum((y - correctSpecPred)^2))

require(ggplot2)
errors.df <- data.frame(
    Model = rep(c("Overfitted", "Correctly specified"), each=nholdout),
    Error = with(holdout.df, c(y - overfitPred, y - correctSpecPred)))
ggplot(errors.df, aes(x=Error, color=Model)) + geom_density(size=1) +
    theme(legend.position="bottom")

นี่คือผลลัพธ์ของฉันจากการวิ่งครั้งเดียว แต่เป็นการดีที่สุดที่จะเรียกใช้การจำลองหลาย ๆ ครั้งเพื่อดูผลกระทบของตัวอย่างที่สร้างขึ้นที่แตกต่างกัน

>     summary(overfit.lm)

Call:
lm(formula = y ~ x1 * x2 * x3, data = regress.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.22294 -0.63142 -0.09491  0.51983  2.24193 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.85992   65.00775   0.290    0.775
x1          -2.40912   11.90433  -0.202    0.842
x2          -2.13777   12.48892  -0.171    0.866
x3          -1.13941   12.94670  -0.088    0.931
x1:x2        0.78280    2.25867   0.347    0.733
x1:x3        0.53616    2.30834   0.232    0.819
x2:x3        0.08019    2.49028   0.032    0.975
x1:x2:x3    -0.08584    0.43891  -0.196    0.847

Residual standard error: 1.101 on 17 degrees of freedom
Multiple R-squared: 0.8297,     Adjusted R-squared: 0.7596 
F-statistic: 11.84 on 7 and 17 DF,  p-value: 1.942e-05

x1R2

>     summary(correctspec.lm)

Call:
lm(formula = y ~ x1, data = regress.df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4951 -0.4112 -0.2000  0.7876  2.1706 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.7844     1.1272   4.244 0.000306 ***
x1            1.9974     0.2108   9.476 2.09e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.036 on 23 degrees of freedom
Multiple R-squared: 0.7961,     Adjusted R-squared: 0.7872 
F-statistic:  89.8 on 1 and 23 DF,  p-value: 2.089e-09

R2R2

>     with(holdout.df, sum((y - overfitPred)^2)) #SSE
[1] 1271557
>     with(holdout.df, sum((y - correctSpecPred)^2))
[1] 1052217

R2Y^Y(และมีองศาอิสระในการทำมากกว่ารุ่นที่ระบุอย่างถูกต้องจึงสามารถสร้างแบบที่ "ดีกว่า") ดูผลรวมของข้อผิดพลาด Squared สำหรับการคาดการณ์ในชุดของโฮลด์ซึ่งเราไม่ได้ใช้ในการประมาณค่าสัมประสิทธิ์การถดถอยจากและเราสามารถเห็นได้ว่าแบบจำลองที่มีการติดตั้งมากเกินไปนั้นเลวร้ายเพียงใด ในความเป็นจริงแบบจำลองที่ระบุอย่างถูกต้องเป็นสิ่งที่ทำให้การคาดการณ์ที่ดีที่สุด เราไม่ควรประเมินการคาดการณ์ประสิทธิภาพการทำนายจากผลลัพธ์ของชุดข้อมูลที่เราใช้ประเมินแบบจำลอง นี่คือพล็อตความหนาแน่นของข้อผิดพลาดโดยมีข้อกำหนดของโมเดลที่ถูกต้องทำให้เกิดข้อผิดพลาดเพิ่มเติมใกล้กับ 0:

ข้อผิดพลาดในการคาดการณ์ในชุดที่หยุดพัก

การจำลองแสดงให้เห็นถึงสถานการณ์ในชีวิตจริงที่เกี่ยวข้องอย่างชัดเจน (เพียงแค่จินตนาการถึงการตอบสนองในชีวิตจริงใด ๆ ซึ่งขึ้นอยู่กับตัวทำนายเดียวและจินตนาการรวมถึง "ตัวทำนาย" ภายนอกในแบบจำลอง) แต่มีประโยชน์ที่คุณสามารถเล่นกับกระบวนการสร้างข้อมูล ขนาดตัวอย่างลักษณะของโมเดลที่ติดตั้งเกินขนาดและอื่น ๆ นี่เป็นวิธีที่ดีที่สุดที่คุณสามารถตรวจสอบผลกระทบของการ overfitting เนื่องจากข้อมูลที่สังเกตได้โดยทั่วไปคุณไม่สามารถเข้าถึง DGP และยังคงเป็นข้อมูล "ของจริง" ในแง่ที่คุณสามารถตรวจสอบและใช้งานได้ นี่คือแนวคิดที่คุ้มค่าที่คุณควรทดสอบด้วย:

  • รันการจำลองหลาย ๆ ครั้งและดูว่าผลลัพธ์ต่างกันอย่างไร คุณจะพบความแปรปรวนมากขึ้นโดยใช้ตัวอย่างขนาดเล็กกว่าขนาดใหญ่
  • n <- 1e6x1
  • Sigmaลองลดความสัมพันธ์ระหว่างตัวแปรโดยการเล่นกับองค์ประกอบปิดเส้นทแยงมุมของเมทริกซ์ความแปรปรวนความแปรปรวน เพียงจำไว้ว่าให้มันเป็นกึ่งบวกแน่นอน (ซึ่งรวมถึงการสมมาตร) คุณควรค้นหาว่าคุณลดความหลากหลายทางสีหรือไม่ชุดรูปแบบที่ติดตั้งมากเกินไปจะทำงานได้ไม่ดีนัก แต่จำไว้ว่าตัวทำนายที่สัมพันธ์กันเกิดขึ้นในชีวิตจริง
  • ลองทำการทดสอบด้วยข้อมูลจำเพาะของรุ่นที่ติดตั้งมากเกินไป ถ้าคุณใส่คำพหุนาม
  • Ydf$y <- 5 + 2*df$x1 + rnorm(n=nrow(df))Yxผม
  • Yx2x3x1df$y <- 5 + 2 * df$x1 + 0.1*df$x2 + 0.1*df$x3 + rnorm(n=nrow(df))x2x3xx1x2x3nsample <- 25x1x2x3nsample <- 1e6มันสามารถประมาณเอฟเฟกต์ที่อ่อนแอลงได้ค่อนข้างดีและการจำลองแสดงแบบจำลองที่ซับซ้อนมีพลังการทำนายที่ดีกว่าแบบง่าย สิ่งนี้แสดงให้เห็นว่า "การ overfitting" เป็นปัญหาของทั้งความซับซ้อนของรูปแบบและข้อมูลที่มี

1
(-1) มันค่อนข้างสำคัญที่จะต้องเข้าใจว่าการกระชับเกินตัวนั้นไม่ได้เกิดจากการรวมคำว่า "ไม่เกี่ยวข้อง" หรือ "ภายนอก" ซึ่งจะไม่ปรากฏในรูปแบบที่ระบุอย่างถูกต้อง ในความเป็นจริงมันอาจจะเป็นที่ถกเถียงกันอยู่ว่าในหลาย ๆ แอปพลิเคชันความคิดเกี่ยวกับตัวแบบที่เรียบง่ายจริงๆนั้นไม่สมเหตุสมผลและความท้าทายในการสร้างแบบจำลองเชิงทำนายคือการสร้างแบบจำลองที่มีความซับซ้อนตามสัดส่วนของปริมาณข้อมูลที่มี
Scortchi

1
ฉันจะส่งรูปภาพของคุณไปยังสมาชิกสภาผู้แทนราษฎรของฉันเพื่อสนับสนุนการปฏิรูปการเข้าเมือง
ต้นแบบ

1
(+1) ฉันคิดว่าการแก้ไขปรับปรุงคำอธิบายของการกระชับเกินความเหมาะสมโดยไม่ต้องเสียสละความเข้าใจ
Scortchi

1
@ Aksakal ฉันพยายามที่จะตอบคำถาม: "ฉันต้องการความช่วยเหลือเกี่ยวกับวิธีที่จะเกิดขึ้นกับตัวอย่างของโลกแห่งความจริงที่นำไปใช้กับการ overfitting" มันชัดเจนว่าถ้า OP ถูกขอให้ค้นหาเอกสารที่ตีพิมพ์ซึ่งเกินความจริงหรือ - ความหมายตามธรรมชาติของ "มากับ" - เพื่อสร้างตัวอย่างของพวกเขาเอง ถ้าการ overfitting ไม่ดีแล้วทำไมในชีวิตจริงจะมีใคร overfit? คำตอบของฉันที่นักวิเคราะห์อาจต้องการที่จะผิดพลาดสำหรับแบบจำลองที่มีขนาดใหญ่เกินไปและไม่ได้ระบุ (เนื่องจากความกลัว OVB หรือความสงสัยความสัมพันธ์คือเส้นโค้ง) เป็นตัวอย่าง กราฟ / การจำลองแสดงผลที่ตามมาเพียงอย่างเดียว: การทำนายแบบไม่ดีตัวอย่าง
Silverfish

1
@ Aksakal มันไม่ชัดเจนสำหรับฉันว่าแบบจำลองพหุนามเป็น "ไม่จริง" สำหรับกราฟ คุณสมบัติที่โดดเด่นคือแบบเส้นตรง แต่เรารู้หรือไม่ว่ามันเป็นแบบเส้นตรงสมบูรณ์ ถ้าเราเข้าถึงหน่วยการเมืองล้านหน่วยและฉันต้องเดิมพันชีวิตของฉันด้วยวิธีใดฉันจะพนันว่าเราต้องการตรวจสอบความสัมพันธ์โค้งเล็กน้อยกว่าคำศัพท์พหุนามทั้งหมดจะไม่มีนัยสำคัญ อย่างไรก็ตามเรื่องนี้การปรับให้เหมาะสมกับ n ต่ำมีเพียงโมเดลเชิงเส้นเท่านั้นที่จะหลีกเลี่ยงการ overfitting (เราไม่สามารถแก้ปัญหานี้ได้เนื่องจากความยากลำบากในการสุ่มตัวอย่างจากประชากรที่ไม่มีเหตุผลในทางทฤษฎีของ "รัฐที่เป็นไปได้ของสหรัฐฯ" นี่เป็นข้อได้เปรียบของข้อมูลจำลอง!)
Silverfish

4

เมื่อฉันพยายามที่จะเข้าใจตัวเองฉันเริ่มคิดในแง่ของการเปรียบเทียบกับการอธิบายวัตถุจริงดังนั้นฉันคิดว่ามันเป็น "โลกแห่งความจริง" ที่คุณจะได้รับถ้าคุณต้องการที่จะเข้าใจความคิดทั่วไป:

สมมติว่าคุณต้องการอธิบายแนวคิดของเก้าอี้แก่ใครบางคนเพื่อให้พวกเขาได้แบบจำลองเชิงแนวคิดที่ช่วยให้พวกเขาทำนายว่าวัตถุใหม่ที่พวกเขาพบคือเก้าอี้หรือไม่ คุณไปที่ Ikea และรับเก้าอี้แล้วเริ่มอธิบายโดยใช้ตัวแปรสองตัว: มันเป็นวัตถุที่มี 4 ขาที่คุณสามารถนั่งได้ นั่นอาจอธิบายอุจจาระหรือเตียงหรือสิ่งอื่น ๆ มากมาย แบบจำลองของคุณกำลังอยู่ในระดับต่ำเช่นเดียวกับที่คุณลองและจำลองการกระจายที่ซับซ้อนที่มีตัวแปรน้อยเกินไป - สิ่งที่ไม่ใช่เก้าอี้จำนวนมากจะถูกระบุว่าเป็นเก้าอี้ ดังนั้นขอเพิ่มจำนวนของตัวแปรเพิ่มว่าวัตถุต้องมีหลังตัวอย่างเช่น ตอนนี้คุณมีแบบจำลองที่ยอมรับได้ซึ่งอธิบายชุดเก้าอี้ของคุณ แต่โดยทั่วไปเพียงพอที่จะอนุญาตให้ระบุวัตถุใหม่เป็นหนึ่ง แบบจำลองของคุณอธิบายข้อมูลและสามารถคาดการณ์ได้ อย่างไรก็ตามสมมติว่าคุณมีชุดที่เก้าอี้ทั้งหมดเป็นสีดำหรือสีขาวและทำจากไม้ คุณตัดสินใจที่จะรวมตัวแปรเหล่านั้นไว้ในแบบจำลองของคุณและทันใดนั้นมันก็ไม่ได้ระบุเก้าอี้พลาสติกสีเหลืองเป็นเก้าอี้ ดังนั้นคุณได้ติดตั้งแบบจำลองของคุณคุณได้รวมคุณสมบัติของชุดข้อมูลของคุณราวกับว่ามันเป็นคุณสมบัติของเก้าอี้ทั่วไป (ถ้าคุณต้องการคุณได้ระบุ "สัญญาณรบกวน" เป็น "สัญญาณ" โดยตีความการเปลี่ยนแปลงแบบสุ่มจากตัวอย่างของคุณเป็น คุณลักษณะของ "เก้าอี้ในโลกแห่งความเป็นจริง") ดังนั้นคุณสามารถเพิ่มตัวอย่างของคุณและหวังว่าจะรวมวัสดุและสีใหม่บางส่วนหรือลดจำนวนตัวแปรในแบบจำลองของคุณ ไม่ระบุเก้าอี้พลาสติกสีเหลืองเป็นเก้าอี้ ดังนั้นคุณได้ติดตั้งแบบจำลองของคุณคุณได้รวมคุณสมบัติของชุดข้อมูลของคุณราวกับว่ามันเป็นคุณสมบัติของเก้าอี้ทั่วไป (ถ้าคุณต้องการคุณได้ระบุ "สัญญาณรบกวน" เป็น "สัญญาณ" โดยตีความการเปลี่ยนแปลงแบบสุ่มจากตัวอย่างของคุณเป็น คุณลักษณะของ "เก้าอี้ในโลกแห่งความเป็นจริง") ดังนั้นคุณสามารถเพิ่มตัวอย่างของคุณและหวังว่าจะรวมวัสดุและสีใหม่บางส่วนหรือลดจำนวนตัวแปรในแบบจำลองของคุณ ไม่ระบุเก้าอี้พลาสติกสีเหลืองเป็นเก้าอี้ ดังนั้นคุณได้ติดตั้งแบบจำลองของคุณคุณได้รวมคุณสมบัติของชุดข้อมูลของคุณราวกับว่ามันเป็นคุณสมบัติของเก้าอี้ทั่วไป (ถ้าคุณต้องการคุณได้ระบุ "สัญญาณรบกวน" เป็น "สัญญาณ" โดยตีความการเปลี่ยนแปลงแบบสุ่มจากตัวอย่างของคุณเป็น คุณลักษณะของ "เก้าอี้ในโลกแห่งความเป็นจริง") ดังนั้นคุณสามารถเพิ่มตัวอย่างของคุณและหวังว่าจะรวมวัสดุและสีใหม่บางส่วนหรือลดจำนวนตัวแปรในแบบจำลองของคุณ

นี่อาจเป็นการเปรียบเทียบแบบง่ายๆและการแยกย่อยภายใต้การตรวจสอบเพิ่มเติม แต่ฉันคิดว่ามันเป็นแนวความคิดทั่วไป ... แจ้งให้เราทราบหากบางส่วนต้องการการชี้แจง


คุณช่วยอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับแนวคิดเรื่อง "สัญญาณรบกวน" และ "สัญญาณ" ได้อย่างไรและความจริงที่ว่ารุ่นที่ติดตั้งมากเกินไปอธิบายถึงเสียงรบกวนทำให้ฉันมีปัญหาในการทำความเข้าใจสิ่งนี้
quirik

4

ในการสร้างแบบจำลองการคาดการณ์ความคิดคือการใช้ข้อมูลในมือเพื่อค้นหาแนวโน้มที่มีอยู่และสามารถนำไปใช้กับข้อมูลในอนาคต โดยการรวมตัวแปรในแบบจำลองของคุณที่มีผลกระทบเล็กน้อยที่ไม่สำคัญคุณจะละทิ้งแนวคิดนี้ สิ่งที่คุณกำลังทำคือการพิจารณาแนวโน้มเฉพาะในตัวอย่างเฉพาะของคุณที่มีเพียงเพราะเสียงแบบสุ่มแทนแนวโน้มที่แท้จริงและเป็นพื้นฐาน กล่าวอีกนัยหนึ่งแบบจำลองที่มีตัวแปรมากเกินไปเหมาะสมกับเสียงรบกวนมากกว่าการค้นหาสัญญาณ

นี่เป็นภาพประกอบที่พูดเกินจริงในสิ่งที่ฉันพูดถึง นี่คือจุดข้อมูลการสังเกตและสายเป็นแบบจำลองของเรา ลองดูที่แบบที่สมบูรณ์แบบ - ช่างยอดเยี่ยม! แต่เราค้นพบแนวโน้มจริงๆหรือเพียงแค่ปรับให้เข้ากับเสียง น่าจะเป็นหลัง

ป้อนคำอธิบายรูปภาพที่นี่


4

รูปแบบของการ overfitting ค่อนข้างธรรมดาในกีฬาคือการระบุรูปแบบเพื่ออธิบายผลลัพธ์ที่ผ่านมาโดยปัจจัยที่ไม่มีอำนาจที่คลุมเครือหรือไม่ดีที่สุดในการทำนายผลในอนาคต คุณลักษณะทั่วไปของ "รูปแบบ" เหล่านี้คือพวกเขามักจะใช้กรณีน้อยมากดังนั้นโอกาสที่บริสุทธิ์น่าจะเป็นคำอธิบายที่น่าเชื่อถือที่สุดสำหรับรูปแบบนี้

ตัวอย่างรวมถึงสิ่งต่าง ๆ เช่น ("คำพูด" ถูกสร้างขึ้นโดยฉัน แต่มักจะมีลักษณะคล้ายกัน)

ทีม A ชนะเกม X ทั้งหมดตั้งแต่โค้ชได้เริ่มสวมเสื้อแจ๊คเก็ตสีแดงของเขา

ที่คล้ายกัน:

เราจะไม่โกนตัวเองในช่วงรอบตัดเชือกเพราะนั่นช่วยให้เราชนะเกม X ที่ผ่านมา

ไสยศาสตร์น้อยลง แต่เป็นรูปแบบของการ overfitting เช่นกัน:

Borussia Dortmund ไม่เคยแพ้เกมในบ้าน Champions League ให้กับคู่ต่อสู้ชาวสเปนเมื่อพวกเขาแพ้ในเกมบุนเดสลีกาก่อนหน้านี้มากกว่าสองประตูโดยทำคะแนนได้อย่างน้อยหนึ่งครั้ง

ที่คล้ายกัน:

Roger Federer ชนะการแข่งขันถ้วยเดวิสคัพกับคู่ต่อสู้ชาวยุโรปอย่างน้อยที่สุดเมื่อเขาผ่านรอบรองชนะเลิศในรายการ Australian Open ในปีนั้น

สองคนแรกนั้นเป็นเรื่องไร้สาระที่ค่อนข้างชัดเจน (อย่างน้อยสำหรับฉัน) ตัวอย่างสองตัวอย่างสุดท้ายอาจเก็บตัวอย่างได้อย่างสมบูรณ์แบบ (เช่นในอดีต) แต่ฉันก็ยินดีที่จะเดิมพันกับคู่ต่อสู้ที่จะปล่อยให้ "ข้อมูล" นี้ส่งผลกระทบต่ออัตราต่อรองของเขาสำหรับดอร์ทมุนด์ชนะมาดริดหากพวกเขาแพ้ 4: 1 ที่ชาลเกเมื่อวันเสาร์ที่ผ่านมาหรือเฟเดอเรอร์ชนะ Djokovic แม้ว่าเขาจะชนะออสเตรเลียนโอเพในปีนั้นก็ตาม


3

นี่คือตัวอย่าง "โลกแห่งความจริง" ไม่ได้อยู่ในแง่ที่ว่ามีใครบางคนได้ค้นพบมันในการวิจัย แต่ในแง่ที่ว่ามันใช้แนวคิดในชีวิตประจำวันโดยไม่มีเงื่อนไขเฉพาะทางสถิติจำนวนมาก บางทีวิธีนี้ในการบอกว่าจะมีประโยชน์มากกว่าสำหรับบางคนที่มีการฝึกอบรมในสาขาอื่น

ลองนึกภาพว่าคุณมีฐานข้อมูลที่มีข้อมูลเกี่ยวกับผู้ป่วยที่เป็นโรคหายาก คุณเป็นนักศึกษาแพทย์บัณฑิตและต้องการดูว่าคุณสามารถรับรู้ปัจจัยเสี่ยงของโรคนี้หรือไม่ ในโรงพยาบาลแห่งนี้มีผู้ป่วยโรคนี้ถึง 8 รายและคุณได้บันทึกข้อมูลเกี่ยวกับพวกเขา 100 ชิ้น: อายุเชื้อชาติลำดับการเกิดพวกเขาเคยเป็นโรคหัดมาตั้งแต่เด็ก คุณได้บันทึกข้อมูลสำหรับผู้ป่วย 8 รายที่ไม่มีโรคนี้

คุณตัดสินใจใช้ฮิวริสติกต่อไปนี้สำหรับปัจจัยเสี่ยง: หากปัจจัยใช้ค่าที่กำหนดในผู้ป่วยที่เป็นโรคมากกว่าหนึ่งราย แต่ใน 0 ของการควบคุมของคุณคุณจะพิจารณาว่าเป็นปัจจัยเสี่ยง (ในชีวิตจริงคุณจะใช้วิธีที่ดีกว่า แต่ฉันต้องการทำให้มันง่าย) คุณพบว่าผู้ป่วย 6 คนของคุณเป็นมังสวิรัติ (แต่ไม่มีการควบคุมใดที่เป็นมังสวิรัติ) 3 คนมีบรรพบุรุษชาวสวีเดนและอีกสองคนมีอาการพูดติดอ่าง จากปัจจัยอื่น ๆ อีก 97 ปัจจัยไม่มีอะไรเกิดขึ้นกับผู้ป่วยมากกว่าหนึ่งราย แต่ไม่ปรากฏในกลุ่มควบคุม

หลายปีต่อมามีคนอื่นสนใจโรคกำพร้านี้และทำซ้ำงานวิจัยของคุณ เนื่องจากเขาทำงานในโรงพยาบาลขนาดใหญ่ซึ่งมีความร่วมมือในการแบ่งปันข้อมูลกับโรงพยาบาลอื่นเขาจึงสามารถใช้ข้อมูลได้ประมาณ 106 รายเมื่อเทียบกับ 8 รายของคุณ และเขาพบว่าความชุกของการพูดติดอ่างเหมือนกันในกลุ่มผู้ป่วยและกลุ่มควบคุม การพูดติดอ่างไม่ได้เป็นปัจจัยเสี่ยง

สิ่งที่เกิดขึ้นที่นี่คือกลุ่มเล็ก ๆ ของคุณมีผู้พูดติดอ่าง 25% โดยบังเอิญ ฮิวริสติกของคุณไม่มีทางรู้ว่าเรื่องนี้เกี่ยวข้องกับทางการแพทย์หรือไม่ คุณให้เกณฑ์ในการตัดสินใจเมื่อคุณพิจารณารูปแบบในข้อมูล "น่าสนใจ" มากพอที่จะรวมไว้ในโมเดลและตามเกณฑ์เหล่านี้การพูดติดอ่างนั้นน่าสนใจพอ

โมเดลของคุณมีการติดตั้งมากเกินไปเนื่องจากมีการรวมพารามิเตอร์ที่ไม่เกี่ยวข้องในโลกแห่งความจริง มันเหมาะกับตัวอย่างของคุณ - ผู้ป่วย 8 คน + 8 การควบคุม - ดีมาก แต่มันไม่เหมาะกับข้อมูลโลกแห่งความจริง เมื่อแบบจำลองอธิบายตัวอย่างของคุณได้ดีกว่าแบบที่อธิบายความเป็นจริงก็จะเรียกว่าแบบจำลองมากเกินไป

หากคุณเลือกผู้ป่วยที่มีคุณสมบัติ 3 ใน 8 รายมันจะไม่เกิดขึ้น - แต่คุณมีโอกาสสูงที่จะพลาดบางสิ่งที่น่าสนใจจริง ๆ โดยเฉพาะอย่างยิ่งในทางการแพทย์ที่มีโรคจำนวนมากเกิดขึ้นในคนเพียงไม่กี่คนที่แสดงให้เห็นถึงปัจจัยเสี่ยงนั่นเป็นเรื่องยากที่จะทำ และมีวิธีที่จะหลีกเลี่ยงได้ (โดยทั่วไปให้เปรียบเทียบกับตัวอย่างที่สองและดูว่าพลังการอธิบายยังคงเหมือนเดิมหรือลดลง) แต่นี่เป็นหัวข้อสำหรับคำถามอื่น


ชวนให้นึกถึงxkcd.com/882
Floris

3

นี่เป็นตัวอย่างในชีวิตจริงของการ overfitting ที่ฉันช่วยทำให้เป็นโมฆะแล้วพยายาม (ไม่สำเร็จ) เพื่อหลีกเลี่ยง:

ฉันมีอนุกรมเวลาที่แยกอิสระหลายพันชุดแต่ละชุดมีจุดข้อมูลไม่เกิน 50 จุดและโครงการสร้างแบบจำลองเกี่ยวข้องกับการปรับเวกเตอร์อัตโนมัติ (VAR) ให้เหมาะกับแต่ละรายการ ไม่มีความพยายามที่จะทำให้เป็นปกติในการสังเกตประเมินองค์ประกอบความแปรปรวนหรืออะไรอย่างนั้น คะแนนเวลาถูกวัดตลอดระยะเวลาหนึ่งปีดังนั้นข้อมูลจึงขึ้นอยู่กับผลของฤดูกาลและวัฏจักรทุกชนิดที่ปรากฏเพียงครั้งเดียวในแต่ละช่วงเวลา

ชุดย่อยของข้อมูลหนึ่งชุดแสดงอัตราการเกิดของ Granger สูงอย่างไม่น่าเชื่อเมื่อเปรียบเทียบกับส่วนที่เหลือของข้อมูล การตรวจสอบสปอตเผยว่าเดือยบวกเกิดขึ้นหนึ่งหรือสองหนามแยกออกจากกันในเซตย่อยนี้ แต่มันชัดเจนจากบริบทที่ว่าสไปค์ทั้งสองเกิดจากแหล่งภายนอกโดยตรงและสไปค์หนึ่งไม่ทำให้เกิดอีก การคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่างโดยใช้แบบจำลองนี้อาจจะค่อนข้างผิดพลาดเพราะโมเดลนั้นมีการติดตั้งมากเกินไป: แทนที่จะ "ปรับให้แหลม" ออกไปโดยการเฉลี่ยพวกมันลงในส่วนที่เหลือของข้อมูล การประมาณการ

โดยรวมแล้วฉันไม่คิดว่าโครงการดำเนินไปอย่างไม่ดี แต่ฉันไม่คิดว่าจะให้ผลลัพธ์ที่ใกล้เคียงกับที่เป็นประโยชน์เท่าที่ควร ส่วนหนึ่งของเหตุผลสำหรับเรื่องนี้ก็คือกระบวนการขั้นตอนอิสระหลาย VARs แม้จะมีเพียงหนึ่งหรือสองล่าช้าก็มีช่วงเวลาที่ยากลำบากในการแยกแยะข้อมูลและเสียงออกมา อดีต.


1

คนที่มีความคิดสร้างสรรค์จำนวนมากในหัวข้อนี้ --- มีประสบการณ์มากกว่าในด้านสถิติมากกว่าฉัน แต่ฉันก็ยังไม่เห็นตัวอย่างที่เข้าใจง่ายของคนทั่วไป ตัวอย่างของประธานาธิบดีไม่ได้กระทบต่อการเรียกเก็บเงินในแง่ของการ overfitting ทั่วไปเพราะในขณะที่มัน overfitting ในทางเทคนิคในการเรียกร้องป่าของแต่ละคนมักจะเป็นแบบ overfitting overfits - ทั้งหมด - เสียงที่กำหนดไม่เพียงองค์ประกอบหนึ่งของมัน

ฉันชอบแผนภูมิในคำอธิบายการแลกเปลี่ยนอคติแบบอคติในวิกิพีเดีย: http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

(แผนภูมิที่อยู่ด้านล่างสุดเป็นตัวอย่างของ overfitting)

ฉันกดยากที่จะคิดว่าเป็นตัวอย่างของโลกแห่งความจริงที่ไม่ได้ดูเหมือน mumbo-jumbo ที่สมบูรณ์ แนวคิดก็คือข้อมูลนั้นเป็นส่วนหนึ่งที่เกิดจากตัวแปรที่วัดได้และสามารถเข้าใจได้นั่นคือเสียงรบกวนแบบสุ่ม การพยายามทำแบบจำลองเสียงนี้เป็นรูปแบบจะทำให้คุณไม่ถูกต้อง

ตัวอย่างคลาสสิกคือการสร้างแบบจำลองตาม SOLELY บน R ^ 2 ใน MS Excel (คุณพยายามที่จะใส่สมการ / ตัวอักษรให้ใกล้เคียงที่สุดกับข้อมูลโดยใช้พหุนามไม่ว่าจะไร้สาระ)

สมมติว่าคุณกำลังพยายามสร้างแบบจำลองการขายไอศกรีมเป็นอุณหภูมิ คุณมีข้อมูล "โลกแห่งความจริง" คุณพล็อตข้อมูลและพยายามเพิ่ม R ^ 2 ให้สูงสุด คุณจะพบว่าใช้ข้อมูลในโลกแห่งความจริงสมการที่ใกล้เคียงที่สุดไม่ใช่แบบเชิงเส้นหรือสมการกำลังสอง เช่นเดียวกับสมการเกือบทุกคำศัพท์พหุนามที่คุณเพิ่มให้มากขึ้น (x ^ 6 -2x ^ 5 + 3x ^ 4 + 30x ^ 3-43.2x ^ 2-29x) - ยิ่งเข้าใกล้พอดีกับข้อมูลมากขึ้นเท่านั้น ดังนั้นวิธีการที่เกี่ยวข้องกับอุณหภูมิที่เหมาะสมกับการขายไอศกรีม? คุณจะอธิบายว่าพหุนามไร้สาระนั้นได้อย่างไร ความจริงคือมันไม่ใช่โมเดลที่แท้จริง คุณมีข้อมูลมากเกินไป

คุณกำลังทำเสียงดัง - ซึ่งอาจเกิดจากการส่งเสริมการขายหรือตัวแปรอื่น ๆ หรือ "เสียง" เช่นผีเสื้อที่กระพือปีกอยู่ในจักรวาล (สิ่งที่ไม่สามารถคาดเดาได้) --- และพยายามทำตัวแบบตามอุณหภูมิ ตอนนี้โดยปกติแล้วถ้าเสียงรบกวน / ข้อผิดพลาดของคุณไม่ได้เฉลี่ยเป็นศูนย์หรือมีความสัมพันธ์โดยอัตโนมัติ ฯลฯ ก็หมายความว่ามีตัวแปรเพิ่มเติมอยู่ที่นั่น --- แล้วในที่สุดคุณก็จะได้เสียงรบกวนกระจายแบบสุ่ม แต่ก็ยังดีที่สุดที่ฉันสามารถทำได้ อธิบายมัน.


2
'โมเดล' ในภายหลังในการ์ตูนของประธานาธิบดีทำเสียงทุกอย่างที่ให้
Ben Voigt

การ์ตูนไม่ได้เป็นเรื่องที่ขัดแย้งกับสถานการณ์ส่วนใหญ่ในความคิดของฉันแม้ว่ากฎที่ไร้สาระจะทำนายประธานาธิบดีทุกคนในอดีตได้อย่างแม่นยำ การคาดการณ์ส่วนใหญ่ไม่ได้คาดการณ์ตัวแปรแบบแบ่งขั้ว นอกจากนี้ยังกล่าวถึงกฎอย่างตลกขบขันที่จะถูกทำลายในการเลือกตั้งครั้งต่อไป - กล่าวอีกนัยหนึ่งรูปแบบที่เกินพอดีเป็นสิ่งที่ผิดตลอดเวลาทำให้เป็นตัวทำนายอนาคตที่สมบูรณ์แบบ แบบจำลองที่เหมาะสมส่วนใหญ่ไม่ได้ขึ้นอยู่กับตัวแปรที่ผิดพลาด 1 ตัวที่สามารถทดสอบได้ว่าเป็นสิ่งภายนอก - โดยทั่วไปจะขึ้นอยู่กับตัวแปรมากเกินไปในแบบจำลองซึ่งทั้งหมดโยนทิ้งไปเพื่อลด R ^ 2
John Babson

0

วิธีการปรับให้เหมาะสมส่วนใหญ่มีปัจจัยเหลวไหลหรือที่รู้จักกันในหลายพารามิเตอร์ ตัวอย่างจริง:

ยังไม่มีข้อความม.ผมn=5,  ผมn=1.1,  dอี=0.5,  αsเสื้อaRเสื้อ=0.1,  α=0.99

นี่คือในช่วงที่เหมาะสมหรือเพียงเหมาะสมกับชุดใดชุดหนึ่งของปัญหา?



0

สิ่งที่ฉันชอบคือ“ สูตร 3964” ที่ค้นพบก่อนการแข่งขันฟุตบอลโลกในปี 1998:

บราซิลชนะการแข่งขันในปี 1970 และ 1994 สรุปตัวเลขทั้งสองนี้แล้วคุณจะได้ 3964; เยอรมนีชนะในปี 2517 และ 2533 เพิ่มอีก 3964; สิ่งเดียวกันกับอาร์เจนตินาที่ชนะในปี 1978 และ 1986 (1978 + 1986 = 3964)

นี่เป็นข้อเท็จจริงที่น่าประหลาดใจมาก แต่ทุกคนเห็นว่าไม่แนะนำให้ใช้การคาดการณ์ในอนาคตเกี่ยวกับกฎนั้น และแน่นอนว่ากฎให้ว่าผู้ชนะการแข่งขันฟุตบอลโลกในปี 1998 ควรจะเป็นอังกฤษตั้งแต่ปี 1966 + 1998 = 3964 และอังกฤษชนะในปี 1966 สิ่งนี้ไม่ได้เกิดขึ้นและผู้ชนะคือฝรั่งเศส


-2

ใช้งานง่าย แต่อาจจะช่วยได้ สมมติว่าคุณต้องการเรียนรู้ภาษาใหม่ คุณเรียนรู้ได้อย่างไร แทนที่จะเรียนรู้กฎในหลักสูตรคุณใช้ตัวอย่าง รายการทีวีโดยเฉพาะ ดังนั้นคุณชอบรายการอาชญากรรมและคุณดูรายการตำรวจสองสามชุด จากนั้นคุณแสดงรายการอาชญากรรมอีกชุดและดูแบบฟอร์มชุดหนึ่ง ในรายการที่สามคุณเห็น - คุณรู้เกือบทุกอย่างไม่มีปัญหา คุณไม่ต้องการคำบรรยายภาษาอังกฤษ

แต่จากนั้นคุณลองใช้ภาษาที่เรียนรู้ใหม่ของคุณบนถนนในครั้งต่อไปและคุณรู้ว่าคุณไม่สามารถพูดอะไรได้นอกจากพูดว่า "เจ้าหน้าที่! ชายคนนั้นหยิบกระเป๋าของฉันแล้วยิงผู้หญิงคนนั้น!" ในขณะที่ 'ข้อผิดพลาดในการฝึกอบรม' ของคุณเป็นศูนย์ แต่ 'ข้อผิดพลาดในการทดสอบ' ของคุณนั้นสูงเนื่องจาก 'overfitting' ภาษาเรียนเพียงส่วนย่อยของคำที่ จำกัด และถือว่าเพียงพอ


8
นั่นไม่ได้เป็นเรื่องมากเกินไป แต่เป็นเพียงการเรียนรู้ภาษาย่อย ๆ การใช้ความผิดปกติมากเกินไปจะเกิดขึ้นหากหลังจากดูอาชญากรรมแล้วคุณจะได้เรียนรู้ภาษาทั้งหมด แต่แปลก ๆ ที่เกิดขึ้นพร้อมกับภาษาอังกฤษในทุกหัวข้อที่เกี่ยวข้องกับอาชญากรรม แต่เป็นภาษาพูดไร้สาระทั้งหมด
อะมีบา
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.