Bayesian vs MLE, ปัญหากำลังเกิดขึ้น

ในหนังสือ PRML ของบิชอปเขากล่าวว่าการให้ข้อมูลมากเกินไปเป็นปัญหากับการประมาณความน่าจะเป็นสูงสุด (MLE) และ Bayesian สามารถหลีกเลี่ยงได้

แต่ฉันคิดว่าการ overfitting เป็นปัญหาเพิ่มเติมเกี่ยวกับการเลือกแบบจำลองไม่ใช่วิธีการที่ใช้ในการประมาณค่าพารามิเตอร์ นั่นคือสมมติว่าฉันมีชุดข้อมูลซึ่งสร้างขึ้นผ่านตอนนี้ฉันอาจเลือกรุ่นที่แตกต่างเพื่อให้พอดีกับข้อมูลและค้นหา อันไหนดีที่สุด และโมเดลที่อยู่ในการพิจารณาคือพหุนามที่มีคำสั่งต่างกันคือคำสั่ง 1,คือคำสั่ง 2,คือคำสั่ง 9 $D$

f (x) = s i n (x), x \in [0, 1]

$f(x)=sin(x),\;x\in[0,1]$

H_{i}

$H_i$

H_{1}

$H_1$

H_{2}

$H_2$

H_{3}

$H_3$

ตอนนี้ผมพยายามที่จะพอดีกับข้อมูลด้วยกัน 3 รุ่นแต่ละรุ่นมีพารามิเตอร์ของตนแสดงเป็นสำหรับH_i $D$ $w_i$ $H_i$

ใช้ ML ผมจะมีการประมาณการจุดพารามิเตอร์แบบและง่ายเกินไปและจะเสมอ underfit ข้อมูลในขณะที่ซับซ้อนเกินไปและจะ overfit ข้อมูลเพียงจะพอดีกับข้อมูลที่ดี $w$ $H_1$ $H_3$ $H_2$

คำถามของฉันคือ

1) รุ่นจะทำให้ข้อมูลเหมาะสม แต่ฉันไม่คิดว่ามันเป็นปัญหาของ ML แต่เป็นปัญหาของรุ่นต่อ se เนื่องจากการใช้ ML สำหรับจึงไม่ส่งผลให้เกิดการโอเวอร์โหลด ฉันถูกไหม? $H_3$ $H_1,H_2$

2) เมื่อเปรียบเทียบกับ Bayesian แล้ว ML จะมีข้อเสียเนื่องจากมันเพิ่งจะให้ค่าประมาณของพารามิเตอร์แบบจำลองและมันเกินความจริง ในขณะที่ Bayesian ไม่ได้พึ่งเพียงค่าที่เป็นไปได้มากที่สุดของพารามิเตอร์ แต่ค่าที่เป็นไปได้ทั้งหมดของพารามิเตอร์ที่กำหนดจากข้อมูลที่สังเกตใช่ไหม? $w$ $D$

3) เหตุใด Bayesian จึงสามารถหลีกเลี่ยงหรือลดการบรรจุเกินได้? เมื่อฉันเข้าใจแล้วเราสามารถใช้ Bayesian สำหรับการเปรียบเทียบแบบจำลองนั่นคือจากข้อมูลเราสามารถค้นหาโอกาสสุดท้าย (หรือหลักฐานแบบจำลอง)สำหรับแต่ละแบบจำลองภายใต้การพิจารณาแล้วเลือกแบบที่มีความเป็นไปได้สูงที่สุดใช่ไหม ? ถ้าเป็นเช่นนั้นทำไม $D$

bayesian model-selection overfitting

— อาโวคาโด
แหล่งที่มา

คำตอบ:

การเพิ่มประสิทธิภาพเป็นรากฐานของความชั่วร้ายทั้งหมดในสถิติ ทุกครั้งที่คุณเลือกตัวเลือกเกี่ยวกับแบบจำลองของคุณโดยการเพิ่มประสิทธิภาพเกณฑ์ที่เหมาะสมซึ่งประเมินบนตัวอย่างที่ จำกัด ของข้อมูลที่คุณเสี่ยงต่อการปรับตัวให้เข้ากับเกณฑ์ที่เหมาะสมมากเกินไปเช่นลดสถิติเกินจุดที่ได้รับการปรับปรุงประสิทธิภาพ ได้มาจากการหาประโยชน์จากลักษณะเฉพาะของตัวอย่างข้อมูลเช่นเสียงรบกวน) เหตุผลที่วิธีการแบบเบย์ทำงานได้ดีกว่าคือคุณไม่ปรับสิ่งใดให้เหมาะสม ปัญหานั้นอยู่ในการเลือกความเชื่อก่อนหน้าเกี่ยวกับแบบจำลองดังนั้นปัญหาหนึ่งได้หายไป แต่อีกปัญหาหนึ่งปรากฏขึ้นแทนที่ $^1$

$^1$ ซึ่งรวมถึงการเพิ่มหลักฐาน (ความเป็นไปได้เล็กน้อย) ในการตั้งค่าแบบเบย์ สำหรับตัวอย่างนี้ดูผลลัพธ์ของตัวแยกประเภท Gaussian Process ในกระดาษของฉันซึ่งการเพิ่มความน่าจะเป็นที่ขอบทำให้รูปแบบแย่ลงถ้าคุณมีพารามิเตอร์หลายตัวมากเกินไป - พารามิเตอร์เป็นผลมาจากรูปแบบของการปรับตัวมากเกินไปนี้)

GC Cawley และ NLC Talbot, การเลือกรุ่นที่มากเกินไปและความลำเอียงในการเลือกการประเมินผลการปฏิบัติงาน, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, การวิจัย 2010, บทที่ 11, pp. 2079-2107, กรกฎาคม 2010 ( pdf )

— Dikran Marsupial
แหล่งที่มา

+1 ขอบคุณมากฉันจะอ่านกระดาษของคุณและดูว่าฉันมีคำถามเพิ่มเติมใด ๆ ;-)

— อะโวคาโด

เพื่อทราบว่าการเพิ่มประสิทธิภาพมักจะคิดว่าเป็นการรวมกันโดยประมาณ - วิธี Laplace เป็นตัวอย่างของสิ่งนี้ การปรับให้เหมาะสมมักจะล้มเหลวเมื่อไม่ได้เป็นการประมาณที่ดีในการรวมระบบ - ดังนั้นทำไม REML จึงดีกว่า ML

— ความน่าจะเป็นทางการ

@probabilityislogic ฉันไม่แน่ใจว่าฉันเข้าใจ ML เป็นบิตเช่น MAP ไม่มีการรวมที่ดำเนินการ การใช้การประมาณ Laplace (ในแบบที่ฉันเห็นมันใช้) คือการปรับให้เหมาะสมในแง่ที่ว่าคุณปรับการประมาณให้เหมาะสมกับฟังก์ชันที่คุณต้องการรวมและรวมเข้าด้วยกันแทน แต่ยังคงมีการรวมที่เกิดขึ้น

— Dikran Marsupial

@dikran marsupial - บางทีวิธีที่ดีกว่าในการอธิบายก็คือการรวมกันนั้นมักจะประมาณได้ดีโดยการประมาณค่าพารามิเตอร์ด้วย ML และบังคับให้พารามิเตอร์นั้นเท่ากับ MLE ของมัน การประมาณ Laplace ให้ "ปัจจัยการแก้ไข" กับสัญชาตญาณนี้ - ในลักษณะเดียวกับที่ REML ทำ

— ความน่าจะเป็นทางการ

@probabilityislogic ขอบคุณสำหรับการตอบกลับฉันจะให้ความคิด!

— Dikran Marsupial

ตามการตอบกลับทั่วไปหากคุณใช้โมเดลการถดถอยแบบ "น้อยกำลังสอง" จริงๆแล้วมันไม่ได้แตกต่างกันมากนักระหว่างเบย์กับ ML ยกเว้นว่าคุณใช้ข้อมูลก่อนพารามิเตอร์การถดถอย ในการตอบสนองต่อเฉพาะ:

1)อาจไม่เหมาะสมกับข้อมูลมากเกินไป - เฉพาะเมื่อคุณมีการสังเกตเกือบ 9 ครั้ง หากคุณมีการสังเกต 100 ครั้งค่าสัมประสิทธิ์ "เกินพิกัด" ที่คาดคะเนส่วนใหญ่จะใกล้เคียงกับศูนย์ นอกจากนี้จะส่งผลให้เกิด "underfitting" เกือบทุกครั้งเนื่องจากจะมีความโค้งที่ชัดเจนที่ไม่ได้รับ $H_9$ $H_1$

2) นี่ไม่เป็นความจริงสำหรับ "เชิงเส้น" เช่นการขยายพหุนาม ("เชิงเส้น" หมายถึงเส้นตรงที่เกี่ยวกับพารามิเตอร์ไม่ใช่ ) การประมาณ ML สำหรับสี่เหลี่ยมอย่างน้อยจะเหมือนกับวิธีหลังที่อยู่ภายใต้การให้ข้อมูลแบบไม่ใช้ข้อมูลหรือขนาดตัวอย่างที่มีขนาดใหญ่ ในความเป็นจริงคุณสามารถแสดงให้เห็นว่าการประเมิน ML สามารถคิดได้ว่าเป็น "ซีมโทติค" หลังหมายถึงภายใต้ความหลากหลายของรูปแบบ $x$

3) วิธีการแบบเบย์สามารถหลีกเลี่ยงการ overfitting สำหรับนักบวชที่เหมาะสมเท่านั้น สิ่งนี้ทำงานในลักษณะเดียวกันกับเงื่อนไขการลงโทษที่คุณเห็นในอัลกอริธึมที่เหมาะสม ตัวอย่างเช่นการลงโทษ L2 = ปกติก่อนหน้านี้การลงโทษ L1 = laplace ก่อน

— probabilityislogic
แหล่งที่มา

upvoted และคุณพูดถูกว่ามีข้อสังเกตมากมายอยู่ในมือจะไม่เหมาะเกินไป แต่ฉันถูกต้องกับข้ออ้างที่ว่าoverfitting เป็นปัญหาในการเลือกแบบจำลองที่ผิดไม่ใช่ ML ต่อ se ? และเราสามารถใช้ Bayesian ในการเลือกแบบจำลอง แต่เราไม่สามารถทำเช่นนั้นกับ ML ได้หรือไม่

H_{9}

$H_9$

— อะโวคาโด

แน่นอนตัวเลือกทั้งหมดของ H ที่นี่จะเป็นรูปแบบที่ไม่ถูกต้องอื่น ๆ กว่าH_ปัญหาคือข้อผิดพลาดในการประมาณค่าพารามิเตอร์ของตัวแบบซึ่งมีทั้งอคติและส่วนประกอบความแปรปรวน หากคุณเลือกรูปแบบโดยใช้เกณฑ์แบบเบย์คุณยังสามารถปรับให้เหมาะสมได้เช่นกัน (ฉันจะเพิ่มการอ้างอิงเพื่อสนับสนุนสิ่งนั้นในคำตอบของฉัน)

H_{\infty}

$H_\infty$

— Dikran Marsupial

@loganecolss - ฉันคิดว่าที่นี่จะใกล้เคียงกับความจริงมากกว่าคนอื่น ๆ การ overfitting นั้นเชื่อมโยงอย่างใกล้ชิดกับขนาดตัวอย่างและประเภทของแบบจำลองโครงสร้างที่สามารถให้การสนับสนุน (บางครั้งเรียกว่าแบบจำลอง "แน่นอน")

H_{9}

$H_9$

— ความน่าจะเป็นทางการ

โดยทั่วไปสิ่งที่คุณกำลังทำโดยการเพิ่มดีกรีพหุนามของคุณคือการเพิ่มจำนวนพารามิเตอร์หรือดีกรีอิสระของพื้นที่จำลองของคุณเช่น ขนาดของมัน ยิ่งคุณเพิ่มพารามิเตอร์มากเท่าไหร่โมเดลก็จะยิ่งพอดีข้อมูลการฝึกอบรมได้ง่ายขึ้น แต่สิ่งนี้ก็ขึ้นอยู่กับจำนวนการสังเกตด้วย โมเดลของคุณและอาจเกินความเหมาะสมกับข้อมูลการฝึกอบรมหากจำนวนการสังเกตอยู่ในระดับต่ำเช่นเดียวกับอาจไม่เหมาะเลยหากจำนวนกรณีการฝึกอบรมมีขนาดใหญ่พอ $H_1$ $H_2$ $H_3$

ตัวอย่างเช่นสมมติเกินจริงและสมมติว่าคุณได้รับเพียงตัวอย่างการฝึกอบรมกว่าก็จะทำให้ข้อมูลของคุณเหมาะสมเสมอ $2$ $H_1$

ข้อได้เปรียบของการกำหนดค่าพรีออสเช่นผ่านการทำให้เป็นมาตรฐานคือพารามิเตอร์นั้นลดลงเป็นศูนย์หรือค่าที่กำหนดไว้ล่วงหน้าอื่น ๆ (คุณสามารถเพิ่มพารามิเตอร์เพื่อ "ผูก" ค่าสัมประสิทธิ์ร่วมกันได้หากคุณต้องการ) และโดยปริยาย ลด "อิสระ" ของแบบจำลองของคุณให้พอดี ตัวอย่างเช่นการใช้ lasso (เช่น. normalization หรือเทียบเท่า Laplace ก่อนหน้านี้) และปรับพารามิเตอร์ที่เกี่ยวข้อง (โดยใช้การตรวจสอบไขว้ตัวอย่าง 10 เท่า) จะกำจัดพารามิเตอร์ส่วนเกินโดยอัตโนมัติ การตีความแบบเบย์มีความคล้ายคลึงกัน: โดยการกำหนดให้นักบวชคุณกำลัง จำกัด พารามิเตอร์ของคุณให้มีค่าที่เป็นไปได้มากกว่าโดยอนุมานจากข้อมูลโดยรวม $l^1$

— Youloush
แหล่งที่มา

สมมุติฐานง่าย ๆ (เช่น h1, h2) ที่มีตัวอย่างการฝึกอบรมไม่เพียงพอจะเป็นตัวอย่างของข้อต่อภายใต้ข้อต่อ (สำหรับ CV) และไม่เหมาะสมเนื่องจากการตั้งค่าแบบจำลองในตัวอย่างการฝึกอบรมไม่กี่ตัวอย่าง

— yekta