Bayesian vs MLE, ปัญหากำลังเกิดขึ้น


12

ในหนังสือ PRML ของบิชอปเขากล่าวว่าการให้ข้อมูลมากเกินไปเป็นปัญหากับการประมาณความน่าจะเป็นสูงสุด (MLE) และ Bayesian สามารถหลีกเลี่ยงได้

แต่ฉันคิดว่าการ overfitting เป็นปัญหาเพิ่มเติมเกี่ยวกับการเลือกแบบจำลองไม่ใช่วิธีการที่ใช้ในการประมาณค่าพารามิเตอร์ นั่นคือสมมติว่าฉันมีชุดข้อมูลซึ่งสร้างขึ้นผ่านตอนนี้ฉันอาจเลือกรุ่นที่แตกต่างเพื่อให้พอดีกับข้อมูลและค้นหา อันไหนดีที่สุด และโมเดลที่อยู่ในการพิจารณาคือพหุนามที่มีคำสั่งต่างกันคือคำสั่ง 1,คือคำสั่ง 2,คือคำสั่ง 9D

f(x)=sin(x),x[0,1]
HiH1H2H3

ตอนนี้ผมพยายามที่จะพอดีกับข้อมูลด้วยกัน 3 รุ่นแต่ละรุ่นมีพารามิเตอร์ของตนแสดงเป็นสำหรับH_iDwiHi

ใช้ ML ผมจะมีการประมาณการจุดพารามิเตอร์แบบและง่ายเกินไปและจะเสมอ underfit ข้อมูลในขณะที่ซับซ้อนเกินไปและจะ overfit ข้อมูลเพียงจะพอดีกับข้อมูลที่ดีwH1H3H2

คำถามของฉันคือ

1) รุ่นจะทำให้ข้อมูลเหมาะสม แต่ฉันไม่คิดว่ามันเป็นปัญหาของ ML แต่เป็นปัญหาของรุ่นต่อ se เนื่องจากการใช้ ML สำหรับจึงไม่ส่งผลให้เกิดการโอเวอร์โหลด ฉันถูกไหม?H3H1,H2

2) เมื่อเปรียบเทียบกับ Bayesian แล้ว ML จะมีข้อเสียเนื่องจากมันเพิ่งจะให้ค่าประมาณของพารามิเตอร์แบบจำลองและมันเกินความจริง ในขณะที่ Bayesian ไม่ได้พึ่งเพียงค่าที่เป็นไปได้มากที่สุดของพารามิเตอร์ แต่ค่าที่เป็นไปได้ทั้งหมดของพารามิเตอร์ที่กำหนดจากข้อมูลที่สังเกตใช่ไหม?wD

3) เหตุใด Bayesian จึงสามารถหลีกเลี่ยงหรือลดการบรรจุเกินได้? เมื่อฉันเข้าใจแล้วเราสามารถใช้ Bayesian สำหรับการเปรียบเทียบแบบจำลองนั่นคือจากข้อมูลเราสามารถค้นหาโอกาสสุดท้าย (หรือหลักฐานแบบจำลอง)สำหรับแต่ละแบบจำลองภายใต้การพิจารณาแล้วเลือกแบบที่มีความเป็นไปได้สูงที่สุดใช่ไหม ? ถ้าเป็นเช่นนั้นทำไมD

คำตอบ:


19

การเพิ่มประสิทธิภาพเป็นรากฐานของความชั่วร้ายทั้งหมดในสถิติ ทุกครั้งที่คุณเลือกตัวเลือกเกี่ยวกับแบบจำลองของคุณโดยการเพิ่มประสิทธิภาพเกณฑ์ที่เหมาะสมซึ่งประเมินบนตัวอย่างที่ จำกัด ของข้อมูลที่คุณเสี่ยงต่อการปรับตัวให้เข้ากับเกณฑ์ที่เหมาะสมมากเกินไปเช่นลดสถิติเกินจุดที่ได้รับการปรับปรุงประสิทธิภาพ ได้มาจากการหาประโยชน์จากลักษณะเฉพาะของตัวอย่างข้อมูลเช่นเสียงรบกวน) เหตุผลที่วิธีการแบบเบย์ทำงานได้ดีกว่าคือคุณไม่ปรับสิ่งใดให้เหมาะสม ปัญหานั้นอยู่ในการเลือกความเชื่อก่อนหน้าเกี่ยวกับแบบจำลองดังนั้นปัญหาหนึ่งได้หายไป แต่อีกปัญหาหนึ่งปรากฏขึ้นแทนที่1


1ซึ่งรวมถึงการเพิ่มหลักฐาน (ความเป็นไปได้เล็กน้อย) ในการตั้งค่าแบบเบย์ สำหรับตัวอย่างนี้ดูผลลัพธ์ของตัวแยกประเภท Gaussian Process ในกระดาษของฉันซึ่งการเพิ่มความน่าจะเป็นที่ขอบทำให้รูปแบบแย่ลงถ้าคุณมีพารามิเตอร์หลายตัวมากเกินไป - พารามิเตอร์เป็นผลมาจากรูปแบบของการปรับตัวมากเกินไปนี้)

GC Cawley และ NLC Talbot, การเลือกรุ่นที่มากเกินไปและความลำเอียงในการเลือกการประเมินผลการปฏิบัติงาน, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, การวิจัย 2010, บทที่ 11, pp. 2079-2107, กรกฎาคม 2010 ( pdf )


+1 ขอบคุณมากฉันจะอ่านกระดาษของคุณและดูว่าฉันมีคำถามเพิ่มเติมใด ๆ ;-)
อะโวคาโด

1
เพื่อทราบว่าการเพิ่มประสิทธิภาพมักจะคิดว่าเป็นการรวมกันโดยประมาณ - วิธี Laplace เป็นตัวอย่างของสิ่งนี้ การปรับให้เหมาะสมมักจะล้มเหลวเมื่อไม่ได้เป็นการประมาณที่ดีในการรวมระบบ - ดังนั้นทำไม REML จึงดีกว่า ML
ความน่าจะเป็นทางการ

@probabilityislogic ฉันไม่แน่ใจว่าฉันเข้าใจ ML เป็นบิตเช่น MAP ไม่มีการรวมที่ดำเนินการ การใช้การประมาณ Laplace (ในแบบที่ฉันเห็นมันใช้) คือการปรับให้เหมาะสมในแง่ที่ว่าคุณปรับการประมาณให้เหมาะสมกับฟังก์ชันที่คุณต้องการรวมและรวมเข้าด้วยกันแทน แต่ยังคงมีการรวมที่เกิดขึ้น
Dikran Marsupial

1
@dikran marsupial - บางทีวิธีที่ดีกว่าในการอธิบายก็คือการรวมกันนั้นมักจะประมาณได้ดีโดยการประมาณค่าพารามิเตอร์ด้วย ML และบังคับให้พารามิเตอร์นั้นเท่ากับ MLE ของมัน การประมาณ Laplace ให้ "ปัจจัยการแก้ไข" กับสัญชาตญาณนี้ - ในลักษณะเดียวกับที่ REML ทำ
ความน่าจะเป็นทางการ

@probabilityislogic ขอบคุณสำหรับการตอบกลับฉันจะให้ความคิด!
Dikran Marsupial

7

ตามการตอบกลับทั่วไปหากคุณใช้โมเดลการถดถอยแบบ "น้อยกำลังสอง" จริงๆแล้วมันไม่ได้แตกต่างกันมากนักระหว่างเบย์กับ ML ยกเว้นว่าคุณใช้ข้อมูลก่อนพารามิเตอร์การถดถอย ในการตอบสนองต่อเฉพาะ:

1)อาจไม่เหมาะสมกับข้อมูลมากเกินไป - เฉพาะเมื่อคุณมีการสังเกตเกือบ 9 ครั้ง หากคุณมีการสังเกต 100 ครั้งค่าสัมประสิทธิ์ "เกินพิกัด" ที่คาดคะเนส่วนใหญ่จะใกล้เคียงกับศูนย์ นอกจากนี้จะส่งผลให้เกิด "underfitting" เกือบทุกครั้งเนื่องจากจะมีความโค้งที่ชัดเจนที่ไม่ได้รับH9H1

2) นี่ไม่เป็นความจริงสำหรับ "เชิงเส้น" เช่นการขยายพหุนาม ("เชิงเส้น" หมายถึงเส้นตรงที่เกี่ยวกับพารามิเตอร์ไม่ใช่ ) การประมาณ ML สำหรับสี่เหลี่ยมอย่างน้อยจะเหมือนกับวิธีหลังที่อยู่ภายใต้การให้ข้อมูลแบบไม่ใช้ข้อมูลหรือขนาดตัวอย่างที่มีขนาดใหญ่ ในความเป็นจริงคุณสามารถแสดงให้เห็นว่าการประเมิน ML สามารถคิดได้ว่าเป็น "ซีมโทติค" หลังหมายถึงภายใต้ความหลากหลายของรูปแบบx

3) วิธีการแบบเบย์สามารถหลีกเลี่ยงการ overfitting สำหรับนักบวชที่เหมาะสมเท่านั้น สิ่งนี้ทำงานในลักษณะเดียวกันกับเงื่อนไขการลงโทษที่คุณเห็นในอัลกอริธึมที่เหมาะสม ตัวอย่างเช่นการลงโทษ L2 = ปกติก่อนหน้านี้การลงโทษ L1 = laplace ก่อน


upvoted และคุณพูดถูกว่ามีข้อสังเกตมากมายอยู่ในมือจะไม่เหมาะเกินไป แต่ฉันถูกต้องกับข้ออ้างที่ว่าoverfitting เป็นปัญหาในการเลือกแบบจำลองที่ผิดไม่ใช่ ML ต่อ se ? และเราสามารถใช้ Bayesian ในการเลือกแบบจำลอง แต่เราไม่สามารถทำเช่นนั้นกับ ML ได้หรือไม่ H9
อะโวคาโด

แน่นอนตัวเลือกทั้งหมดของ H ที่นี่จะเป็นรูปแบบที่ไม่ถูกต้องอื่น ๆ กว่าH_ปัญหาคือข้อผิดพลาดในการประมาณค่าพารามิเตอร์ของตัวแบบซึ่งมีทั้งอคติและส่วนประกอบความแปรปรวน หากคุณเลือกรูปแบบโดยใช้เกณฑ์แบบเบย์คุณยังสามารถปรับให้เหมาะสมได้เช่นกัน (ฉันจะเพิ่มการอ้างอิงเพื่อสนับสนุนสิ่งนั้นในคำตอบของฉัน) H
Dikran Marsupial

@loganecolss - ฉันคิดว่าที่นี่จะใกล้เคียงกับความจริงมากกว่าคนอื่น ๆ การ overfitting นั้นเชื่อมโยงอย่างใกล้ชิดกับขนาดตัวอย่างและประเภทของแบบจำลองโครงสร้างที่สามารถให้การสนับสนุน (บางครั้งเรียกว่าแบบจำลอง "แน่นอน") H9
ความน่าจะเป็นทางการ

4

โดยทั่วไปสิ่งที่คุณกำลังทำโดยการเพิ่มดีกรีพหุนามของคุณคือการเพิ่มจำนวนพารามิเตอร์หรือดีกรีอิสระของพื้นที่จำลองของคุณเช่น ขนาดของมัน ยิ่งคุณเพิ่มพารามิเตอร์มากเท่าไหร่โมเดลก็จะยิ่งพอดีข้อมูลการฝึกอบรมได้ง่ายขึ้น แต่สิ่งนี้ก็ขึ้นอยู่กับจำนวนการสังเกตด้วย โมเดลของคุณและอาจเกินความเหมาะสมกับข้อมูลการฝึกอบรมหากจำนวนการสังเกตอยู่ในระดับต่ำเช่นเดียวกับอาจไม่เหมาะเลยหากจำนวนกรณีการฝึกอบรมมีขนาดใหญ่พอH1H2H3

ตัวอย่างเช่นสมมติเกินจริงและสมมติว่าคุณได้รับเพียงตัวอย่างการฝึกอบรมกว่าก็จะทำให้ข้อมูลของคุณเหมาะสมเสมอ2H1

ข้อได้เปรียบของการกำหนดค่าพรีออสเช่นผ่านการทำให้เป็นมาตรฐานคือพารามิเตอร์นั้นลดลงเป็นศูนย์หรือค่าที่กำหนดไว้ล่วงหน้าอื่น ๆ (คุณสามารถเพิ่มพารามิเตอร์เพื่อ "ผูก" ค่าสัมประสิทธิ์ร่วมกันได้หากคุณต้องการ) และโดยปริยาย ลด "อิสระ" ของแบบจำลองของคุณให้พอดี ตัวอย่างเช่นการใช้ lasso (เช่น. normalization หรือเทียบเท่า Laplace ก่อนหน้านี้) และปรับพารามิเตอร์ที่เกี่ยวข้อง (โดยใช้การตรวจสอบไขว้ตัวอย่าง 10 เท่า) จะกำจัดพารามิเตอร์ส่วนเกินโดยอัตโนมัติ การตีความแบบเบย์มีความคล้ายคลึงกัน: โดยการกำหนดให้นักบวชคุณกำลัง จำกัด พารามิเตอร์ของคุณให้มีค่าที่เป็นไปได้มากกว่าโดยอนุมานจากข้อมูลโดยรวมl1


สมมุติฐานง่าย ๆ (เช่น h1, h2) ที่มีตัวอย่างการฝึกอบรมไม่เพียงพอจะเป็นตัวอย่างของข้อต่อภายใต้ข้อต่อ (สำหรับ CV) และไม่เหมาะสมเนื่องจากการตั้งค่าแบบจำลองในตัวอย่างการฝึกอบรมไม่กี่ตัวอย่าง
yekta
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.