คุณจะตรวจพบได้อย่างไรว่ากระบวนการแบบเกาส์เซียนนั้นเกินความเหมาะสม


12

ฉันกำลังฝึกอบรมกระบวนการเกาส์เซียนด้วยเคอร์เนล ARD ที่มีพารามิเตอร์จำนวนมากโดยการเพิ่มความเป็นไปได้ของข้อมูลให้น้อยที่สุดแทนที่จะเป็นการตรวจสอบข้าม

ฉันสงสัยว่ามันกระชับเกินไป ฉันจะทดสอบข้อสงสัยนี้ได้อย่างไรในบริบทของเบย์

คำตอบ:


12

สิ่งที่ง่ายที่สุดที่จะทำคือให้พอดีกับกระบวนการ Gaussian กับฟังก์ชันความแปรปรวนร่วมที่ไม่ใช่แบบ ARD (โดยทั่วไปคือ RBF) และเปรียบเทียบอัตราความผิดพลาดในการทดสอบ สำหรับปัญหามากมายฟังก์ชั่นความแปรปรวนร่วม ARD ทำงานได้แย่กว่าฟังก์ชั่นความแปรปรวนร่วมที่ไม่ใช่แบบ ARD เนื่องจากการปรับที่มากเกินไปในการปรับพารามิเตอร์ไฮเปอร์ เนื่องจากความแปรปรวน RBF เป็นกรณีพิเศษของความแปรปรวนแบบ ARD ถ้า RBF ทำงานได้ดีขึ้นมันเป็นสัญญาณบ่งชี้ว่าเคอร์เนล ARD มีความเหมาะสมมากกว่า เร็วขึ้นและยังช่วยให้มั่นใจได้ว่าปัญหาของความแปรปรวนแบบรพช. นั้นไม่ได้เกิดจากความต้องการความเป็นไปได้น้อยที่สุดในท้องถิ่น นี่เป็นปัญหาที่ใหญ่กว่าการชื่นชมโดยทั่วไป

ฉันเขียนบทความสองเรื่องนี้:

GC Cawley และ NLC Talbot ป้องกันการปรับตัวมากเกินไประหว่างการเลือกแบบจำลองผ่านการปรับค่าพารามิเตอร์ไฮเปอร์แบบปกติ, วารสารการวิจัยการเรียนรู้ของเครื่อง, เล่มที่ 8, หน้า 841-861, เมษายน 2550 ( pdf )

และ

GC Cawley และ NLC Talbot, การเลือกรุ่นที่มากเกินไปและความลำเอียงในการเลือกการประเมินผลการปฏิบัติงาน, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, การวิจัย 2010, บทที่ 11, pp. 2079-2107, กรกฎาคม 2010 ( pdf )

ครั้งแรกรวมถึงการทดลองบางอย่างกับจีพีเอสซึ่งแสดงให้เห็นว่าการเลือกรูปแบบที่มากเกินไปเป็นปัญหาสำหรับจีพีเอสที่มีความเป็นไปได้ที่จะเกิดการเลือกแบบจำลองตามขอบเขตสูงสุด

การวิเคราะห์อย่างละเอียดมากขึ้นคือการประเมินข้อผิดพลาดการทดสอบของ GP ในแต่ละขั้นตอนในกระบวนการเพิ่มประสิทธิภาพความเป็นไปได้ มีความเป็นไปได้สูงมากที่คุณจะได้รับเครื่องหมายฮอลล์คลาสสิกของข้อต่อเกินมาตรฐานซึ่งการเลือกรูปแบบจะลดลงแบบ monotonically แต่ข้อผิดพลาดในการทดสอบเริ่มลดลง แต่ในที่สุดก็เริ่มขึ้นอีกครั้ง รูปที่ 2a ในกระดาษ JMLR 2010)


ขอบคุณมากฉันกำลังอ่านผ่านคนแรกตอนนี้ คุณได้พบวิธีที่มีประสิทธิภาพมากกว่าในการทำให้เป็นปกติอีกครั้งด้วยการปรับขนาดของเมล็ดที่มีพารามิเตอร์หลายอย่างเช่น ARD หรือไม่หากรูปแบบความซับซ้อนของคำศัพท์ในความน่าจะเป็นของขอบไม่เพียงพอที่จะป้องกัน
nickponline

2
ฉันสงสัยว่าสิ่งที่มีประสิทธิภาพที่สุดที่จะทำคือการลดพารามิเตอร์ไฮเปอร์โดยใช้วิธีมาร์คอฟเชนมอนติคาร์โล สำหรับขนาดของชุดข้อมูลที่ GPs มีแนวโน้มที่จะใช้สำหรับ (มากถึงสองสามพันรูปแบบ) ฉันสงสัยว่าการปรับให้กระชับมากเกินไปความเป็นไปได้ที่จะเกิดขึ้นนั้นเป็นเพียงแค่หลีกเลี่ยงไม่ได้ การเพิ่มประสิทธิภาพ IMHO คือรากเหง้าของความชั่วร้ายทั้งหมดในสถิติเมื่อใดก็ตามที่คุณเพิ่มประสิทธิภาพทุกสิ่งที่คุณเสี่ยงต่อการปรับตัวให้เข้ากับสภาพแวดล้อม วิธีการแบบเบย์นั้นดีกว่ามากในแง่นี้ แต่คุณกลับเสี่ยงต่อความยากลำบากเนื่องจากนักบวชผิด :-(
Dikran Marsupial

@DikranMarsupial มีการวิจัยล่าสุดเกี่ยวกับวิธีการหลีกเลี่ยงการ overfitting โดยใช้วิธีการ Variational GP?
imsrgadich
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.