การฝึกอบรมกับชุดข้อมูลเต็มรูปแบบหลังจากการตรวจสอบข้าม?


139

เป็นความคิดที่ดีหรือไม่ที่จะทำการฝึกอบรมกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบข้าม ? นำไปทางอื่นมันก็โอเคในการฝึกอบรมกับทุกกลุ่มตัวอย่างในชุดของฉันและไม่สามารถที่จะตรวจสอบว่ามีการติดตั้งอุปกรณ์นี้โดยเฉพาะoverfits ?


พื้นหลังบางส่วนเกี่ยวกับปัญหา:

บอกว่าฉันมีครอบครัวของแบบจำลอง parametrized โดย\บอกฉันด้วยว่าฉันมีชุดของจุดข้อมูลและฉันทำการเลือกแบบจำลองด้วยการตรวจสอบความถูกต้องไขว้ของ k-fold เพื่อเลือกรูปแบบที่ดีที่สุดในการสรุปข้อมูล NαN

สำหรับการเลือกแบบจำลองฉันสามารถทำการค้นหา (เช่นการค้นหากริด) บนโดยตัวอย่างเช่นการรันการตรวจสอบความถูกต้องไขว้กันของ k-fold สำหรับผู้สมัครแต่ละคน ในแต่ละเท่าในการตรวจสอบข้ามผมจบลงด้วยรูปแบบการเรียนรู้ \บีตาอัลฟ่าα βα

จุดของการตรวจสอบข้ามคือสำหรับแต่ละเท่านี้ฉันสามารถตรวจสอบว่ารูปแบบการเรียนรู้มีมากเกินไปโดยการทดสอบกับ "ข้อมูลที่มองไม่เห็น" ขึ้นอยู่กับผลลัพธ์ฉันสามารถเลือกโมเดลเรียนรู้สำหรับพารามิเตอร์ที่ได้รับการสรุปที่ดีที่สุดระหว่างการตรวจสอบข้ามในการค้นหากริดα bestβbestαbest

ตอนนี้บอกว่าหลังจากที่เลือกรูปแบบที่ผมต้องการที่จะใช้ทุกจุดในชุดของฉันและหวังว่าจะได้เรียนรู้รูปแบบที่ดีขึ้น สำหรับวันนี้ผมสามารถใช้พารามิเตอร์ที่สอดคล้องกับรูปแบบที่ผมเลือกระหว่างการเลือกรูปแบบแล้วหลังการฝึกอบรมในชุดข้อมูลที่เต็มผมจะได้รับใหม่ได้เรียนรู้รูปแบบ{เต็ม} ปัญหาคือว่าถ้าฉันใช้คะแนนทั้งหมดในชุดข้อมูลของฉันสำหรับการฝึกอบรม ฉันไม่สามารถตรวจสอบว่าชุดการเรียนรู้แบบใหม่ชุดนี้กับข้อมูลที่มองไม่เห็นหรือไม่ วิธีที่ถูกต้องในการคิดเกี่ยวกับปัญหานี้คืออะไร?α b e s t β f u l l β f u l lNαbestβfull βfull


2
เกือบจะซ้ำกันทั้งหมดแน่นอน: stats.stackexchange.com/questions/52274พร้อมคำตอบมากมาย บางทีเธรดเหล่านี้ควรถูกผสาน แต่ฉันไม่แน่ใจในทิศทางใด ทั้งคู่ยอมรับคำตอบที่ดีมาก
อะมีบา

คำตอบ:


111

วิธีคิดของการตรวจสอบข้ามคือการประเมินประสิทธิภาพที่ได้รับโดยใช้วิธีการสร้างแบบจำลองแทนที่จะประเมินประสิทธิภาพของแบบจำลอง

หากคุณใช้การตรวจสอบความถูกต้องข้ามเพื่อประมาณค่าพารามิเตอร์หลายมิติของแบบจำลอง ( s) จากนั้นใช้พารามิเตอร์แบบไฮเปอร์พารามิเตอร์เหล่านั้นเพื่อให้พอดีกับแบบจำลองกับชุดข้อมูลทั้งหมดดังนั้นจึงเป็นเรื่องปกติถ้าคุณรับรู้ว่า ของประสิทธิภาพมีแนวโน้มที่จะมีอคติอย่างมีนัยสำคัญ นี่เป็นเพราะส่วนหนึ่งของแบบจำลอง (พารามิเตอร์ไฮเปอร์) ได้ถูกเลือกเพื่อลดประสิทธิภาพการตรวจสอบข้ามดังนั้นหากสถิติการตรวจสอบข้ามมีความแปรปรวนที่ไม่เป็นศูนย์ (และมันจะ) มีความเป็นไปได้ของการปรับตัวมากเกินไป เกณฑ์การเลือกรูปแบบα

หากคุณต้องการเลือกพารามิเตอร์ไฮเปอร์และประเมินประสิทธิภาพของโมเดลผลลัพธ์คุณจะต้องทำการตรวจสอบความถูกต้องแบบซ้อนที่ใช้การตรวจสอบความถูกต้องจากภายนอกเพื่อประเมินประสิทธิภาพของโมเดลและในแต่ละครอสครอส - การตรวจสอบความถูกต้องใช้เพื่อกำหนดพารามิเตอร์ไฮเปอร์แยกกันในแต่ละเท่า คุณสร้างแบบจำลองขั้นสุดท้ายโดยใช้การตรวจสอบความถูกต้องข้ามบนทั้งชุดเพื่อเลือกพารามิเตอร์ไฮเปอร์และสร้างตัวจําแนกในชุดข้อมูลทั้งหมดโดยใช้พารามิเตอร์ไฮเปอร์ที่ดีที่สุด

หลักสูตรนี้มีราคาแพงในการคำนวณ แต่คุ้มค่าเพราะความลำเอียงที่แนะนำโดยการประเมินประสิทธิภาพที่ไม่เหมาะสมอาจมีขนาดใหญ่ ดูกระดาษของฉัน

GC Cawley และ NLC Talbot, การเลือกรุ่นที่มากเกินไปและความลำเอียงในการเลือกการประเมินผลการปฏิบัติงาน, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, การวิจัย 2010, บทที่ 11, pp. 2079-2107, กรกฎาคม 2010 ( www , pdf )

อย่างไรก็ตามยังคงเป็นไปได้ที่จะมีการปรับให้เหมาะสมมากเกินไปในการเลือกแบบจำลอง (การตรวจสอบความถูกต้องข้ามแบบซ้อนช่วยให้คุณสามารถทดสอบได้) วิธีที่ฉันพบว่ามีประโยชน์คือการเพิ่มคำว่า normalization ให้กับข้อผิดพลาดการตรวจสอบข้ามที่ลงโทษค่าพารามิเตอร์ไฮเปอร์ที่น่าจะส่งผลให้ตัวแบบที่ซับซ้อนเกินไปดู

GC Cawley และ NLC Talbot ป้องกันการปรับตัวเกินในการเลือกแบบจำลองผ่านการปรับค่าพารามิเตอร์แบบไฮเปอร์, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, เล่ม 8, หน้า 841-861, เมษายน 2550 ( www , pdf )

ดังนั้นคำตอบสำหรับคำถามของคุณคือ (i) ใช่คุณควรใช้ชุดข้อมูลเต็มรูปแบบเพื่อสร้างแบบจำลองขั้นสุดท้ายของคุณเนื่องจากยิ่งคุณใช้ข้อมูลมากเท่าไหร่ก็ยิ่งมีแนวโน้มที่จะพูดคุยทั่วไปได้ดีเท่านั้น แต่ (ii) การตรวจสอบความถูกต้องข้ามแบบซ้อนและอาจพิจารณาลงโทษสถิติการตรวจสอบความถูกต้องแบบไขว้เพื่อหลีกเลี่ยงการปรับให้เหมาะสมมากเกินไปในการเลือกแบบจำลอง


3
+1: ตอบคำถาม: "หากคุณใช้การตรวจสอบความถูกต้องข้ามเพื่อประเมินค่าพารามิเตอร์หลายมิติของแบบจำลอง (αs) จากนั้นใช้พารามิเตอร์ไฮเปอร์พารามิเตอร์เหล่านั้นเพื่อให้พอดีกับโมเดลกับชุดข้อมูลทั้งหมดนั่นเป็นเรื่องที่ดี…"
Neil G

4
@soufanom ไม่การใช้ "การทดลองเบื้องต้น" เพื่อเลือกตัวเลือกเกี่ยวกับแบบจำลองมีแนวโน้มที่จะส่งผลให้เกิดการปรับตัวเกินขนาดและเกือบจะแน่นอนจะแนะนำอคติเชิงบวกในการวิเคราะห์ประสิทธิภาพ การตรวจสอบความถูกต้องไขว้ที่ใช้สำหรับการวิเคราะห์ประสิทธิภาพจะต้องทำซ้ำทุกขั้นตอนที่ใช้ในการปรับแบบจำลองอย่างอิสระในแต่ละครั้ง การทดลองในบทความของฉันแสดงให้เห็นว่าแบบจำลองเคอร์เนลอาจมีความอ่อนไหวต่อความลำเอียงแบบนี้ได้อย่างมากดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องทำการเลือกแบบจำลองและการประเมินประสิทธิภาพด้วยความแม่นยำที่เป็นไปได้ทั้งหมด
Dikran Marsupial

3
สำหรับวิธีเคอร์เนลเช่น SVM มักจะเป็นไปได้ที่จะทำการตรวจสอบความถูกต้องแบบไม่ต้องเสียค่าใช้จ่าย (cross-validation cross-one-out) โดยไม่ต้องเสียค่าใช้จ่ายในการคำนวณ ฉันใช้การตรวจสอบข้ามแบบ "เสมือน" แบบลาออกหนึ่งครั้งสำหรับการปรับค่าพารามิเตอร์ไฮเปอร์ซ้อนกันในการตรวจสอบความถูกต้องแบบข้าม k-fold สำหรับการประเมินประสิทธิภาพ ค่าใช้จ่ายนั้นค่อนข้างสมเหตุสมผล ในความคิดของฉันมันเป็นที่ยอมรับไม่ได้ที่จะใช้ขั้นตอนใด ๆ ที่การประเมินผลการทำงานจะลำเอียงในทางใดทางหนึ่งโดยการปรับพารามิเตอร์ไฮเปอร์ มันมีค่าใช้จ่ายในการคำนวณเพื่อให้ได้ประมาณการที่เชื่อถือได้
Dikran Marsupial

2
@DikranMarsupial ฉันไม่ได้รับย่อหน้าที่สามในคำตอบของคุณ ถ้าฉันซ้อนการตรวจสอบความถูกต้องแบบซ้อนฉันจะได้รับชุดพารามิเตอร์หลายมิติสำหรับCV แต่ละวงด้านนอก (เช่นฉันได้รับชุดพารามิเตอร์หลายชุดจากการเรียกใช้CV ภายในในตารางพารามิเตอร์) ฉันจะเลือกชุดพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ดีที่สุดได้อย่างไร
Amelio Vazquez-Reina

1
การตรวจสอบความถูกต้องไขว้เป็นสิ่งจำเป็นอย่างยิ่งในการประเมินประสิทธิภาพของวิธีการสร้างแบบจำลองที่เหมาะสมแทนที่จะเป็นวิธีการเอง ดังนั้นหลังจากดำเนินการตรวจสอบข้ามซ้อนเพื่อรับการประเมินประสิทธิภาพเพียงสร้างรุ่นสุดท้ายโดยใช้ชุดข้อมูลทั้งหมดโดยใช้ขั้นตอนที่คุณได้ตรวจสอบข้าม (ซึ่งรวมถึงการเลือกพารามิเตอร์ hyper)
Dikran Marsupial

23

เพียงเพื่อเพิ่มคำตอบโดย @ mark999 caretแพคเกจของ Max Kuhn (การจำแนกและการฝึกอบรมการถดถอย) เป็นแหล่งข้อมูลที่ครอบคลุมมากที่สุดใน R สำหรับการเลือกรูปแบบตามการตรวจสอบ bootstrap cross หรือ N-fold CV และรูปแบบอื่น ๆ เช่นกัน

ที่จะไม่เพิกเฉยต่อความยิ่งใหญ่ของrmsชุด แต่caretให้คุณพอดีกับทุกวิธีการเรียนรู้ที่มีอยู่ใน R ในขณะที่validateใช้ได้กับrmsวิธีการเท่านั้น(ฉันคิดว่า)

caretแพคเกจเป็นโครงสร้างพื้นฐานเดียวไปก่อนประมวลผลข้อมูลพอดีและประเมินผลการศึกษารูปแบบที่นิยมใด ๆ จึงเป็นเรื่องง่ายที่จะใช้สำหรับวิธีการทั้งหมดและมีการประเมินผลกราฟิกของมาตรการประสิทธิภาพการทำงานจำนวนมาก (บางสิ่งบางอย่างที่ติดกับปัญหา overfit อาจมีผลต่อการเลือกรูปแบบมากเป็น ดี) เหนือกริดและตัวแปรสำคัญของคุณ

ดูสะเปะสะปะแพคเกจที่จะเริ่มต้น (มันเป็นเรื่องง่ายมากที่จะใช้)
ข้อมูลกระบวนการเตรียมการผลิต
การเลือกตัวแปรที่มีเครื่องหมาย
รุ่นอาคารที่มีเครื่องหมาย
สำคัญตัวแปร

นอกจากนี้คุณยังสามารถดูเว็บไซต์คาเร็ตสำหรับข้อมูลเพิ่มเติมเกี่ยวกับแพ็คเกจและตัวอย่างการใช้งานเฉพาะ:
เว็บไซต์คาเร็ตอย่างเป็นทางการ


ขอบคุณ คุณรู้หรือไม่ว่าหลังจากเลือกรูปแบบ (ซึ่งเรียกโดยการโทรtrain) จะมีวิธีในการฝึกกับชุดข้อมูลแบบเต็ม?
Amelio Vazquez-Reina

ไม่แน่ใจว่าเป็นความคิดที่ดีหรือเพราะเหตุใดคุณต้องการทำเช่นนั้น แต่คุณสามารถพอดีกับโมเดลสุดท้ายที่ส่งคืนโดยรถไฟไปยังชุดข้อมูลแบบเต็ม
Momo

16

ฉันเชื่อว่า Frank Harrell จะแนะนำการตรวจสอบ bootstrap มากกว่าการตรวจสอบข้าม การตรวจสอบ Bootstrap จะช่วยให้คุณสามารถตรวจสอบรูปแบบที่พอดีกับชุดข้อมูลเต็มรูปแบบและมีความเสถียรกว่าการตรวจสอบข้าม คุณสามารถทำได้โดยใช้ R validateในrmsแพ็คเกจของ Harrell

ดูหนังสือ "กลยุทธ์การสร้างแบบจำลองการถดถอย" โดย Harrell และ / หรือ "บทนำสู่ Bootstrap" โดย Efron และ Tibshirani สำหรับข้อมูลเพิ่มเติม


9
หากต้องการละเว้นตำนานถัดไปเกี่ยวกับ "CV ที่ไม่ดี" นี่เป็นปัญหาคำศัพท์ - การตรวจสอบข้าม "ของ Harrell" หมายถึง N-fold CV และ "การตรวจสอบ bootstrap" หมายถึงการ resampling CV เห็นได้ชัดว่าฉันยอมรับว่ารสชาติที่สองนี้มีเสถียรภาพมากขึ้นและดีกว่าโดยรวม แต่นี่ก็เป็นประเภทของการตรวจสอบข้าม

1
mark999 หรือ @mbq คุณจะอธิบายเพิ่มเติมเกี่ยวกับวิธีที่ bootstrap อนุญาตให้หนึ่งตรวจสอบความถูกต้องของโมเดลที่ติดตั้งบนชุดข้อมูลแบบเต็มหรือไม่
Amelio Vazquez-Reina

1
@ user27915816 ดีในหลักการ nohow; แนวคิดที่อยู่เบื้องหลังการตรวจสอบข้ามคือคุณทดสอบว่าวิธีการฝึกอบรมที่ได้รับนั้นน่าเชื่อถือในการสร้างแบบจำลองที่ดีในชุดที่คล้ายกันมากกับชุดสุดท้ายและถ้าเป็นเช่นนั้นให้สรุปการสังเกตนี้ให้เป็นแบบเต็ม และวิธี CV ที่คุณใช้นั้นไม่ได้ลำเอียง แน่นอนว่าเกือบจะดีพอคุณยังไม่สามารถมั่นใจได้ว่าแบบจำลองที่สร้างขึ้นบนข้อมูลทั้งหมดที่คุณมีไม่ได้ถูกติดตั้งมากเกินไป

14

ฉันคิดว่าคุณมีคำถามต่าง ๆ มากมายที่นี่:

ปัญหาคือว่าถ้าฉันใช้คะแนนทั้งหมดในชุดข้อมูลของฉันสำหรับการฝึกอบรมฉันไม่สามารถตรวจสอบว่าชุดเต็มรูปแบบการเรียนรู้ใหม่นี้เต็ม!

สิ่งคือคุณสามารถใช้ขั้นตอนการตรวจสอบ (หนึ่ง) เพียงอย่างเดียวเท่านั้น: สำหรับการปรับพารามิเตอร์, (x) หรือเพื่อประเมินประสิทธิภาพการวางนัยทั่วไป

ดังนั้นหากคุณทำการปรับพารามิเตอร์ให้เหมาะสมโดยการตรวจสอบความถูกต้องข้าม (หรือการกำหนดพารามิเตอร์อื่น ๆ ที่ขับเคลื่อนด้วยข้อมูล) คุณต้องมีตัวอย่างทดสอบที่ไม่เกี่ยวข้องกับตัวอย่างการฝึกอบรมและการปรับให้เหมาะสมเหล่านั้น Dikran เรียกมันว่าการตรวจสอบข้ามที่ซ้อนกันชื่ออื่นคือการตรวจสอบความถูกต้องข้ามสองครั้ง หรือแน่นอนชุดทดสอบอิสระ

ดังนั้นนี่คือคำถามสำหรับโพสต์นี้: เป็นความคิดที่ดีที่จะฝึกกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบความถูกต้องข้ามแบบ k-fold หรือไม่? หรือมันจะดีกว่าแทนที่จะติดกับโมเดลตัวใดตัวหนึ่งที่เรียนรู้ในหนึ่งใน cross-validation splits สำหรับαbest?

การใช้รูปแบบการตรวจสอบไขว้อย่างใดอย่างหนึ่งมักจะแย่กว่าการฝึกอบรมในชุดเต็ม (อย่างน้อยถ้าประสิทธิภาพการเรียนรู้ของคุณ = f (nsamples) ยังคงเพิ่มขึ้นในทางปฏิบัติมันคือ: ถ้าไม่คุณอาจจะได้ตั้ง นอกเหนือชุดทดสอบอิสระ)

หากคุณสังเกตเห็นรูปแบบขนาดใหญ่ระหว่างโมเดลการตรวจสอบความถูกต้องไขว้ (ด้วยพารามิเตอร์เดียวกัน) โมเดลของคุณจะไม่เสถียร ในกรณีดังกล่าวการรวมตัวแบบจำลองสามารถช่วยและดีกว่าการใช้แบบจำลองเดียวที่ฝึกกับข้อมูลทั้งหมด

อัปเดต: การรวมนี้เป็นแนวคิดที่อยู่เบื้องหลังการบรรจุถุงที่นำไปใช้กับการสุ่มใหม่โดยไม่มีการแทนที่ (การตรวจสอบความถูกต้องข้าม) แทนที่จะทำการสุ่มใหม่ด้วยการแทนที่ (การตรวจสอบความถูกต้อง bootstrap / out-of-bootstrap)

นี่คือกระดาษที่เราใช้เทคนิคนี้:
Beleites, C. & Salzer, R .: การประเมินและปรับปรุงเสถียรภาพของแบบจำลองทางเคมีในสถานการณ์ขนาดตัวอย่างขนาดเล็ก Anal Bioanal Chem, 390, 1261-1271 (2008)
DOI: 10.1007 / s00216-007-1818-6

บางทีที่สำคัญที่สุดคือฉันจะฝึกซ้อมกับทุกจุดในชุดข้อมูลของฉันและยังคงสู้กับการสู้มากเกินไปได้อย่างไร

ด้วยการอนุลักษณ์อย่างมากกับระดับของเสรีภาพที่อนุญาตสำหรับโมเดล "ดีที่สุด" คือโดยคำนึงถึงความไม่แน่นอน (สุ่ม) ในการเพิ่มประสิทธิภาพผลการตรวจสอบข้าม ถ้า df นั้นเหมาะสมสำหรับแบบจำลองการตรวจสอบความถูกต้องไขว้มีโอกาสดีที่จะไม่มากเกินไปสำหรับชุดฝึกอบรมที่มีขนาดใหญ่กว่า ข้อผิดพลาดคือการปรับพารามิเตอร์ให้ดีที่สุดคือการทดสอบหลายรายการ คุณต้องป้องกันชุดพารามิเตอร์ที่ดูดีโดยไม่ตั้งใจ


...If you observe a large variation between the cross validation models (with the same parameters), then your models are unstable. In that case, aggregating the models can help...คุณช่วยอธิบายสิ่งนี้ได้อีกเล็กน้อยหรือไม่? เช่นถ้าฉันใช้การถดถอยโลจิสติกในการตั้งค่าการตรวจสอบความถูกต้องข้าม 10k และจบลงด้วยค่าสัมประสิทธิ์ 10 ชุดคุณแนะนำให้รวมการประมาณค่า coeff เพื่อสร้างแบบจำลองสุดท้ายหรือไม่? ถ้าเป็นเช่นนั้นสิ่งนี้สามารถทำได้เพียงแค่ใช้วิธีการ?
Zhubarb

@cbeleites If the d.f. are actually appropriate for the cross validation modelsคุณสามารถทำอย่างละเอียดใน ในความเข้าใจของฉันคุณกำลังเถียงว่าชุดรถไฟ / การตรวจสอบมีขนาดไม่ใหญ่มากเมื่อเทียบกับชุดข้อมูลที่สมบูรณ์ฉันถูกต้องหรือไม่
jpcgandre

1
@jpcgandre: การเลือกหนึ่งในแบบจำลองตัวแทนสำหรับการใช้งานต่อไปในความเป็นจริงการเลือกรูปแบบการขับเคลื่อนข้อมูลซึ่งหมายความว่าคุณต้องการการตรวจสอบระดับอิสระภายนอก และโดยทั่วไปถ้าคุณไม่มีกรณีเพียงพอดังนั้นคุณสามารถทำการเปรียบเทียบแบบจำลองที่มีความหมายทางสถิติบนพื้นฐานของการทดสอบของขนาดตัวอย่างทั้งหมด IMHO คุณไม่ควรเลือก 1k
cbeleites

1
ที่สำคัญกว่า: แบบจำลองการแทนที่การตรวจสอบความถูกต้องแบบไขว้แบบซ้ำ ๆ จะแบ่งใช้ชุดของพารามิเตอร์ นั่นคือสิ่งเหล่านี้เทียบเท่ากับสิ่งที่คุณคิดว่าสำคัญ แต่การเลือกการฝึกอบรมและการทดสอบแบบสุ่ม การเลือกรูปแบบ "ดี" ดังนั้นในความเป็นจริงควรเลือกชุดการทดสอบ / การฝึกอบรมที่ดีซึ่งเป็นสิ่งที่เรามักไม่ต้องการ: เราต้องการตัวเลือกที่สรุปได้ดีและไม่เพียง แต่ทำงานได้ดี จากมุมมองนี้การเลือกโมเดลตัวแทนจากการตรวจสอบไขว้แบบ "ปกติ" ไม่ได้สมเหตุสมผลสำหรับฉัน
cbeleites

1
@jpcgandre: (df) ฉันยืนยันว่าการเลือกความซับซ้อนของแบบจำลองที่เหมาะสมสำหรับการฝึกอบรมในวันที่ของชุดข้อมูล (ซึ่งฉันโต้แย้งมีขนาดใหญ่เท่ากับชุดข้อมูลทั้งหมด) คุณอาจ มาถึงอคติต่อโมเดลที่เข้มงวดเกินไปเล็กน้อยสำหรับการฝึกอบรมเกี่ยวกับชุดข้อมูลทั้งหมด อย่างไรก็ตามฉันไม่คิดว่าสิ่งนี้จะเป็นเรื่องสำคัญในทางปฏิบัติยิ่งความประทับใจของฉันในสาขาของฉันคือเราค่อนข้างมีแนวโน้มที่จะทำผิดพลาดต่อโมเดลที่ซับซ้อนเกินไป 11k
cbeleites

6

สิ่งที่คุณทำไม่ใช่การตรวจสอบไขว้ แต่เป็นการเพิ่มประสิทธิภาพสุ่ม ๆ

แนวคิดของ CV คือการจำลองการทำงานของข้อมูลที่มองไม่เห็นด้วยการสร้างหลายรอบของการสร้างแบบจำลองบนชุดย่อยของวัตถุและทดสอบในส่วนที่เหลือ ผลเฉลี่ยค่อนข้างของทุกรอบเป็นประมาณของประสิทธิภาพของรูปแบบการฝึกอบรมในทั้งชุด

ในกรณีที่คุณเลือกรูปแบบคุณควรดำเนินการ CV แบบเต็มสำหรับแต่ละชุดพารามิเตอร์และได้รับการประมาณประสิทธิภาพแบบเต็มชุดสำหรับการตั้งค่าแต่ละครั้งดังนั้นดูเหมือนว่าสิ่งที่คุณต้องการมี

อย่างไรก็ตามโปรดทราบว่ามันไม่ได้รับประกันว่ารูปแบบที่มีความแม่นยำโดยประมาณที่ดีที่สุดจะดีที่สุดในความเป็นจริง - คุณอาจตรวจสอบความถูกต้องของขั้นตอนการเลือกรุ่นทั้งหมดเพื่อดูว่ามีบางช่วงในพื้นที่พารามิเตอร์ที่แตกต่างกัน ความถูกต้องของแบบจำลองไม่สำคัญ


2
ขอบคุณ @mbq แต่ฉันไม่แน่ใจว่าฉันทำตาม ฉันทำการตรวจสอบความถูกต้องข้ามแบบ N-fold สำหรับค่าแต่ละจุดของการค้นหากริดในพื้นที่ hyperparameter ผลลัพธ์เฉลี่ยของ N-folds ให้การประมาณที่คุณพูดถึงซึ่งฉันใช้ในการเปรียบเทียบแบบจำลองและทำการเลือกแบบจำลองโดยการเลือกแบบจำลองที่เหมาะสมที่สุดกับชุดการตรวจสอบที่ดีที่สุด คำถามของฉันเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อฉันฝึกฝนด้วยชุดข้อมูลแบบเต็ม ฉันคิดว่ารูปแบบการเรียนรู้มีการเปลี่ยนแปลง ( พารามิเตอร์ของการเปลี่ยนแปลงรูปแบบการเรียนรู้) และในหลักการฉันไม่มีทางรู้ว่าฉันต้องทนทุกข์ทรมานจากการล้น β
Amelio Vazquez-Reina

@AmV ถ้าใช่โอเค - ตามที่ฉันเขียน CV ทดสอบสถานการณ์เต็มแล้วคุณไม่สามารถพูดได้มากกว่านี้หากไม่มีข้อมูลใหม่ อีกครั้งคุณสามารถทำ CV ซ้อนกันเพื่อดูว่าตัวเลือกรุ่นไม่ได้กำหนดไว้มากเกินไปหรือไม่ (ถ้าการเลือกให้การปรับปรุงที่ดีมากหรือข้อมูลนั้นมีเสียงดังความเสี่ยงของเรื่องนี้ค่อนข้างใหญ่)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.