ให้ฉันเพิ่มคะแนนสองสามคำในคำตอบที่ดีที่มีอยู่แล้วที่นี่:
K-fold ที่ซ้อนกัน vs k-fold ที่ซ้ำกัน: k-fold ที่ซ้อนกันและทำซ้ำเป็นสิ่งที่ต่างกันโดยสิ้นเชิง
- อย่างที่คุณทราบแล้วการซ้อนกันนั้นดีถ้าคุณต้องการใช้ cv ภายในสำหรับการเลือกรูปแบบ
- ทำซ้ำ: IMHO คุณควรทำซ้ำ k-fold cv [ดูด้านล่าง]
ฉันจึงแนะนำให้ทำการตรวจสอบความถูกต้องแบบซ้อน k-foldซ้ำ
รายงานที่ดีขึ้น "สถิติของเครื่องมือประมาณของเราเช่นช่วงความเชื่อมั่น, ความแปรปรวน, ค่าเฉลี่ย ฯลฯ ของตัวอย่างเต็มรูปแบบ (ในกรณีนี้คือตัวอย่าง CV)" :
แน่ใจ อย่างไรก็ตามคุณจำเป็นต้องตระหนักถึงความจริงที่ว่าคุณจะไม่สามารถประเมินช่วงความเชื่อมั่นได้อย่างง่ายดาย (โดยง่าย) จากผลลัพธ์การตรวจสอบความถูกต้องไขว้เพียงอย่างเดียว เหตุผลก็คือแม้ว่าคุณจะลองอีกครั้งจำนวนจริงของกรณีที่คุณดูมี จำกัด (และมักจะค่อนข้างเล็ก - มิฉะนั้นคุณจะไม่ต้องกังวลเกี่ยวกับความแตกต่างเหล่านี้)
ดูเช่นBengio วายและ Grandvalet, Y .: ไม่มีเป็นกลางประมาณการของความแปรปรวนของ K-พับข้ามการตรวจสอบวารสารเครื่องการเรียนรู้การวิจัย 2004, 5, 1089-1105
อย่างไรก็ตามในบางสถานการณ์คุณสามารถประมาณค่าความแปรปรวนได้: ด้วยการตรวจสอบความถูกต้องแบบข้าม k-fold ซ้ำคุณจะได้รับแนวคิดว่าแบบจำลองความไม่เสถียรมีบทบาทหรือไม่ และความแปรปรวนที่เกี่ยวข้องกับความไม่แน่นอนนี้เป็นส่วนหนึ่งของความแปรปรวนที่คุณสามารถลดได้ด้วยการตรวจสอบความถูกต้องข้ามซ้ำ (หากแบบจำลองของคุณมีความเสถียรอย่างสมบูรณ์แบบการทำซ้ำ / การวนซ้ำของการตรวจสอบไขว้แต่ละครั้งจะมีการคาดการณ์ที่เหมือนกันสำหรับแต่ละกรณีอย่างไรก็ตามคุณยังคงมีความแปรปรวนเนื่องจากตัวเลือก / องค์ประกอบจริงของชุดข้อมูลของคุณ) ดังนั้นจึงมีข้อ จำกัด สำหรับความแปรปรวนที่ต่ำกว่าของการตรวจสอบความถูกต้องข้าม k-fold ซ้ำ ๆ การทำมากขึ้นและมากขึ้นซ้ำ / ซ้ำไม่ได้ทำให้รู้สึกเป็นความแปรปรวนที่เกิดจากความจริงที่ว่าในท้ายที่สุดเพียงกรณีจริงได้มีการทดสอบไม่ได้รับผลกระทบ n
ความแปรปรวนที่เกิดจากความจริงที่ว่าในท้ายที่สุดเพียงกรณีจริงได้รับการทดสอบสามารถประมาณสำหรับกรณีพิเศษบางอย่างเช่นการทำงานของลักษณนามเป็นวัดจากสัดส่วนเช่นอัตราการตีอัตราความผิดพลาด, ความไวความจำเพาะค่าการทำนายและอื่น ๆ : พวกเขาปฏิบัติตามการแจกแจงทวินาม แต่น่าเสียดายที่นี้หมายถึงว่าพวกเขามีขนาดใหญ่ความแปรปรวนกับค่าประสิทธิภาพที่แท้จริงของรูปแบบที่สังเกตและขนาดตัวอย่างในส่วนของเศษส่วน สิ่งนี้มีค่าสูงสุดสำหรับσ 2 ( P ) = 1nP P nP=0.5σ2( หน้า^) = 1np ( 1 - p )พีพี^np = 0.5. คุณยังสามารถคำนวณช่วงความมั่นใจที่เริ่มต้นจากการสังเกต (@ Frank Harrell จะแสดงความคิดเห็นว่าสิ่งเหล่านี้ไม่มีกฎการให้คะแนนที่เหมาะสมดังนั้นคุณไม่ควรใช้มัน - ซึ่งเกี่ยวข้องกับความแปรปรวนขนาดใหญ่) อย่างไรก็ตาม IMHO มีประโยชน์สำหรับการ จำกัด ขอบเขตอนุรักษ์นิยม (มีกฎการให้คะแนนที่ดีขึ้นและพฤติกรรมที่ไม่ดีของเศษส่วนเหล่านี้เป็นข้อ จำกัด ที่เลวร้ายที่สุดสำหรับกฎที่ดีกว่า)
ดูตัวอย่างเช่นC. Beleites, R. Salzer และ V. Sergo: การตรวจสอบความถูกต้องของแบบจำลองการจำแนกประเภทอ่อนโดยใช้การเป็นสมาชิกของกลุ่มบางส่วน: แนวคิดเพิ่มเติมของความไวและการประยุกต์ใช้กับการจัดระดับของเนื้อเยื่อ Astrocytoma, Chemom Intell ห้องปฏิบัติการ Syst., 122 (2013), 12 - 22
ดังนั้นนี้จะช่วยให้ฉันหันไปรอบ ๆ การโต้แย้งของคุณกับการระงับการออก :
- การไม่สุ่มตัวอย่างเพียงอย่างเดียว (จำเป็น) ให้คุณประมาณค่าความแปรปรวนได้ดี
- OTOH หากคุณสามารถให้เหตุผลเกี่ยวกับความแปรปรวนขนาดทดสอบตัวอย่างขนาดของการประเมินการตรวจสอบข้ามที่เป็นไปได้สำหรับการระงับ
เครื่องมือประเมินของเราสำหรับการวัดเดี่ยวนี้จะได้รับการฝึกอบรมในชุด (เช่นชุด CV) ที่มีขนาดเล็กกว่าตัวอย่างเริ่มต้นของเราเนื่องจากเราต้องทำให้มีที่ว่างสำหรับชุดที่ค้างไว้ สิ่งนี้ส่งผลให้การประเมินลำเอียง (แง่ร้าย) มากขึ้นใน P1
ไม่จำเป็น (ถ้าเทียบกับ k-fold) - แต่คุณต้องแลกด้วย: ชุดเล็ก ๆ ที่ค้างเอาไว้ (เช่นของกลุ่มตัวอย่าง => อคติต่ำ (≈เหมือนกับ k-fold cv), ความแปรปรวนสูง (> k-fold cv โดยประมาณเป็นปัจจัย k)1k
สำหรับฉันแล้วการรายงานเกี่ยวกับชุดการทดสอบการระงับถือเป็นสิ่งที่ไม่ดีเนื่องจากการวิเคราะห์ตัวอย่าง CV นั้นให้ข้อมูลมากกว่า
โดยปกติแล้วใช่ อย่างไรก็ตามก็ควรระลึกไว้เสมอว่ามีข้อผิดพลาดที่สำคัญหลายประเภท (เช่นดริฟท์) ที่ไม่สามารถวัด / ตรวจจับได้โดยการตรวจสอบความถูกต้องของตัวอย่างใหม่
ดูเช่นEsbensen, KH และ Geladi, P. หลักการของการตรวจสอบความถูกต้อง: การใช้และการสุ่มตัวอย่างซ้ำสำหรับการตรวจสอบความถูกต้อง, วารสาร Chemometrics, 2010, 24, 168-187
แต่สำหรับฉันแล้วสำหรับจำนวนรวมของแบบจำลองทั้งหมดที่ผ่านการฝึกอบรม (จำนวน # ทั้งหมด) ซ้ำแล้วซ้ำอีก K-fold จะให้ผลการประมาณที่ลำเอียงน้อยลงและแม่นยำกว่า K-fold ซ้อนกัน เพื่อดูสิ่งนี้:
K-fold ที่ซ้ำกันใช้ส่วนที่ใหญ่กว่าของตัวอย่างทั้งหมดของเรากว่า K-fold ที่ซ้อนกันสำหรับ K เดียวกัน (นั่นคือมันนำไปสู่การลดอคติ)
ฉันจะบอกว่าไม่มี: มันไม่สำคัญว่าการฝึกอบรมแบบจำลองจะใช้ตัวอย่างการฝึกอบรมมันตราบใดที่แบบจำลองตัวแทนและแบบจำลอง "ของจริง" ใช้ในแบบเดียวกัน ทาง (ฉันดูที่การตรวจสอบความถูกต้องไขว้ภายใน / การประมาณค่าพารามิเตอร์ไฮเปอร์เป็นส่วนหนึ่งของการตั้งค่าแบบจำลอง)
สิ่งต่าง ๆ จะดูแตกต่างกันถ้าคุณเปรียบเทียบแบบจำลองตัวแทนซึ่งผ่านการฝึกอบรมรวมถึงการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์กับ "โมเดล" ซึ่งได้รับการฝึกอบรมเกี่ยวกับพารามิเตอร์ไฮเปอร์คงที่ แต่ IMHO ที่สรุปจากแอปเปิ้ลเป็น 1 ส้มkk - 1kn
k
การวนซ้ำ 100 ครั้งจะให้การวัดประมาณ 10 ครั้งของเราใน K-fold ที่ซ้อนกัน (K = 10) แต่ 100 การวัดใน K-fold (การวัดเพิ่มเติมนำไปสู่การแปรปรวนที่ต่ำกว่าใน P2)
การทำเช่นนี้จะสร้างความแตกต่างหรือไม่ขึ้นอยู่กับความไม่แน่นอนของโมเดล (ตัวแทน) ดูด้านบน สำหรับรุ่นที่เสถียรนั้นไม่เกี่ยวข้อง ดังนั้นอาจเป็นได้ว่าคุณทำซ้ำหรือทำซ้ำ 1,000 ครั้งหรือ 100 ครั้ง
และบทความนี้แตกต่างกันไปในรายการอ่านในหัวข้อนี้:
Cawley, GC และ Talbot, NLC ในการเลือกรุ่นที่มากเกินไปและการเลือกที่ตามมาในการประเมินประสิทธิภาพ, วารสารการวิจัยการเรียนรู้ของเครื่อง, 2010, 11, 2079-2107