การตรวจสอบความถูกต้องไขว้เป็นการทดแทนที่เหมาะสมสำหรับชุดการตรวจสอบหรือไม่


27

ในการจัดประเภทข้อความฉันมีชุดการฝึกอบรมที่มีประมาณ 800 ตัวอย่างและชุดทดสอบที่มีประมาณ 150 ตัวอย่าง ไม่เคยใช้ชุดทดสอบและรอจนกว่าจะหมด

ฉันใช้ชุดการฝึกอบรมตัวอย่าง 800 ชุดพร้อมการตรวจสอบไขว้ 10 เท่าในขณะที่ปรับแต่งและปรับแต่งตัวแยกประเภทและคุณสมบัติ ซึ่งหมายความว่าฉันไม่ได้มีชุดการตรวจสอบแยกต่างหาก แต่แต่ละชุดมี 10 เท่าชุดตรวจสอบจะถูกเลือกโดยอัตโนมัติ

หลังจากที่ฉันจะพอใจกับทุกสิ่งและต้องการเข้าสู่ขั้นตอนสุดท้ายของการประเมินผลฉันจะฝึกตัวแยกประเภทของฉันในตัวอย่าง 800 ตัวอย่าง และทดสอบชุดทดสอบตัวอย่าง 150 ชุด

ฉันเข้าใจหรือไม่ว่าการใช้การตรวจสอบข้ามในการจำแนกข้อความถูกต้องหรือไม่? วิธีนี้ใช้ได้หรือไม่

คำถามอื่นการตรวจสอบข้าม wrt คือ:

แทนที่จะเป็น 10 เท่าฉันก็ลองใช้ตัวบ่งชี้ทั่วไปสำหรับการแสดงแทน เพราะสำหรับการออกไปข้างนอกเป็นไปไม่ได้ที่จะมีข้อมูลเกี่ยวกับ f1 / ความแม่นยำ / การเรียกคืนฉันสงสัยว่าความสัมพันธ์ระหว่างความถูกต้องจากการออกจากที่หนึ่งกับตัวชี้วัดจาก 10 เท่าคืออะไร

ข้อมูลเชิงลึกใด ๆ จะได้รับการชื่นชมอย่างมาก


แก้ไข:

นี่เป็นการแนะนำที่ดีมากสำหรับการตรวจสอบความถูกต้องข้าม มันยังอ้างถึงงานวิจัยอื่น ๆ


3
การประมาณค่าแบบลาก่อนออกนั้นไม่เอนเอียงในขณะที่การตรวจสอบความถูกต้องแบบ 10 เท่าจะทำให้คุณมีอคติ อย่างไรก็ตามความไม่เอนเอียงมาที่ราคาของความแปรปรวนสูง
blubb

@ Simon ฉันคิดว่ามันขึ้นอยู่กับความซับซ้อนของปัญหา ไม่มัน
Biostat

@blubb: LOO ในบางสถานการณ์อาจมีอคติในแง่ร้ายขนาดใหญ่ ความแปรปรวนของ LOO และการเรียกใช้ CV 10 เท่าแบบครั้งเดียวมักจะคล้ายกันมาก อคติในแง่ดี (การประเมินข้อผิดพลาดต่ำเกินไป) ที่นี่ไม่ได้มาจากตัวเลือกการสุ่มใหม่ แต่จากความจริงที่ว่าการตรวจสอบความถูกต้องแบบข้ามถูกใช้ไปแล้วสำหรับการเพิ่มประสิทธิภาพการขับเคลื่อนข้อมูล หลังจากนั้นจำเป็นต้องมีการตรวจสอบอิสระอีกครั้ง นั่นอาจเป็นการวนรอบนอกของการตรวจสอบข้ามเช่นกัน (โดยไม่มีอคติในแง่ดี!)
cbeleites รองรับ Monica

คำตอบ:


15

คุณได้อธิบายวิธีการทำงานกับ crossvalidation อย่างถูกต้องแล้ว ในความเป็นจริงคุณ 'โชคดี' มีการตรวจสอบที่เหมาะสมในตอนท้ายเพราะบ่อยครั้ง crossvalidation จะใช้ในการเพิ่มประสิทธิภาพของรูปแบบ แต่ไม่มีการตรวจสอบความถูกต้อง "ของจริง"

ดังที่ @Simon Stelling กล่าวไว้ในความคิดเห็นของเขาการข้ามค่าจะนำไปสู่ข้อผิดพลาดโดยประมาณที่ต่ำกว่า (ซึ่งสมเหตุสมผลเนื่องจากคุณนำข้อมูลมาใช้ซ้ำ) แต่โชคดีที่นี่เป็นกรณีสำหรับทุกรุ่นดังนั้นยกเว้นความเสียหาย เล็กน้อยสำหรับรุ่น "เลว" และอีกรุ่นสำหรับ "ดี") การเลือกรุ่นที่ทำงานได้ดีที่สุดในเกณฑ์การข้ามค่าเฉลี่ยจะโดยทั่วไปจะดีที่สุดสำหรับ "ของจริง"

วิธีที่บางครั้งใช้ในการแก้ไขข้อผิดพลาดที่ค่อนข้างต่ำโดยเฉพาะอย่างยิ่งถ้าคุณกำลังมองหาโมเดล parsimoneous คือการเลือกรูปแบบที่เล็กที่สุด / วิธีที่ง่ายที่สุดซึ่งข้อผิดพลาด crossvalidated อยู่ภายในหนึ่ง SD จาก (crossvalidated) ที่เหมาะสม crossvalidation ตัวนี้เป็นฮิวริสติกดังนั้นควรใช้ด้วยความระมัดระวัง (ถ้านี่เป็นตัวเลือก: ทำพล็อตข้อผิดพลาดของคุณกับพารามิเตอร์การปรับแต่ง: นี่จะให้ความคิดว่าคุณมีผลลัพธ์ที่ยอมรับได้หรือไม่)

เมื่อพิจารณาถึงอคติที่ลดลงของข้อผิดพลาดเป็นสิ่งสำคัญที่จะไม่เผยแพร่ข้อผิดพลาดหรือการวัดประสิทธิภาพอื่น ๆ จาก crossvalidation โดยไม่กล่าวถึงว่าสิ่งเหล่านี้มาจาก crossvalidation (แม้ว่าความจริงจะบอกว่า: ฉันเคยเห็น การวัดประสิทธิภาพนั้นได้มาจากการตรวจสอบประสิทธิภาพของชุดข้อมูลเดิม --- ดังนั้นการกล่าวถึง crossvalidation ทำให้ผลลัพธ์ของคุณคุ้มค่ามากขึ้นจริง ๆ ) สำหรับคุณสิ่งนี้จะไม่เป็นปัญหาเนื่องจากคุณมีชุดการตรวจสอบความถูกต้อง

เตือนครั้งสุดท้าย: ถ้ารูปแบบของคุณกระชับผลลัพธ์ในสินค้าใกล้บางอย่างก็เป็นความคิดที่ดีที่จะดูที่การแสดงของพวกเขาในชุดการตรวจสอบของคุณหลังจากนั้น แต่ไม่ได้เลือกฐานรุ่นสุดท้ายของคุณว่าคุณสามารถที่ใช้ที่ดีที่สุดนี้เพื่อบรรเทาของคุณ มโนธรรม แต่ต้องเลือกรุ่นสุดท้ายของคุณก่อนที่คุณจะดูชุดการตรวจสอบ

Wrt คำถามที่สองของคุณ: ฉันเชื่อว่า Simon ให้คำตอบทั้งหมดที่คุณต้องการในความคิดเห็นของเขา แต่เพื่อให้ภาพสมบูรณ์: บ่อยครั้งที่มันเป็นการแลกเปลี่ยนความแปรปรวนแบบอคติที่เกิดขึ้น หากคุณรู้ว่าโดยเฉลี่ยแล้วคุณจะได้ผลลัพธ์ที่ถูกต้อง (ไม่เอนเอียง) โดยทั่วไปราคาจะเป็นตัวการคำนวณแต่ละตัวของคุณอาจอยู่ห่างจากมันมาก (ความแปรปรวนสูง) ในสมัยก่อนความไม่เอนเอียงคือ nec plus ultra ในวันปัจจุบันคน ๆ หนึ่งยอมรับในเวลาที่มีอคติ (เล็ก) (ดังนั้นคุณจึงไม่รู้ด้วยซ้ำว่าค่าเฉลี่ยของการคำนวณของคุณจะทำให้ได้ผลลัพธ์ที่ถูกต้อง) หากเป็นเช่นนั้น ส่งผลให้ความแปรปรวนต่ำ จากประสบการณ์พบว่ามีความสมดุลเป็นที่ยอมรับด้วย crossvalidation 10 เท่า สำหรับคุณอคติจะเป็นปัญหาสำหรับการเพิ่มประสิทธิภาพโมเดลของคุณเท่านั้น เนื่องจากคุณสามารถประเมินเกณฑ์หลังจากนั้น (ไม่เอนเอียง) ในชุดการตรวจสอบความถูกต้อง ดังนั้นจึงไม่มีเหตุผลที่จะไม่ใช้ crossvalidation


"แต่ต้องเลือกรุ่น" สุดท้าย "ของคุณก่อนที่คุณจะดูชุดการตรวจสอบความถูกต้อง" ดี
Mooncrater
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.