เหตุใดนักวิจัยจึงใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าแทนที่จะทดสอบกับชุดการตรวจสอบ


23

ฉันได้อ่านรายงานวิจัยจำนวนมากเกี่ยวกับการจำแนกความเชื่อมั่นและหัวข้อที่เกี่ยวข้อง

ส่วนใหญ่ใช้การตรวจสอบความถูกต้องไขว้ 10 เท่าเพื่อฝึกฝนและทดสอบตัวจําแนก นั่นหมายความว่าจะไม่ทำการทดสอบ / ตรวจสอบแยกต่างหาก ทำไมถึงเป็นอย่างนั้น?

อะไรคือข้อดี / ข้อเสียของวิธีการนี้โดยเฉพาะอย่างยิ่งสำหรับผู้ที่ทำวิจัย?


3
คุณแน่ใจหรือไม่ว่าไม่มีการทดสอบแยกต่างหาก?
Douglas Zare

คำตอบ:


17

นี่ไม่ใช่ปัญหาถ้า CV ซ้อนกันเช่นการปรับให้เหมาะสมทั้งหมดการเลือกคุณสมบัติและการเลือกรูปแบบไม่ว่าจะใช้ CV ด้วยตนเองหรือไม่ก็ตามจะถูกรวมไว้ใน CV ขนาดใหญ่หนึ่งรายการ

สิ่งนี้เปรียบเทียบกับการมีชุดการตรวจสอบความถูกต้องพิเศษอย่างไร ในขณะที่ชุดการตรวจสอบความถูกต้องมักจะเป็นเพียงส่วนหนึ่งที่สุ่มเลือกมากกว่าหรือน้อยกว่าของข้อมูลทั้งหมด แต่มันก็เท่ากับการทำซ้ำ CV หนึ่งครั้ง ด้วยเหตุนี้จริง ๆ แล้วมันเป็นวิธีที่แย่กว่านั้นเพราะมันสามารถเอนเอียงได้ง่าย ๆ (หวังว่า) โชคดี / ไม่เลือกอย่างโชคดีหรือชุดตรวจสอบที่ถูกเลือกโดยเชอร์รี่

ข้อยกเว้นเพียงอย่างเดียวคืออนุกรมเวลาและข้อมูลอื่น ๆ ที่ลำดับวัตถุมีความสำคัญ; แต่พวกเขาต้องการการดูแลเป็นพิเศษด้วยวิธีใดวิธีหนึ่ง


16

เหตุผลหลักคือตัวประมาณค่าการตรวจสอบความถูกต้องไขว้ของ k-fold มีความแปรปรวนต่ำกว่าตัวประมาณค่าแบบชุดโฮลด์เอาต์เดียวซึ่งมีความสำคัญมากหากจำนวนข้อมูลที่มีอยู่มี จำกัด หากคุณมีชุดค้างหนึ่งชุดที่ใช้ข้อมูล 90% สำหรับการฝึกอบรมและ 10% สำหรับการทดสอบชุดทดสอบนั้นเล็กมากดังนั้นจะมีการเปลี่ยนแปลงมากมายในการประเมินประสิทธิภาพสำหรับตัวอย่างข้อมูลที่แตกต่างกัน หรือสำหรับพาร์ติชั่นต่าง ๆ ของข้อมูลเพื่อสร้างชุดฝึกอบรมและชุดทดสอบ การตรวจสอบความถูกต้อง k-fold ช่วยลดความแปรปรวนนี้ได้โดยการหาค่าเฉลี่ยของพาร์ติชันที่ต่างกัน k ดังนั้นการประเมินประสิทธิภาพจึงไม่ไวต่อการแบ่งพาร์ติชันของข้อมูล คุณสามารถดำเนินการต่อไปได้อีกโดยการตรวจสอบความถูกต้องข้ามแบบ k-fold ซ้ำซึ่งการตรวจสอบความถูกต้องไขว้กันทำโดยใช้การแบ่งพาร์ติชันที่แตกต่างกันของข้อมูลในรูปแบบชุดย่อย k

อย่างไรก็ตามโปรดทราบว่าขั้นตอนทั้งหมดของขั้นตอนการติดตั้งแบบจำลอง (การเลือกรุ่นการเลือกคุณสมบัติ ฯลฯ ) จะต้องดำเนินการอย่างเป็นอิสระในแต่ละขั้นตอนของกระบวนการตรวจสอบความถูกต้องไขว้กันหรือการประเมินประสิทธิภาพที่ได้นั้น


9

[แก้ไขในความคิดเห็น]

ฉันคิดว่ามีปัญหาหากคุณใช้ผลลัพธ์ CV เพื่อเลือกระหว่างรุ่นต่างๆ

CV ช่วยให้คุณสามารถใช้ชุดข้อมูลทั้งหมดในการฝึกอบรมและทดสอบรูปแบบ / วิธีการหนึ่งในขณะที่สามารถมีความคิดที่สมเหตุสมผลว่าจะสรุปได้ดีเพียงใด แต่ถ้าคุณเปรียบเทียบหลายรุ่นสัญชาตญาณของฉันก็คือการเปรียบเทียบแบบจำลองนั้นใช้การแยกการทดสอบรถไฟในระดับพิเศษที่ CV ให้คุณดังนั้นผลลัพธ์สุดท้ายจะไม่เป็นการประเมินความถูกต้องของโมเดลที่เลือกอย่างสมเหตุสมผล

ดังนั้นฉันเดาว่าถ้าคุณสร้างแบบจำลองหลายแบบและเลือกแบบใดแบบหนึ่งจาก CV คุณจะรู้สึกดีกับสิ่งที่คุณพบ จะต้องมีชุดการตรวจสอบอีกชุดเพื่อดูว่าผู้ชนะดีกว่า


ขอขอบคุณ. ถูกตัอง. แต่คำถามของฉันคือโดยเฉพาะเกี่ยวกับสาเหตุที่ reseach เอกสารขาดการตรวจสอบขั้นสุดท้าย? มีเหตุผลที่เหมาะสมหรือไม่? มันเกี่ยวกับข้อมูลน้อยลงหรือเพราะ CV ทำงานได้ดีและไม่จำเป็นต้องมีการตรวจสอบแยกต่างหาก?
user18075

5
Y

7
  • จากประสบการณ์ของฉันเหตุผลหลักมักเป็นเพราะคุณมีตัวอย่างไม่เพียงพอ
    ในสาขาของฉัน (การจำแนกประเภทของตัวอย่างทางชีวภาพ / การแพทย์) บางครั้งชุดทดสอบจะแยกกัน แต่บ่อยครั้งที่มันประกอบไปด้วยเพียงไม่กี่กรณี ในกรณีนั้นช่วงความมั่นใจมักกว้างเกินไปที่จะใช้งานได้

  • ข้อดีอีกประการของการตรวจสอบข้ามซ้ำ / ซ้ำซ้ำหรือการตรวจสอบออกจากการบูตคือการที่คุณสร้างกลุ่มของ "ตัวแทน" สิ่งเหล่านี้ถือว่าเท่าเทียมกัน หากไม่ใช่โหมดจะไม่เสถียร คุณสามารถวัดความไม่แน่นอนนี้ได้ (เทียบกับการแลกเปลี่ยนกรณีฝึกอบรมสองสามกรณี) โดยการเปรียบเทียบแบบจำลองตัวแทนด้วยตัวเองหรือแบบจำลองการทำนายตัวแทนแบบต่าง ๆ ที่ทำในกรณีเดียวกัน

  • บทความนี้โดย Esbensen & Geladiให้การอภิปรายที่ดีเกี่ยวกับข้อ จำกัด บางประการของการตรวจสอบข้าม
    คุณสามารถดูแลได้เกือบทั้งหมด แต่ประเด็นสำคัญอย่างหนึ่งที่ไม่สามารถแก้ไขได้ด้วยการตรวจสอบความถูกต้องของการตรวจสอบความถูกต้องคือการดริฟท์ซึ่งเกี่ยวข้องกับประเด็นของ mbq:

    ข้อยกเว้นเพียงอย่างเดียวคืออนุกรมเวลาและข้อมูลอื่น ๆ ที่ลำดับวัตถุมีความสำคัญ

    ดริฟต์หมายความว่าเช่นการตอบสนองของเครื่องมือ / การสอบเทียบที่แท้จริงเปลี่ยนแปลงอย่างช้าๆเมื่อเวลาผ่านไป ดังนั้นข้อผิดพลาดทั่วไปสำหรับกรณีที่ไม่รู้จักอาจไม่เหมือนกับกรณีในอนาคตที่ไม่รู้จัก คุณมาถึงคำแนะนำเช่น "ทำซ้ำการสอบเทียบรายวัน / รายสัปดาห์ / ... " หากคุณพบว่ามีการเบี่ยงเบนไปในระหว่างการตรวจสอบความถูกต้อง แต่สิ่งนี้จำเป็นต้องมีชุดการทดสอบที่ได้มาอย่างเป็นระบบภายหลังข้อมูลการฝึกอบรม
    (คุณสามารถแยกแบบ "พิเศษ" ที่คำนึงถึงเวลาการได้มาซึ่งบัญชีหากการทดสอบของคุณมีการวางแผนตามลำดับ แต่โดยปกติจะไม่ครอบคลุมเวลามากเท่าที่คุณต้องการทดสอบสำหรับการตรวจจับดริฟท์)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.