การทำความเข้าใจการตรวจสอบความถูกต้องข้ามกลุ่ม


54

ความแตกต่างระหว่างคืออะไรแซดข้ามการตรวจสอบและการตรวจสอบข้าม ?

Wikipedia พูดว่า:

ในการตรวจสอบความถูกต้องไขว้ของ k-stratifiedการพับจะถูกเลือกเพื่อให้ค่าการตอบสนองเฉลี่ยมีค่าเท่ากันในการพับทั้งหมด ในกรณีของการจำแนกแบบแบ่งขั้วหมายความว่าแต่ละการพับมีสัดส่วนที่เท่ากันของฉลากระดับสองประเภท

แต่ฉันยังคงสับสน

  1. อะไรmean response valueหมายถึงในบริบทนี้?
  2. ทำไมอันดับ 1 ถึงสำคัญ
  3. หนึ่งจะประสบความสำเร็จ # 1 ในทางปฏิบัติอย่างไร

คำตอบ:


43

บทความการตรวจสอบข้ามในสารานุกรมของระบบฐานข้อมูลพูดว่า:

การแบ่งชั้นเป็นกระบวนการของการจัดเรียงข้อมูลใหม่เพื่อให้แน่ใจว่าการพับแต่ละครั้งเป็นตัวแทนที่ดีของภาพรวม ตัวอย่างเช่นในปัญหาการจำแนกเลขฐานสองที่แต่ละชั้นประกอบด้วย 50% ของข้อมูลที่ดีที่สุดคือการจัดเรียงข้อมูลดังกล่าวในทุกครึ่งชั้นแต่ละชั้นประกอบด้วยประมาณครึ่งหนึ่งของอินสแตนซ์

เกี่ยวกับความสำคัญของการแบ่งเป็นหมวดหมู่ Kohavi (การศึกษาการตรวจสอบข้ามและการบูตเพื่อประเมินความถูกต้องและการเลือกรูปแบบ) สรุปได้ว่า:

การแบ่งชั้นเป็นแบบแผนที่ดีกว่าทั้งในแง่ของความเอนเอียงและความแปรปรวนเมื่อเปรียบเทียบกับการตรวจสอบความถูกต้องข้ามแบบปกติ


5
คุณช่วยอธิบายได้อย่างสังหรณ์ใจว่าทำไม CV ถึงดีกว่าปกติ?
MohamedEzz

อาจรวมถึงย่อหน้าที่มีระดับของการแบ่งชั้นที่แตกต่างกันซึ่งคุณสามารถตั้งเป้าหมายไว้และพวกมันเข้าไปยุ่งเกี่ยวกับองศาที่แตกต่างกับการพับแบบ บางครั้งสิ่งที่คุณต้องการคือการทำให้แน่ใจว่ามีการบันทึกอย่างน้อยหนึ่งระเบียนของแต่ละชั้นเรียนในแต่ละครั้ง จากนั้นคุณสามารถสร้างรอยพับแบบสุ่มตรวจสอบว่าเงื่อนไขนั้นตรงตามเงื่อนไขหรือไม่และในกรณีที่ไม่น่าเป็นไปได้
David Ernst

37

การแบ่งเป็นชั้น ๆ พยายามที่จะทำให้แน่ใจว่าแต่ละครั้งจะเป็นตัวแทนของชั้นข้อมูลทั้งหมด โดยทั่วไปจะทำในวิธีการจัดหมวดหมู่แบบมีผู้สอนและมีจุดมุ่งหมายเพื่อให้แน่ใจว่าแต่ละชั้นเรียน (โดยประมาณ) แสดงเท่า ๆ กันในแต่ละช่วงเวลาของการทดสอบ

สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้เกี่ยวข้องกับอคติของอัลกอริธึมการจำแนกส่วนใหญ่ พวกเขามักจะให้น้ำหนักแต่ละตัวอย่างเท่า ๆ กันซึ่งหมายความว่าคลาสที่มีผู้แสดงมากเกินไปจะได้รับน้ำหนักมากเกินไป (เช่นการปรับ F-measure, ความแม่นยำหรือข้อผิดพลาดในรูปแบบเสริม) การแบ่งชั้นไม่สำคัญสำหรับอัลกอริทึมที่ให้น้ำหนักแต่ละคลาสเท่า ๆ กัน (เช่นการเพิ่มประสิทธิภาพ Kappa, Informedness หรือ ROC AUC) หรือตามเมทริกซ์ต้นทุน (เช่นให้ค่ากับน้ำหนักแต่ละคลาสอย่างถูกต้องและ / หรือค่าใช้จ่ายสำหรับแต่ละวิธีของ misclassifying) ดูเช่นพลัง DMW (2014) สิ่งที่การวัด F ไม่ได้วัด: คุณสมบัติข้อบกพร่องการเข้าใจผิดและการแก้ไข http://arxiv.org/pdf/1503.06410

ปัญหาเฉพาะอย่างหนึ่งที่มีความสำคัญในอัลกอริธึมที่ไม่เอนเอียงหรือสมดุลย์คือพวกเขามักจะไม่สามารถเรียนรู้หรือทดสอบคลาสที่ไม่ได้แสดงในเวลาเดียวกันและแม้แต่กรณีที่มีเพียงคลาสเดียวเท่านั้น แสดงในครึ่งพับไม่อนุญาตให้วางทั่วไปเพื่อดำเนินการ resp การประเมินผล อย่างไรก็ตามการพิจารณานี้ไม่เป็นสากลและตัวอย่างก็ไม่ได้นำไปใช้กับการเรียนรู้ในชั้นเรียนมากเพียงใดซึ่งพยายามที่จะตัดสินว่าอะไรคือสิ่งที่ปกติสำหรับแต่ละชั้นเรียนและระบุผู้ผิดได้อย่างมีประสิทธิภาพว่าเป็นชั้นเรียนที่แตกต่างกัน เป็นเรื่องเกี่ยวกับการพิจารณาสถิติที่ไม่ได้สร้างตัวจําแนกเฉพาะ

ในอีกทางหนึ่งการแบ่งชั้นภายใต้การกำกับดูแลจะลดความบริสุทธิ์ทางเทคนิคของการประเมินเนื่องจากฉลากของข้อมูลการทดสอบไม่ควรส่งผลกระทบต่อการฝึกอบรม แต่ในการแบ่งชั้นจะใช้ในการเลือกอินสแตนซ์การฝึกอบรม การแบ่งชั้นที่ไม่ได้รับการสำรองนั้นยังมีความเป็นไปได้โดยอาศัยการกระจายข้อมูลที่คล้ายกันรอบ ๆ เพื่อดูเฉพาะคุณลักษณะของข้อมูลไม่ใช่คลาสจริง ดูตัวอย่างเช่น http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), การแบ่งชั้นการตรวจสอบข้ามที่ไม่ได้รับการรับรองเพื่อความถูกต้อง

การแบ่งชั้นยังสามารถนำไปใช้กับการถดถอยมากกว่าการจัดหมวดหมู่ซึ่งในกรณีเช่นการแบ่งชั้นที่ไม่ได้รับการสำรองความคล้ายคลึงกันมากกว่าการใช้เอกลักษณ์ แต่รุ่นที่อยู่ภายใต้การดูแลจะใช้ค่าฟังก์ชันจริงที่รู้จัก

ภาวะแทรกซ้อนเพิ่มเติมคือชั้นเรียนที่หายากและการจำแนกประเภทหลายแถบซึ่งการจำแนกประเภทจะดำเนินการในหลายมิติ (อิสระ) ที่นี่ tuples ของป้ายกำกับที่แท้จริงในทุกมิติสามารถใช้เป็นคลาสเพื่อจุดประสงค์ในการตรวจสอบข้าม อย่างไรก็ตามไม่จำเป็นต้องมีชุดค่าผสมทั้งหมดและชุดค่าผสมบางชุดอาจหายาก คลาสที่หายากและชุดค่าผสมที่หายากเป็นปัญหาที่คลาส / ชุดค่าผสมที่เกิดขึ้นอย่างน้อยหนึ่งครั้ง แต่น้อยกว่า K คูณ (ใน K-CV) ไม่สามารถแสดงได้ในการทดสอบทั้งหมด ในกรณีเช่นนี้เราสามารถพิจารณารูปแบบของการเพิ่มระดับแบบแบ่งชั้น (การสุ่มตัวอย่างที่มีการแทนที่เพื่อสร้างการฝึกอบรมแบบเต็มขนาดที่มีการคาดคะเนซ้ำและ 36.8% คาดว่าจะไม่ได้เลือกสำหรับการทดสอบ .

อีกวิธีหนึ่งในการแบ่งเป็นหลายกลุ่มคือพยายามแบ่งชั้นหรือ bootstrap แต่ละมิติของคลาสแยกจากกันโดยไม่ต้องการให้แน่ใจว่าเลือกชุดค่าผสมที่เป็นตัวแทน ด้วย L label และอินสแตนซ์ N และ Kkl อินสแตนซ์ของคลาส k สำหรับเลเบล l เราสามารถสุ่มเลือก (โดยไม่ต้องเปลี่ยน) จากชุดของอินสแตนซ์ที่มีป้ายกำกับที่เกี่ยวข้อง Dkl โดยประมาณอินสแตนซ์ N / LKkl สิ่งนี้ไม่รับประกันความสมดุลที่เหมาะสม สิ่งนี้สามารถปรับปรุงได้โดยการ จำกัด การเลือกป้ายกำกับที่หรือเกินโควต้าเว้นแต่จะไม่มีตัวเลือก (เนื่องจากชุดค่าผสมบางอย่างไม่เกิดขึ้นหรือหายาก) ปัญหามักจะหมายถึงว่ามีข้อมูลน้อยเกินไปหรือมีมิติไม่อิสระ


5

ค่าเฉลี่ยของการตอบกลับมีค่าเท่ากันโดยประมาณในการพับทั้งหมดเป็นอีกวิธีหนึ่งในการบอกสัดส่วนของแต่ละคลาสในการพับทั้งหมดจะเท่ากันโดยประมาณ

ตัวอย่างเช่นเรามีชุดข้อมูลที่มี 80 คลาส 0 เรคคอร์ดและ 20 คลาส 1 เรคคอร์ด เราอาจได้รับค่าการตอบสนองเฉลี่ย (80 * 0 + 20 * 1) / 100 = 0.2 และเราต้องการให้ 0.2 เป็นค่าการตอบสนองเฉลี่ยของเท่าทั้งหมด นี่เป็นวิธีที่รวดเร็วใน EDA ในการวัดว่าชุดข้อมูลที่ให้นั้นมีความไม่สมดุลแทนที่จะนับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.