คำตอบสั้น ๆ : เทคนิคการตรวจสอบทั้งสองเกี่ยวข้องกับการฝึกอบรมและการทดสอบหลายรุ่น
คำตอบยาว ๆ เกี่ยวกับวิธีการทำให้ดีที่สุด: แน่นอนขึ้นอยู่กับว่า แต่นี่เป็นความคิดบางอย่างที่ฉันใช้เพื่อเป็นแนวทางในการตัดสินใจเกี่ยวกับการตรวจสอบความถูกต้องอีกครั้ง ฉันนักเคมีดังนั้นกลยุทธ์เหล่านี้และเงื่อนไขที่เกี่ยวข้องมากขึ้นหรือน้อยลงเกี่ยวข้องกับปัญหาการวิเคราะห์ทางเคมี
เพื่ออธิบายความคิดของฉันสักหน่อยฉันคิดว่าการตรวจสอบความถูกต้องของการวัดคุณภาพของแบบจำลองและการฝึกอบรมเป็นการวัดพารามิเตอร์ของแบบจำลอง - สิ่งนี้นำไปสู่
มีมุมมองที่แตกต่างกันสองประการสำหรับแนวทางเหล่านี้เกี่ยวกับการตรวจสอบความถูกต้อง:
มุมมองแบบดั้งเดิมสำหรับการตรวจสอบความถูกต้องของการสุ่มตัวอย่างคือ: ชุดข้อมูลที่ resampled (บางครั้งเรียกว่าชุดข้อมูลตัวแทนหรือเซ็ตย่อย) จะเหมือนกันกับชุดข้อมูล (จริง) ดั้งเดิม
ดังนั้นชุดข้อมูลตัวแทนจึงเหมาะกับชุดข้อมูลตัวแทนจึงเหมือนกับชุดข้อมูลที่พอดีกับชุดข้อมูลจริงทั้งหมด แต่ตัวอย่างบางส่วนถูกปล่อยออกมาจากชุดข้อมูลตัวแทนตัวแทนโมเดลนี้ไม่ขึ้นกับอะไร ดังนั้นฉันจึงนำตัวอย่างที่เหลือหรือไม่อยู่ออกจาก bootstrap เป็นชุดการตรวจสอบความถูกต้องอิสระสำหรับโมเดลตัวแทนและใช้ผลลัพธ์เป็นการประมาณของข้อมูลทั้งหมดแบบจำลอง
อย่างไรก็ตามแบบจำลองตัวแทนมักไม่เทียบเท่ากับแบบจำลองข้อมูลทั้งหมด: ตัวอย่างที่น้อยกว่านั้นถูกใช้สำหรับการฝึกอบรม (แม้สำหรับ bootstrap จำนวนตัวอย่างที่ต่างกันก็น้อยกว่า) ตราบใดที่ช่วงการเรียนรู้เพิ่มขึ้นโมเดลตัวแทนก็จะแย่กว่าแบบจำลองข้อมูลทั้งหมดเล็กน้อย นี่เป็นอคติเชิงลบที่เป็นที่รู้จักกันดีของการตรวจสอบความถูกต้องของการสุ่มตัวอย่างอีกครั้ง (ถ้าคุณจบด้วยอคติเชิงบวกซึ่งมักเป็นตัวบ่งชี้ว่าชุดการทดสอบซ้าย - ออก / oob ไม่ได้เป็นอิสระจากโมเดล)
มุมมองที่สองคือชุดข้อมูลที่ resampled เป็นรุ่นที่รบกวนของชุดข้อมูลทั้งหมด ตรวจสอบว่าแบบจำลองตัวแทน (หรือการทำนายของพวกเขาสำหรับตัวอย่างซ้าย - ออก / oob) แตกต่างจากทั้งข้อมูลแบบจำลองแล้วบอกบางสิ่งเกี่ยวกับความมั่นคงแบบที่เกี่ยวกับข้อมูลการฝึกอบรม
จากมุมมองนี้โมเดลตัวแทนก็เหมือนกับการวัดซ้ำ สมมติว่างานของคุณคือการวัดเนื้อหาของแร่บางส่วนของขบวนรถไฟทั้งหมด แร่นั้นไม่เป็นเนื้อเดียวกัน ดังนั้นคุณต้องสุ่มตัวอย่างทางกายภาพจากสถานที่ต่าง ๆ จากนั้นดูเนื้อหาโดยรวมและความหลากหลายของมันในรถไฟ ในทำนองเดียวกันถ้าคุณคิดว่าแบบจำลองของคุณอาจไม่เสถียรคุณสามารถดูประสิทธิภาพโดยรวมและการเปลี่ยนแปลงของแบบจำลองตัวแทน
หากคุณคิดอย่างนั้นต่อไปวิธีการของคุณ (1) จะบอกบางอย่างเกี่ยวกับการทำนายจำนวนรุ่นเดียวกันที่แตกต่างกันสำหรับตัวอย่างขนาดที่แตกต่างกัน n
ฉันมักจะสุ่มตัวอย่างกรณีเช่นหนึ่งกรณี = การวัดทั้งหมดของผู้ป่วยรายหนึ่ง จากนั้นผู้ป่วยนอกทั้งหมดจะไม่ได้รับข้อมูลการฝึกอบรมใด ๆ สิ่งนี้มีประโยชน์หากคุณรู้ว่าการวัดในกรณีหนึ่งจะคล้ายกันมากกว่าการวัดในกรณีอื่น ๆ (หรืออย่างน้อยคุณจะไม่สามารถแยกความเป็นไปได้นี้ได้)
ไม่ว่าการตรวจสอบการสุ่มตัวอย่างใหม่ช่วยให้คุณสามารถวัดประสิทธิภาพหากไม่ทราบตัวอย่างที่หากคุณต้องการวัดประสิทธิภาพสำหรับตัวอย่างที่ไม่รู้จักในอนาคต (ดริฟท์ด้วยเครื่องมือ) คุณต้องมีชุดการทดสอบที่วัดได้ "ในอนาคต" นั่นคือเวลาที่แน่นอนหลังจากวัดตัวอย่างการฝึกอบรมทั้งหมดแล้ว ในเคมีวิเคราะห์จำเป็นต้องใช้เช่นหากคุณต้องการทราบว่าคุณต้องทำการสอบเทียบเครื่องมือของคุณบ่อยครั้งเพียงใด (สำหรับการตัดสินใจแต่ละครั้งรายวันรายสัปดาห์รายเดือนรายเดือน ... )
Bootstrap เทียบกับคำศัพท์การตรวจสอบข้าม :
- การ resampling พร้อมการแทนที่มักเรียกว่า bootstrap
- การสุ่มใหม่โดยไม่มีการแทนที่การตรวจสอบความถูกต้องข้าม
ทั้งสองสามารถมีการแบ่งชั้นบางชนิด ในอดีตการแยกเพื่อการตรวจสอบความถูกต้องของข้อมูล (อย่างน้อยก็ในวิชาเคมี) มักจะทำแบบไม่สุ่มเช่นการตรวจสอบความถูกต้องแบบข้าม 3 เท่าของแบบฟอร์ม abcabc..abc (ชุดข้อมูลเรียงลำดับ WRT ผลลัพธ์) สำหรับการสอบเทียบ / การถดถอยถ้าคุณมีกรณีน้อยมาก (ตัวอย่างทางกายภาพ) และคุณต้องการตรวจสอบให้แน่ใจว่าช่วงข้อมูลทั้งหมดของคุณครอบคลุม
เทคนิคทั้งสองนั้นมักจะทำซ้ำ / ซ้ำหลายครั้ง อีกครั้งด้วยเหตุผลทางประวัติศาสตร์และอย่างน้อยในวิชาเคมี, การตรวจสอบข้าม k-fold มักจะหมายถึงการฝึกอบรมและการทดสอบแบบจำลอง k (แต่ละทดสอบด้วย 1 / kth ของข้อมูลที่ไม่ได้เกี่ยวข้องกับการฝึกอบรม) หากมีการแบ่งการสุ่มแบบสุ่มซ้ำผู้คนเรียกว่าการตรวจสอบข้ามซ้ำ
kknnn
- โปรดทราบว่า bootstrap นั้นไม่เหมาะสำหรับเทคนิคการปรับแบบบางอย่างที่จะลบการวัดซ้ำออกไป
- มีบางรุ่นของ bootstrap เช่น. 632-bootstrap และ. 632 + -bootstrap
kk