การตรวจสอบข้ามรวมถึงการฝึกอบรมการตรวจสอบและการทดสอบ ทำไมเราต้องการชุดย่อยสามชุด


28

ฉันมีคำถามเกี่ยวกับกระบวนการตรวจสอบข้าม ฉันอยู่ในช่วงของการเรียนรู้ของเครื่องใน Cursera หนึ่งในหัวข้อที่เกี่ยวกับการตรวจสอบข้าม ฉันพบว่ามันยากที่จะทำตามเล็กน้อย ฉันรู้ว่าทำไมเราต้องมี CV เพราะเราต้องการให้แบบจำลองของเราทำงานได้ดีในอนาคต (ไม่ทราบ) ข้อมูลและ CV ป้องกันไม่ให้เกินกำลัง อย่างไรก็ตามกระบวนการเองก็สับสน

สิ่งที่ฉันเข้าใจคือฉันแบ่งข้อมูลออกเป็น 3 ชุดย่อย: การฝึกอบรมการตรวจสอบความถูกต้องและการทดสอบ Train and Validation คือการค้นหาความซับซ้อนที่เหมาะสมที่สุดของแบบจำลอง สิ่งที่ฉันไม่เข้าใจคือชุดย่อยที่สาม ฉันเข้าใจว่าฉันใช้คุณสมบัติหลายอย่างสำหรับแบบจำลองฝึกอบรมและตรวจสอบความถูกต้องบนชุดย่อยการตรวจสอบความถูกต้องและมองหาฟังก์ชั่นต้นทุนขั้นต่ำเมื่อฉันเปลี่ยนโครงสร้าง เมื่อฉันพบมันฉันจะทดสอบรูปแบบในชุดย่อยทดสอบ ถ้าฉันได้พบฟังก์ชั่นต้นทุนขั้นต่ำในส่วนย่อยการตรวจสอบแล้วทำไมฉันต้องทดสอบอีกครั้งในชุดย่อยทดสอบ ???

มีคนช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม?

ขอขอบคุณ


คุณจะพบบทความและการสนทนาใน [1] ซึ่งไม่เกี่ยวข้องกับคำถามของคุณ จากหน่วยความจำจะกล่าวถึงชุดย่อยสามชุด: ชุดแรกในการสร้างแบบจำลองชุดที่สองเพื่อประมาณค่าพารามิเตอร์และชุดที่สามเพื่อตรวจสอบความถูกต้องโดยการคาดการณ์ [1] Chatfield, C. ความไม่แน่นอนของแบบจำลอง, การทำเหมืองข้อมูลและการอนุมานเชิงสถิติ (พร้อมการอภิปราย) วารสารสมาคมสถิติแห่งราชอาณาจักร ซีรี่ส์ A (สถิติในสังคม), 1995, 158, 419-466
ไฮเบอร์เนต


ไชโย! ด้ายที่อยู่เบื้องหลังการเชื่อมโยงนี้ยังเป็นแหล่งที่ดีสำหรับการทำความเข้าใจนี้ :)
Celdor

คำตอบ:


37
  • ชุดฝึกอบรมใช้เพื่อเลือกพารามิเตอร์ที่เหมาะสมที่สุดสำหรับรุ่นที่กำหนด โปรดทราบว่าการประเมินชุดพารามิเตอร์ที่กำหนดโดยใช้ชุดการฝึกอบรมควรให้ฟังก์ชั่นค่าใช้จ่ายของคุณแบบไม่เอนเอียง - เป็นการเลือกพารามิเตอร์ที่ปรับการประมาณค่าฟังก์ชั่นค่าใช้จ่ายของคุณตามชุดการฝึกอบรม . เลือกพารามิเตอร์ที่มีประสิทธิภาพดีที่สุดในชุดฝึกอบรม ดังนั้นประสิทธิภาพที่ชัดเจนของพารามิเตอร์เหล่านั้นซึ่งได้รับการประเมินในชุดการฝึกอบรมจะมองในแง่ดีเกินไป
  • เมื่อผ่านการฝึกอบรมโดยใช้ชุดการฝึกอบรมแล้วชุดการตรวจสอบความถูกต้องจะใช้เพื่อเลือกแบบจำลองที่ดีที่สุด อีกครั้งโปรดทราบว่าการประเมินรูปแบบใด ๆ ก็ตามโดยใช้ชุดการตรวจสอบความถูกต้องควรให้ตัวแทนประมาณการของฟังก์ชันต้นทุน - เป็นการเลือกแบบจำลองที่มีประสิทธิภาพดีที่สุดในชุดการตรวจสอบที่มีอคติตามที่ประเมินไว้ แบบจำลองถูกเลือกซึ่งทำงานได้ดีที่สุดในชุดการตรวจสอบความถูกต้อง ดังนั้นประสิทธิภาพที่ชัดเจนของโมเดลนั้นซึ่งประเมินจากชุดการตรวจสอบความถูกต้องจะเป็นแง่ดีเกินไป
  • เมื่อทำการฝึกอบรมแต่ละแบบโดยใช้ชุดการฝึกอบรมและเลือกแบบที่ดีที่สุดโดยใช้ชุดการตรวจสอบชุดการทดสอบจะบอกคุณว่าตัวเลือกสุดท้ายของแบบจำลองนั้นดีแค่ไหน มันช่วยให้คุณประเมินประสิทธิภาพที่แท้จริงโดยไม่ลำเอียงซึ่งคุณจะได้รับจาก runtime ซึ่งเป็นสิ่งสำคัญที่คุณควรทราบด้วยเหตุผลหลายประการ คุณไม่สามารถใช้ชุดการฝึกอบรมสำหรับสิ่งนี้ได้เนื่องจากพารามิเตอร์นั้นมีความลำเอียง และคุณไม่สามารถใช้ชุดการตรวจสอบความถูกต้องนี้ได้เพราะตัวแบบนั้นมีอคติต่อสิ่งนั้น ดังนั้นความต้องการชุดที่สาม

ฉันเห็นสิ่งนี้แล้ว ขอขอบคุณ. ฉันไม่ได้คิดถึงความจริงที่ว่าฉันต้องการเซตย่อยอีกหนึ่งชุดเพื่อหาประสิทธิภาพที่เป็นกลางในแง่ของโครงสร้างโมเดล ไชโย :) มันเป็นคำอธิบายที่ดีมาก
Celdor

ดังนั้นหมายความว่าชุดทดสอบสุดท้ายไม่มีบทบาทในการปรับรูปแบบให้เหมาะสมหรือเลือกแบบจำลองที่ดีที่สุด
Anmol Singh Jaggi

1
ไม่ที่จริงแล้วควรใช้เพื่อประเมินประสิทธิภาพที่คาดหวังเท่านั้น ดังนั้นหากคุณไม่ชอบผลลัพธ์ของประสิทธิภาพในชุดทดสอบคุณควรหลีกเลี่ยงการปรับโมเดลของคุณเพื่อเพิ่มประสิทธิภาพผลการทดสอบเนื่องจากโมเดลของคุณจะเอนเอียงอีกครั้ง
Ytsen de Boer

12

หากฉันได้พบฟังก์ชั่นต้นทุนขั้นต่ำในส่วนย่อยการตรวจสอบความถูกต้องแล้วทำไมฉันต้องทดสอบอีกครั้งในชุดย่อยทดสอบ

เนื่องจากข้อผิดพลาดแบบสุ่ม: โดยปกติคุณจะมีเพียงจำนวนคดีเท่านั้น

การเพิ่มประสิทธิภาพของการตรวจสอบความถูกต้อง (การทดสอบภายใน) หมายความว่าคุณอาจ overfitting ไปยังชุดการทดสอบภายในนั้น ชุดการทดสอบภายในมีส่วนช่วยในการประมาณค่าของแบบจำลองสุดท้ายและดังนั้นจึงไม่เป็นอิสระจากแบบจำลอง

ซึ่งหมายความว่าคุณต้องมีชุดทดสอบอีกชุด (ด้านนอก) ที่ไม่ขึ้นอยู่กับขั้นตอนการสร้างแบบจำลองทั้งหมด (รวมถึงการปรับให้เหมาะสมทั้งหมดและการประมวลผลล่วงหน้าที่ขับเคลื่อนด้วยข้อมูลหรือกระบวนการเลือกรูปแบบ) หากคุณต้องการประเมินคุณสมบัติการวางทั่วไป

ฉันขอแนะนำให้คุณสร้างแบบจำลองและเปรียบเทียบข้อผิดพลาดสามแบบที่คุณสามารถทำได้

  • การประกาศใหม่: การคาดการณ์ของชุดรถไฟ
    วัดความดี - พอดี
  • การทดสอบภายใน (ในระบบการตั้งชื่อของคุณ: การตรวจสอบความถูกต้อง): คุณภาพที่เครื่องมือเพิ่มประสิทธิภาพคิดว่าทำได้
  • ชุดทดสอบด้านนอก: ข้อผิดพลาดในการวางแบบทั่วไปไม่ขึ้นกับการฝึกอบรมแบบจำลอง

ในแบบจำลองคุณสามารถเปรียบเทียบได้อย่างง่ายดายกับชุดทดสอบที่สร้างขึ้นอย่างอิสระขนาดใหญ่ หากการตั้งค่าถูกต้องการทดสอบด้านนอกควรจะไม่เอนเอียง (wrt โมเดลตัวแทนที่ประเมินค่าไม่ใช่ตัวแบบ "ขั้นสุดท้าย" ที่สร้างขึ้นบนชุดข้อมูลทั้งหมด) การทดสอบภายในมักจะลำเอียงในแง่ดีและการคืนสภาพจะมีอคติเชิงบวกมากขึ้น

ในสาขาของฉันการทดสอบด้านในจะประเมินค่าความผิดพลาดโดยทั่วไปได้อย่างง่ายดายโดยประเมินจาก 2 - 5 (มากขึ้นสำหรับแผนการเพิ่มประสิทธิภาพเชิงรุก)


หมายเหตุ: ระบบการตั้งชื่อของชุดคำศัพท์นั้นไม่เป็นสากล ในสาขาของฉัน (เคมีเชิงวิเคราะห์) การตรวจสอบมักจะหมายถึงการพิสูจน์ประสิทธิภาพของขั้นตอนสุดท้าย - ดังนั้นสิ่งที่ชุด "ทดสอบ" ของคุณทำมากกว่าสิ่งที่ชุด "การตรวจสอบ" ของคุณทำ

ฉันชอบพูดถึงชุดทดสอบด้านในและด้านนอกหรือชุดทดสอบเพิ่มประสิทธิภาพ (= ชุดทดสอบด้านใน) จากนั้นชุดการตรวจสอบจะหมายถึงชุดทดสอบภายนอก


2

ในขณะที่การฝึกอบรมรูปแบบหนึ่งจะต้องเลือกพารามิเตอร์เมตาสำหรับรูปแบบ (ตัวอย่างเช่นพารามิเตอร์การทำให้เป็นมาตรฐาน) หรือแม้กระทั่งเลือกจากหลายรุ่น ในกรณีนี้ชุดย่อยการตรวจสอบความถูกต้องใช้สำหรับการเลือกพารามิเตอร์ แต่ชุดย่อยทดสอบสำหรับการประมาณค่าการทำนายขั้นสุดท้าย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.