เมื่อใดที่จะไม่ใช้การตรวจสอบข้าม


10

เมื่อฉันอ่านในเว็บไซต์คำตอบส่วนใหญ่แนะนำว่าควรทำการตรวจสอบไขว้ในอัลกอริทึมการเรียนรู้ของเครื่อง อย่างไรก็ตามขณะที่ฉันอ่านหนังสือ "การเรียนรู้ของเครื่องเข้าใจ" ฉันเห็นว่ามีแบบฝึกหัดที่บางครั้งมันก็ดีกว่าที่จะไม่ใช้การตรวจสอบไขว้ ฉันสับสนจริงๆ เมื่อขั้นตอนวิธีการฝึกอบรมกับข้อมูลทั้งหมดดีกว่าการตรวจสอบข้าม มันเกิดขึ้นในชุดข้อมูลจริงหรือไม่?

ให้เป็นคลาสสมมติฐาน สมมติว่าคุณจะได้รับ IID ฝึกอบรมตัวอย่างและคุณต้องการที่จะเรียนรู้ในชั้นเรียนHพิจารณาสองแนวทางทางเลือก: m H = k i = 1 H iH1,...,HkmH=i=1kHi

  1. เรียนรู้เกี่ยวกับตัวอย่างโดยใช้กฎ ERMเมตรHm

  2. แบ่งตัวอย่างเมตรเป็นชุดการฝึกอบรมที่มีขนาดและชุดตรวจสอบขนาดสำหรับบาง(0,1) จากนั้นใช้วิธีการเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้อง นั่นคือ fi rst ฝึกฝนแต่ละคลาสในตัวอย่างการฝึกอบรมโดยใช้กฎ ERM สำหรับและให้เป็นสมมติฐานที่เกิดขึ้น . ประการที่สองใช้กฎ ERM เกี่ยวกับคลาส class nite { } ในตัวอย่างการตรวจสอบความถูกต้องα เมตรα ( 0 , 1 ) H ฉัน ( 1 - α ) H ฉันชั่วโมง 1 , ... , เอชเคเอช 1 , ... , H k α เมตร(1α)mαmα(0,1)Hi(1α)mHih^1,,h^kh^1,,h^kαm

อธิบายสถานการณ์ที่วิธีการแรกดีกว่าครั้งที่สองและในทางกลับกัน

ภาพของ quastion


1
มันเป็นแบบฝึกหัดที่น่าสนใจ แต่ฉันไม่เห็นด้วยกับฉลาก ฉันคิดว่าการตรวจสอบไขว้ทำงานที่นี่อย่างสมบูรณ์ ในฐานะที่เป็นวงสัมผัสมันจะเป็นที่ต้องการถ้าคุณพิมพ์แบบฝึกหัดและอ้างถึงมันแทนการแนบภาพ ภาพไม่สามารถเข้าถึงผู้ใช้ที่มีปัญหาด้านการมองเห็น
Matthew Drury

ข้อเสียเปรียบประการหนึ่งที่อาจเป็นไปได้สำหรับการใช้การตรวจสอบความถูกต้องของข้อมูลอาจเป็นเรื่องที่มีความเหมาะสมมากกว่า เป็นหลักโดยใช้เทคนิคการตรวจสอบข้ามเรากำลังปรับพารามิเตอร์ของรูปแบบในชุดข้อมูลการตรวจสอบ (และไม่ได้อยู่ในชุดข้อมูลการทดสอบ) แต่บางครั้งการปรับจูนนี้อาจส่งผลให้เกิดความพอดีมากเกินไปเมื่อตัวจําแนกถูกทดสอบในชุดทดสอบ
Upendra Pratap Singh

1
"ความเท่าเทียมกัน" หมายถึงอะไรที่นี่
shadowtalker

@shadowtalker ฉันคิดว่ามันหมายถึงผลรวมโมดูโล 2
SMA.D

คุณแยกความแตกต่างระหว่างการตรวจสอบความถูกต้องแบบข้ามและการบูตสแตรปหรือไม่?
usεr11852

คำตอบ:


11

Take-บ้านข้อความ:


น่าเสียดายที่ข้อความที่คุณอ้างถึงเปลี่ยนแปลงสองสิ่งระหว่างวิธีที่ 1 และ 2:

  • วิธีการที่ 2 ทำการตรวจสอบข้ามและการเลือก / ปรับแต่ง / ปรับรูปแบบข้อมูลที่ขับเคลื่อนด้วยข้อมูล
  • วิธีที่ 1 ไม่ใช้การตรวจสอบความถูกต้องไขว้และการเลือก / การปรับแต่ง / การปรับแต่งแบบจำลองที่ขับเคลื่อนด้วยข้อมูล
  • วิธีการตรวจสอบแบบไขว้ 3 โดยไม่ใช้การเลือก / ปรับแต่ง / การเพิ่มประสิทธิภาพแบบจำลองที่ขับเคลื่อนด้วยข้อมูลเป็นไปได้อย่างสมบูรณ์แบบ (และ IMHO จะนำไปสู่การเข้าใจที่ลึกซึ้งขึ้น) ในบริบทที่กล่าวถึงที่นี่
  • วิธีที่ 4 ไม่มีการตรวจสอบความถูกต้องไขว้ แต่การเลือก / การปรับแต่ง / การปรับแต่งแบบจำลองที่ขับเคลื่อนด้วยข้อมูลเป็นไปได้เช่นกัน แต่มีความซับซ้อนกว่าในการสร้าง

IMHO การตรวจสอบข้ามและการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วยข้อมูลเป็นการตัดสินใจที่แตกต่างกันสองอย่าง (และส่วนใหญ่เป็นอิสระ) ในการตั้งค่ากลยุทธ์การสร้างแบบจำลองของคุณ การเชื่อมต่อเพียงอย่างเดียวคือคุณสามารถใช้การประเมินการตรวจสอบข้ามเป็นเป้าหมายการทำงานสำหรับการเพิ่มประสิทธิภาพของคุณ แต่มีฟังก์ชั่นเป้าหมายอื่น ๆ ที่พร้อมใช้งานและมีการใช้งานอื่น ๆ ของการประเมินการตรวจสอบข้าม (ที่สำคัญคือคุณสามารถใช้พวกเขาสำหรับการตรวจสอบรูปแบบของคุณ, การตรวจสอบความถูกต้องหรือการทดสอบ)

น่าเสียดายที่ศัพท์การเรียนรู้ของเครื่องปัจจุบัน IMHO เป็นระเบียบซึ่งแสดงให้เห็นการเชื่อมต่อ / สาเหตุ / การอ้างอิงที่ผิดพลาดที่นี่

  • เมื่อคุณค้นหาวิธีที่ 3 (การตรวจสอบไขว้ไม่ใช่สำหรับการปรับให้เหมาะสม แต่สำหรับการวัดประสิทธิภาพของแบบจำลอง) คุณจะพบการตรวจสอบข้ามการตัดสินใจ "กับ" กับการฝึกอบรมในชุดข้อมูลทั้งหมดให้เป็นขั้วคู่เท็จในบริบทนี้: ในการวัดประสิทธิภาพของตัวจําแนกลําดับรูปการตรวจสอบความถูกต้องไขว้ของบุญถูกใช้เป็นค่าประมาณสําหรับแบบจำลองที่ผ่านการฝึกอบรมในชุดข้อมูลทั้งหมด เช่นวิธีที่ 3 รวมถึงวิธีที่ 1

  • ทีนี้มาดูการตัดสินใจครั้งที่ 2: การปรับแต่งโมเดลที่ขับเคลื่อนด้วยข้อมูลหรือไม่ นี่คือ IMHO จุดสำคัญที่นี่ และใช่มีสถานการณ์ในโลกแห่งความเป็นจริงที่ไม่ได้เพิ่มประสิทธิภาพตัวแบบข้อมูลที่ดีกว่า การเพิ่มประสิทธิภาพโมเดลที่ขับเคลื่อนด้วยข้อมูลมีค่าใช้จ่าย คุณสามารถคิดแบบนี้: ข้อมูลในชุดข้อมูลของคุณใช้ในการประเมินไม่เพียง แต่pพารามิเตอร์ / ค่าสัมประสิทธิ์ของแบบจำลอง แต่สิ่งที่การเพิ่มประสิทธิภาพทำคือการประมาณค่าพารามิเตอร์เพิ่มเติมหรือที่เรียกว่า hyperparameters หากคุณอธิบายถึงการปรับโมเดลและกระบวนการปรับ / ปรับให้เหมาะสมเป็นการค้นหาพารามิเตอร์โมเดลดังนั้นการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นี้หมายความว่าจะพิจารณาพื้นที่การค้นหาที่ใหญ่กว่าเดิมมาก กล่าวอีกนัยหนึ่งในวิธีที่ 1 (และ 3) คุณจะ จำกัด พื้นที่การค้นหาโดยการระบุพารามิเตอร์หลายมิติเหล่านั้น ชุดข้อมูลในโลกแห่งความเป็นจริงของคุณอาจมีขนาดใหญ่พอ (มีข้อมูลเพียงพอ) เพื่อให้เหมาะสมกับพื้นที่การค้นหาที่ จำกัด แต่ไม่ใหญ่พอที่จะแก้ไขพารามิเตอร์ทั้งหมดได้ดีพอในพื้นที่การค้นหาขนาดใหญ่ของแนวทาง 2 (และ 4)

ในความเป็นจริงในสาขาของฉันฉันมักจะต้องจัดการกับชุดข้อมูลที่เล็กเกินไปที่จะอนุญาตให้คิดเกี่ยวกับการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วยข้อมูล ดังนั้นฉันจะทำอย่างไร: ฉันใช้ความรู้เกี่ยวกับโดเมนของฉันเกี่ยวกับข้อมูลและกระบวนการสร้างข้อมูลเพื่อตัดสินใจว่ารูปแบบใดที่ตรงกับลักษณะทางกายภาพของข้อมูลและแอปพลิเคชัน และภายในสิ่งเหล่านี้ฉันยังต้อง จำกัด ความซับซ้อนของแบบจำลองของฉัน


คำตอบที่ดี ฉันหวังว่าคุณจะมีส่วนร่วมในหัวข้อนี้ ชัดเจน +1
usεr11852

ขอบคุณสำหรับคำตอบที่ให้ข้อมูลและเป็นประโยชน์ สิ่งที่ฉันเรียนรู้จากคำตอบของคุณคือเราอาจเลือกวิธีที่ 2 เมื่อเรามีชุดข้อมูลขนาดเล็กไม่ใช่เพราะการตรวจสอบ แต่เพราะการเลือกแบบจำลอง ฉันถูกไหม? การใช้การเลือกแบบจำลองสำหรับชุดข้อมูลขนาดเล็กนำไปสู่การ underfitting หรือไม่
SMA.D

คำถามอีกข้อหนึ่งคือในแบบฝึกหัดขนาดของคลาสสมมติฐานจะเหมือนกันสำหรับทั้งวิธีที่ 1 และ 2 พื้นที่การค้นหามีขนาดใหญ่กว่าสำหรับวิธีที่ 2 หรือไม่
SMA.D

ถ้ามีตัวเลือกใน 2 และไม่ใช่ใน 1 พื้นที่ค้นหาใน 2 นั้นใหญ่กว่า หากพื้นที่ค้นหาใน 2 ไม่ใหญ่กว่านั้นก็ไม่มีอะไรให้เลือกในแนวทางที่ 2 คำตอบและการตีความของฉันเกี่ยวกับวิธีที่ 2 หมายถึงอะไรถูกเรียกโดยคำว่า "การเลือกแบบจำลองโดยใช้การตรวจสอบความถูกต้อง" หากบริบทยังคงเป็นหนึ่งใน "เมื่อการตรวจสอบข้ามล้มเหลว" การออกกำลังกายก่อนที่หนึ่งในคำถามที่นี่แล้วหนังสืออาจหมายถึงสิ่งที่ฉันเรียกว่าวิธีการ 3 ข้างต้นคือไม่มีการเลือกรูปแบบที่เกี่ยวข้อง แต่ในกรณีนี้การเลือกแบบคำไม่ควรมี ฉันไม่สามารถตัดสินได้ว่ามันจะเป็นไปได้ยังไง ..
cbeleites ไม่มีความสุขกับ SX

... เป็นสิ่งที่ฉันไม่รู้ว่าหนังสือเล่มนี้พูดเกี่ยวกับการเลือกรูปแบบอย่างไรหรือกฎ ERM ของพวกเขาคืออะไร (ในคำศัพท์ของฉัน ERM จะขยายไปสู่การบริหารความเสี่ยงขององค์กร ... ) อย่างไรก็ตามคำตอบของฉันยังคงคำนึงถึงอัลกอริทึมการสร้างแบบจำลอง
cbeleites ไม่มีความสุขกับ SX
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.