Take-บ้านข้อความ:
น่าเสียดายที่ข้อความที่คุณอ้างถึงเปลี่ยนแปลงสองสิ่งระหว่างวิธีที่ 1 และ 2:
- วิธีการที่ 2 ทำการตรวจสอบข้ามและการเลือก / ปรับแต่ง / ปรับรูปแบบข้อมูลที่ขับเคลื่อนด้วยข้อมูล
- วิธีที่ 1 ไม่ใช้การตรวจสอบความถูกต้องไขว้และการเลือก / การปรับแต่ง / การปรับแต่งแบบจำลองที่ขับเคลื่อนด้วยข้อมูล
- วิธีการตรวจสอบแบบไขว้ 3 โดยไม่ใช้การเลือก / ปรับแต่ง / การเพิ่มประสิทธิภาพแบบจำลองที่ขับเคลื่อนด้วยข้อมูลเป็นไปได้อย่างสมบูรณ์แบบ (และ IMHO จะนำไปสู่การเข้าใจที่ลึกซึ้งขึ้น) ในบริบทที่กล่าวถึงที่นี่
- วิธีที่ 4 ไม่มีการตรวจสอบความถูกต้องไขว้ แต่การเลือก / การปรับแต่ง / การปรับแต่งแบบจำลองที่ขับเคลื่อนด้วยข้อมูลเป็นไปได้เช่นกัน แต่มีความซับซ้อนกว่าในการสร้าง
IMHO การตรวจสอบข้ามและการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วยข้อมูลเป็นการตัดสินใจที่แตกต่างกันสองอย่าง (และส่วนใหญ่เป็นอิสระ) ในการตั้งค่ากลยุทธ์การสร้างแบบจำลองของคุณ การเชื่อมต่อเพียงอย่างเดียวคือคุณสามารถใช้การประเมินการตรวจสอบข้ามเป็นเป้าหมายการทำงานสำหรับการเพิ่มประสิทธิภาพของคุณ แต่มีฟังก์ชั่นเป้าหมายอื่น ๆ ที่พร้อมใช้งานและมีการใช้งานอื่น ๆ ของการประเมินการตรวจสอบข้าม (ที่สำคัญคือคุณสามารถใช้พวกเขาสำหรับการตรวจสอบรูปแบบของคุณ, การตรวจสอบความถูกต้องหรือการทดสอบ)
น่าเสียดายที่ศัพท์การเรียนรู้ของเครื่องปัจจุบัน IMHO เป็นระเบียบซึ่งแสดงให้เห็นการเชื่อมต่อ / สาเหตุ / การอ้างอิงที่ผิดพลาดที่นี่
เมื่อคุณค้นหาวิธีที่ 3 (การตรวจสอบไขว้ไม่ใช่สำหรับการปรับให้เหมาะสม แต่สำหรับการวัดประสิทธิภาพของแบบจำลอง) คุณจะพบการตรวจสอบข้ามการตัดสินใจ "กับ" กับการฝึกอบรมในชุดข้อมูลทั้งหมดให้เป็นขั้วคู่เท็จในบริบทนี้: ในการวัดประสิทธิภาพของตัวจําแนกลําดับรูปการตรวจสอบความถูกต้องไขว้ของบุญถูกใช้เป็นค่าประมาณสําหรับแบบจำลองที่ผ่านการฝึกอบรมในชุดข้อมูลทั้งหมด เช่นวิธีที่ 3 รวมถึงวิธีที่ 1
ทีนี้มาดูการตัดสินใจครั้งที่ 2: การปรับแต่งโมเดลที่ขับเคลื่อนด้วยข้อมูลหรือไม่ นี่คือ IMHO จุดสำคัญที่นี่ และใช่มีสถานการณ์ในโลกแห่งความเป็นจริงที่ไม่ได้เพิ่มประสิทธิภาพตัวแบบข้อมูลที่ดีกว่า การเพิ่มประสิทธิภาพโมเดลที่ขับเคลื่อนด้วยข้อมูลมีค่าใช้จ่าย คุณสามารถคิดแบบนี้: ข้อมูลในชุดข้อมูลของคุณใช้ในการประเมินไม่เพียง แต่pพารามิเตอร์ / ค่าสัมประสิทธิ์ของแบบจำลอง แต่สิ่งที่การเพิ่มประสิทธิภาพทำคือการประมาณค่าพารามิเตอร์เพิ่มเติมหรือที่เรียกว่า hyperparameters หากคุณอธิบายถึงการปรับโมเดลและกระบวนการปรับ / ปรับให้เหมาะสมเป็นการค้นหาพารามิเตอร์โมเดลดังนั้นการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นี้หมายความว่าจะพิจารณาพื้นที่การค้นหาที่ใหญ่กว่าเดิมมาก กล่าวอีกนัยหนึ่งในวิธีที่ 1 (และ 3) คุณจะ จำกัด พื้นที่การค้นหาโดยการระบุพารามิเตอร์หลายมิติเหล่านั้น ชุดข้อมูลในโลกแห่งความเป็นจริงของคุณอาจมีขนาดใหญ่พอ (มีข้อมูลเพียงพอ) เพื่อให้เหมาะสมกับพื้นที่การค้นหาที่ จำกัด แต่ไม่ใหญ่พอที่จะแก้ไขพารามิเตอร์ทั้งหมดได้ดีพอในพื้นที่การค้นหาขนาดใหญ่ของแนวทาง 2 (และ 4)
ในความเป็นจริงในสาขาของฉันฉันมักจะต้องจัดการกับชุดข้อมูลที่เล็กเกินไปที่จะอนุญาตให้คิดเกี่ยวกับการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วยข้อมูล ดังนั้นฉันจะทำอย่างไร: ฉันใช้ความรู้เกี่ยวกับโดเมนของฉันเกี่ยวกับข้อมูลและกระบวนการสร้างข้อมูลเพื่อตัดสินใจว่ารูปแบบใดที่ตรงกับลักษณะทางกายภาพของข้อมูลและแอปพลิเคชัน และภายในสิ่งเหล่านี้ฉันยังต้อง จำกัด ความซับซ้อนของแบบจำลองของฉัน