ความถูกต้องของแบบจำลอง 100% สำหรับข้อมูลเกินตัวอย่างหรือไม่?


11

ฉันเพิ่งเสร็จสิ้นการเรียนรู้ของเครื่องสำหรับหลักสูตร R ใน cognitiveclass.ai และได้เริ่มทำการทดลองด้วยการสุ่ม

ฉันสร้างแบบจำลองโดยใช้ไลบรารี่ "randomForest" ในอาร์โมเดลแบ่งเป็นสองคลาสคือดีและไม่ดี

ฉันรู้ว่าเมื่อแบบจำลองมีความเหมาะสมมากเกินไปมันทำงานได้ดีกับข้อมูลจากชุดฝึกอบรมของตัวเอง แต่มีข้อมูลที่ไม่อยู่ในเกณฑ์ตัวอย่าง

ในการฝึกอบรมและทดสอบแบบจำลองของฉันฉันได้สับและแยกชุดข้อมูลที่สมบูรณ์เป็น 70% สำหรับการฝึกอบรมและ 30% สำหรับการทดสอบ

คำถามของฉัน: ฉันได้รับความแม่นยำ 100% จากการทำนายที่ทำไว้ในชุดการทดสอบ มันแย่ใช่ไหม? ดูเหมือนดีเกินกว่าที่จะเป็นจริง

วัตถุประสงค์คือการจดจำรูปแบบของคลื่นในสี่ซึ่งกันและกันขึ้นอยู่กับรูปคลื่น คุณสมบัติของชุดข้อมูลนั้นเป็นผลจากต้นทุนของการวิเคราะห์สัญญาณเวลาแบบไดนามิกของรูปคลื่นด้วยรูปคลื่นเป้าหมาย


ยินดีต้อนรับสู่เว็บไซต์! คุณลองทำนายข้อมูลเสียงรบกวนบ้างไหม
Toros91

ทุกครั้งที่คุณสับเปลี่ยนฝึกและทดสอบความถูกต้องคือ 100%?
อเล็กซ์

@Alex ไม่แน่ แต่มันก็ยังคงสูงมากเช่น 98,55%
Milan van Dijck

1
@Alex 11.35% "ok" และ 88.65% "bad"
Milan van Dijck

1
มันค่อนข้างไม่สมดุล ลองใช้การทดสอบซ้ำ (การสุ่มตัวอย่างซ้ำ ๆ ) เพื่อให้ยอดคงเหลือในชุดการฝึกไปสู่คลาส OK (ทำให้เป็นตัวอย่าง 30%) และรักษาอัตราส่วน 11/89 ไว้ในชุดการทดสอบ / การตรวจสอบความถูกต้อง คุณได้อะไร
อเล็กซ์

คำตอบ:


29

คะแนนการตรวจสอบความถูกต้องสูงเช่นความถูกต้องโดยทั่วไปหมายถึงว่าคุณไม่ได้ฟิตมากเกินไปอย่างไรก็ตามควรนำไปสู่ความระมัดระวังและอาจบ่งบอกถึงสิ่งที่ผิดพลาด อาจหมายความว่าปัญหาไม่ยากเกินไปและโมเดลของคุณทำงานได้ดีอย่างแท้จริง สองสิ่งที่อาจผิดพลาด:

  • คุณไม่ได้แยกข้อมูลอย่างถูกต้องและข้อมูลการตรวจสอบเกิดขึ้นในข้อมูลการฝึกอบรมของคุณซึ่งหมายความว่ามันบ่งบอกถึงการมีน้ำหนักเกินเพราะคุณไม่ได้ทำการวัดลักษณะทั่วไปอีกต่อไป
  • คุณใช้วิศวกรรมฟีเจอร์เพื่อสร้างฟีเจอร์เพิ่มเติมและคุณอาจแนะนำการรั่วไหลของเป้าหมายซึ่งแถวของคุณกำลังใช้ข้อมูลจากเป้าหมายปัจจุบันไม่ใช่แค่จากที่อื่น ๆ ในชุดฝึกอบรมของคุณ

11
ความแม่นยำ 100% ส่งเสียงร้อง "เป้าหมายรั่ว" เสมอ
พอล

1

ตรวจสอบเพื่อดูว่าคุณลักษณะการคาดเดามากที่สุดของคุณคืออะไร บางครั้งคุณรวมเป้าหมายของคุณ (หรือสิ่งที่เทียบเท่ากับเป้าหมายของคุณ) โดยไม่ได้ตั้งใจในคุณสมบัติของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.