ถามนักสถิติคำถามใด ๆ และคำตอบของพวกเขาจะเป็นรูปแบบหนึ่งของ "มันขึ้นอยู่กับ"
มันขึ้นอยู่กับ นอกเหนือจากประเภทของแบบจำลอง (จุดที่ดี cbeleites!) จำนวนชุดคะแนนการฝึกอบรมและจำนวนตัวทำนาย? ถ้าแบบจำลองสำหรับการจำแนกความไม่สมดุลของชั้นเรียนขนาดใหญ่จะทำให้ฉันเพิ่มจำนวนการทำซ้ำ นอกจากนี้หากฉันเริ่มต้นขั้นตอนการเลือกคุณสมบัติใหม่ฉันจะทำให้ตัวเองมีปัญหามากขึ้น
สำหรับวิธีการสุ่มตัวอย่างใหม่ที่ใช้ในบริบทนี้โปรดจำไว้ว่า (ซึ่งแตกต่างจากการบูตแบบดั้งเดิม) คุณจะต้องทำซ้ำมากพอที่จะได้รับการประมาณ "แม่นยำเพียงพอ" ของค่าเฉลี่ยของการแจกแจง นั่นเป็นทัศนะ แต่คำตอบใด ๆ จะ
ผสานกับการจัดหมวดหมู่ที่มีสองคลาสต่อวินาทีสมมติว่าคุณคาดหวัง / หวังว่าความแม่นยำของโมเดลจะอยู่ที่ประมาณ 0.80 เนื่องจากกระบวนการ resampling เป็นการสุ่มตัวอย่างการประมาณความถูกต้อง (พูดp
) ข้อผิดพลาดมาตรฐานจะอยู่sqrt[p*(1-p)]/sqrt(B)
ที่ไหนB
คือจำนวนของ resamples สำหรับB = 10
ข้อผิดพลาดมาตรฐานของความถูกต้องมีค่าประมาณ 0.13 และมีB = 100
ค่าประมาณ 0.04 คุณอาจใช้สูตรนั้นเป็นแนวทางคร่าวๆสำหรับกรณีนี้โดยเฉพาะ
นอกจากนี้ให้พิจารณาด้วยในตัวอย่างนี้ความแปรปรวนของความถูกต้องจะขยายให้ใกล้ที่สุดถึง 0.50 ดังนั้นแบบจำลองที่แม่นยำควรใช้การจำลองแบบน้อยเนื่องจากข้อผิดพลาดมาตรฐานควรต่ำกว่าแบบจำลองที่มีผู้เรียนอ่อน
HTH,
แม็กซ์