ฉันต้องการทราบว่ากระบวนการที่อธิบายด้านล่างนี้ถูกต้อง / ยอมรับได้และมีเหตุผลใด ๆ
แนวคิด: อัลกอริธึมการเรียนรู้ภายใต้การดูแลไม่ถือว่าโครงสร้างหรือการแจกแจงเกี่ยวกับข้อมูล ในตอนท้ายของวันที่พวกเขาออกประมาณการจุด ฉันหวังว่าจะให้ปริมาณความไม่แน่นอนของการประมาณการอย่างใด ตอนนี้กระบวนการสร้างแบบจำลอง ML นั้นเป็นการสุ่มโดยเนื้อแท้ (เช่นในการสุ่มตัวอย่างสำหรับการตรวจสอบข้ามสำหรับการปรับค่าพารามิเตอร์และการสุ่มใน Stochastic GBM) ดังนั้นท่อส่งแบบจำลองจะให้ผลลัพธ์ที่แตกต่างกันสำหรับตัวทำนายเดียวกันกับเมล็ดแต่ละอัน ความคิดที่ไร้เดียงสาของฉันคือการเรียกใช้กระบวนการนี้ซ้ำแล้วซ้ำอีกเพื่อหาการกระจายของการทำนายและฉันหวังว่าฉันจะสามารถทำให้แถลงการณ์เกี่ยวกับความไม่แน่นอนของการทำนายได้
หากเป็นเรื่องสำคัญชุดข้อมูลที่ฉันทำงานด้วยจะเล็กมาก (ประมาณ 200 แถว)
มันสมเหตุสมผลหรือไม่
เพื่อความกระจ่างแจ้งฉันไม่ได้ทำการบูตข้อมูลด้วยวิธีดั้งเดิม (เช่นฉันไม่ได้สุ่มตัวอย่างข้อมูลใหม่) ชุดข้อมูลเดียวกันถูกใช้ในการวนซ้ำทุกครั้งฉันแค่ใช้การสุ่มใน xval และ stochastic GBM