การแยกข้อมูลออกเป็นการทดสอบและการฝึกอบรมเป็นการกำหนด“ สถิติ” อย่างแท้จริงหรือไม่?
ฉันเป็นนักเรียนฟิสิกส์ที่เรียนการเรียนรู้ด้วยเครื่อง / วิทยาศาสตร์ข้อมูลดังนั้นฉันจึงไม่ได้หมายความว่าคำถามนี้จะเริ่มต้นความขัดแย้งใด ๆ :) อย่างไรก็ตามส่วนใหญ่ของหลักสูตรฟิสิกส์ระดับปริญญาตรีคือการทำห้องปฏิบัติการ / การทดลองซึ่งหมายถึงข้อมูลจำนวนมาก การประมวลผลและการวิเคราะห์ทางสถิติ อย่างไรก็ตามฉันสังเกตเห็นความแตกต่างที่ชัดเจนระหว่างวิธีที่นักฟิสิกส์จัดการกับข้อมูลและวิธีที่วิทยาศาสตร์ข้อมูล / หนังสือการเรียนรู้ทางสถิติจัดการกับข้อมูล ความแตกต่างที่สำคัญคือเมื่อพยายามทำการถดถอยกับข้อมูลที่ได้จากการทดลองทางฟิสิกส์อัลกอริธึมการถดถอยจะถูกนำไปใช้กับชุดข้อมูลWHOLEไม่มีการแยกชุดฝึกอบรมและชุดทดสอบออกมาอย่างแน่นอน ในโลกฟิสิกส์การคำนวณ R ^ 2 หรือการหลอกบางชนิด -R ^ 2 สำหรับแบบจำลองนั้นขึ้นอยู่กับชุดข้อมูลทั้งหมด ในโลกสถิติข้อมูลจะถูกแบ่งออกเป็น 80-20, 70-30 และอื่น ๆ ... จากนั้นโมเดลจะถูกประเมินเทียบกับชุดข้อมูลการทดสอบ นอกจากนี้ยังมีการทดลองทางฟิสิกส์ที่สำคัญ (ATLAS, BICEP2, ฯลฯ ... ) ที่ไม่เคยทำข้อมูลแยกดังนั้นฉันสงสัยว่าทำไมมันมีความแตกต่างอย่างรุนแรงระหว่างวิธีที่นักฟิสิกส์ / นักทดลองทำสถิติและวิธีที่นักวิทยาศาสตร์ด้านข้อมูล ทำสถิติ