(คำถามนี้ดูเหมือนว่าจะเหมาะกว่าสำหรับปรัชญา SE ฉันหวังว่านักสถิติสามารถอธิบายความเข้าใจที่คลาดเคลื่อนเกี่ยวกับคำแถลงของ Box และ Shmueli ได้ดังนั้นฉันจึงโพสต์ไว้ที่นี่)
George Box (จากชื่อเสียงของ ARIMA) กล่าวว่า:
"ทุกรุ่นผิด แต่บางรุ่นก็มีประโยชน์"
Galit Shmueli ในกระดาษชื่อดังของเธอ"เพื่ออธิบายหรือทำนาย" , (และอ้างอิงคนอื่นที่เห็นด้วยกับเธอ) ระบุว่า:
การอธิบายและการทำนายไม่เหมือนกันและบางรุ่นทำหน้าที่อธิบายได้ดีถึงแม้ว่าพวกเขาจะทำงานได้ดีในการทำนาย
ฉันรู้สึกว่าหลักการเหล่านี้ขัดแย้งกับสิ่งใด
หากแบบจำลองไม่สามารถคาดเดาได้ดีจะเป็นประโยชน์หรือไม่
ที่สำคัญกว่านั้นถ้าแบบจำลองอธิบายได้ดี (แต่ไม่จำเป็นต้องคาดเดาได้ดี) มันจะต้องเป็นจริง (เช่นไม่ผิด) ไม่ทางใดก็ทางหนึ่ง แล้วตาข่ายกับกล่องของ "ทุกรุ่นผิด" อย่างไร
ท้ายที่สุดถ้าแบบจำลองอธิบายได้ดี แต่ไม่คาดการณ์ได้ดีมันจะเป็นไปได้อย่างไรทางวิทยาศาสตร์? เกณฑ์การแบ่งเขตทางวิทยาศาสตร์ส่วนใหญ่ (การตรวจสอบยืนยันการปลอมแปลง ฯลฯ ) หมายถึงว่าคำสั่งทางวิทยาศาสตร์จะต้องมีอำนาจการทำนายหรือเรียกขาน: ทฤษฎีหรือรูปแบบที่ถูกต้องเฉพาะถ้ามันสามารถทดสอบเชิงประจักษ์ (หรือเท็จ) ซึ่งหมายความว่ามัน ต้องทำนายผลลัพธ์ในอนาคต
คำถามของฉัน:
- คำแถลงของ Box และความคิดของ Shmueli ขัดแย้งหรือไม่หรือฉันขาดบางสิ่งบางอย่างเช่นแบบจำลองไม่มีพลังการทำนาย แต่ยังคงมีประโยชน์หรือไม่?
- หากคำแถลงของ Box และ Shmueli ไม่ขัดแย้งนั่นหมายความว่าแบบจำลองนั้นผิดและไม่สามารถทำนายได้ดี แต่ยังมีอำนาจอธิบายอยู่ วางไว้แตกต่างกัน: ถ้าใครเอาความถูกต้องและความสามารถในการคาดเดาออกไปสิ่งที่เหลืออยู่ของแบบจำลอง?
การตรวจสอบเชิงประจักษ์ใดที่เป็นไปได้เมื่อแบบจำลองมีอำนาจอธิบาย แต่ไม่สามารถทำนายพลังได้? Shmueli กล่าวถึงสิ่งต่าง ๆ เช่น: ใช้ AIC เพื่อคำอธิบายและ BIC สำหรับการทำนาย ฯลฯ ... แต่ฉันไม่เห็นว่าวิธีแก้ปัญหานั้นได้อย่างไร ด้วยโมเดลการทำนายคุณสามารถใช้ AIC หรือ BIC หรือหรือการทำให้เป็นมาตรฐานฯลฯ ... แต่สุดท้ายจากการทดสอบตัวอย่างและประสิทธิภาพในการผลิตคือสิ่งที่กำหนดคุณภาพของแบบจำลอง แต่สำหรับโมเดลที่อธิบายได้ดีฉันไม่เห็นว่าฟังก์ชั่นการสูญเสียใดสามารถประเมินโมเดลได้อย่างแท้จริง ในปรัชญาวิทยาศาสตร์มีแนวคิดเรื่องบ่อนทำลายL L p < 0.05 p < 0.1 p < 0.01ซึ่งดูเหมือนว่าตรงประเด็นที่นี่: สำหรับชุดข้อมูลใด ๆ เราสามารถเลือกการแจกแจง (หรือการผสมผสานของการแจกแจง) และฟังก์ชันการสูญเสียในลักษณะที่เหมาะสมกับข้อมูล (และสามารถอ้างได้ว่าอธิบาย) นอกจากนี้เกณฑ์ที่ควรอยู่ภายใต้สำหรับคนที่จะเรียกร้องว่ารูปแบบเพียงพออธิบายข้อมูลที่มีพล (ชนิดเช่น P-ค่าทำไมมันและไม่หรือ )
- จากข้างต้นเราสามารถตรวจสอบความถูกต้องของโมเดลที่อธิบายได้ดี แต่ไม่สามารถคาดการณ์ได้ดีเนื่องจากไม่สามารถทำการทดสอบตัวอย่างได้