การทำให้เป็นมาตรฐานจะมีประโยชน์ถ้าเราสนใจเพียงการประมาณ (และการตีความ) พารามิเตอร์โมเดลไม่ใช่การพยากรณ์หรือการทำนาย?
ฉันเห็นว่าการทำให้เป็นปกติ / การตรวจสอบข้ามมีประโยชน์มากเพียงใดหากเป้าหมายของคุณคือการคาดการณ์ที่ดีเกี่ยวกับข้อมูลใหม่ แต่ถ้าคุณทำเศรษฐศาสตร์แบบดั้งเดิมและสิ่งที่คุณสนใจก็คือการประมาณ ? การตรวจสอบข้ามจะมีประโยชน์ในบริบทนั้นได้หรือไม่ ความยากลำบากทางแนวคิดที่ฉันต่อสู้คือเราสามารถคำนวณจากข้อมูลการทดสอบ แต่เราไม่สามารถคำนวณเพราะจริง\ betaเป็นไปตามคำนิยามที่ไม่เคยสังเกต (รับตามข้อสันนิษฐานที่ว่าแม้จะมีจริง\ betaนั่นคือเรารู้ว่าครอบครัวของแบบจำลองที่สร้างข้อมูล)
สมมติว่าสูญเสียของคุณคือ\ คุณเผชิญกับการแลกเปลี่ยนอคติแปรปรวนใช่ไหม? ดังนั้นในทางทฤษฎีคุณน่าจะใช้การปรับให้เป็นมาตรฐานได้ดีกว่า แต่คุณจะเลือกพารามิเตอร์การทำให้เป็นมาตรฐานได้อย่างไร?
ฉันยินดีที่จะเห็นตัวอย่างเชิงตัวเลขอย่างง่ายของตัวแบบการถดถอยเชิงเส้นพร้อมค่าสัมประสิทธิ์ซึ่งฟังก์ชันการสูญเสียของนักวิจัยคือหรือแม้เพียงแค่ 2 ในทางปฏิบัติเราสามารถใช้การตรวจสอบข้ามเพื่อปรับปรุงการสูญเสียที่คาดหวังในตัวอย่างเหล่านั้นได้อย่างไร
แก้ไข : DJohnson ชี้ให้ฉันเห็นhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfซึ่งเกี่ยวข้องกับคำถามนี้ ผู้เขียนเขียนว่า
เทคนิคการเรียนรู้ของเครื่อง ... เป็นวิธีที่มีระเบียบวินัยในการทำนาย ซึ่ง (i) ใช้ข้อมูลของตัวเองในการตัดสินใจว่าจะทำการแลกเปลี่ยนความแปรปรวนอคติและ (ii) ช่วยให้สามารถค้นหาชุดที่สมบูรณ์มาก ตัวแปรและรูปแบบการทำงาน แต่ทุกอย่างมาในราคาที่หนึ่งจะต้องเก็บไว้ในใจว่าเพราะพวกเขามีความคืบหน้าสำหรับ พวกเขาไม่ได้ (โดยสมมติฐานอื่น ๆ อีกมากมาย) ให้การค้ำประกันประโยชน์มากสำหรับเบต้า}
กระดาษอื่นที่เกี่ยวข้องอีกครั้งขอบคุณที่ DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf บทความนี้ตอบคำถามที่ฉันต้องดิ้นรนกับสิ่งที่กล่าวมาข้างต้น:
ก. ... ความท้าทายขั้นพื้นฐานในการประยุกต์ใช้วิธีการเรียนรู้ของเครื่องเช่นต้นไม้ถดถอยออกจากชั้นวางของปัญหาการอนุมานเชิงสาเหตุคือวิธีการทำให้เป็นมาตรฐานบนพื้นฐานของการตรวจสอบข้ามโดยทั่วไปนั้นขึ้นอยู่กับการสังเกต "ความจริงพื้นฐาน" นั่นคือผลลัพธ์จริง ในตัวอย่างการตรวจสอบข้าม อย่างไรก็ตามหากเป้าหมายของเราคือลดข้อผิดพลาดกำลังสองเฉลี่ยของผลการรักษาเราพบสิ่งที่ [11] เรียกว่า "ปัญหาพื้นฐานของการอนุมานเชิงสาเหตุ": ไม่พบผลกระทบเชิงสาเหตุสำหรับแต่ละหน่วยและดังนั้นเราจึงไม่ได้โดยตรง มีความจริงพื้นดิน เราพูดถึงเรื่องนี้โดยเสนอวิธีการในการสร้างการประมาณการแบบไม่ลำเอียงของความคลาดเคลื่อนเฉลี่ยกำลังสองของผลกระทบเชิงสาเหตุของการรักษา