การทำให้เป็นมาตรฐานจะมีประโยชน์หรือไม่ถ้าเราสนใจเฉพาะการสร้างแบบจำลองไม่ใช่ในการคาดการณ์?


19

การทำให้เป็นมาตรฐานจะมีประโยชน์ถ้าเราสนใจเพียงการประมาณ (และการตีความ) พารามิเตอร์โมเดลไม่ใช่การพยากรณ์หรือการทำนาย?

ฉันเห็นว่าการทำให้เป็นปกติ / การตรวจสอบข้ามมีประโยชน์มากเพียงใดหากเป้าหมายของคุณคือการคาดการณ์ที่ดีเกี่ยวกับข้อมูลใหม่ แต่ถ้าคุณทำเศรษฐศาสตร์แบบดั้งเดิมและสิ่งที่คุณสนใจก็คือการประมาณ ? การตรวจสอบข้ามจะมีประโยชน์ในบริบทนั้นได้หรือไม่ ความยากลำบากทางแนวคิดที่ฉันต่อสู้คือเราสามารถคำนวณจากข้อมูลการทดสอบ แต่เราไม่สามารถคำนวณเพราะจริง\ betaเป็นไปตามคำนิยามที่ไม่เคยสังเกต (รับตามข้อสันนิษฐานที่ว่าแม้จะมีจริง\ betaนั่นคือเรารู้ว่าครอบครัวของแบบจำลองที่สร้างข้อมูล)βL(Y,Y^)L(β,β^)ββ

สมมติว่าสูญเสียของคุณคือL(β,β^)=ββ^\ คุณเผชิญกับการแลกเปลี่ยนอคติแปรปรวนใช่ไหม? ดังนั้นในทางทฤษฎีคุณน่าจะใช้การปรับให้เป็นมาตรฐานได้ดีกว่า แต่คุณจะเลือกพารามิเตอร์การทำให้เป็นมาตรฐานได้อย่างไร?

ฉันยินดีที่จะเห็นตัวอย่างเชิงตัวเลขอย่างง่ายของตัวแบบการถดถอยเชิงเส้นพร้อมค่าสัมประสิทธิ์β(β1,β2,,βk)ซึ่งฟังก์ชันการสูญเสียของนักวิจัยคือββ^หรือแม้เพียงแค่(β1β^1)2 2 ในทางปฏิบัติเราสามารถใช้การตรวจสอบข้ามเพื่อปรับปรุงการสูญเสียที่คาดหวังในตัวอย่างเหล่านั้นได้อย่างไร


แก้ไข : DJohnson ชี้ให้ฉันเห็นhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfซึ่งเกี่ยวข้องกับคำถามนี้ ผู้เขียนเขียนว่า

เทคนิคการเรียนรู้ของเครื่อง ... เป็นวิธีที่มีระเบียบวินัยในการทำนาย Y^ซึ่ง (i) ใช้ข้อมูลของตัวเองในการตัดสินใจว่าจะทำการแลกเปลี่ยนความแปรปรวนอคติและ (ii) ช่วยให้สามารถค้นหาชุดที่สมบูรณ์มาก ตัวแปรและรูปแบบการทำงาน แต่ทุกอย่างมาในราคาที่หนึ่งจะต้องเก็บไว้ในใจว่าเพราะพวกเขามีความคืบหน้าสำหรับY^ พวกเขาไม่ได้ (โดยสมมติฐานอื่น ๆ อีกมากมาย) ให้การค้ำประกันประโยชน์มากสำหรับβ^เบต้า}

กระดาษอื่นที่เกี่ยวข้องอีกครั้งขอบคุณที่ DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf บทความนี้ตอบคำถามที่ฉันต้องดิ้นรนกับสิ่งที่กล่าวมาข้างต้น:

ก. ... ความท้าทายขั้นพื้นฐานในการประยุกต์ใช้วิธีการเรียนรู้ของเครื่องเช่นต้นไม้ถดถอยออกจากชั้นวางของปัญหาการอนุมานเชิงสาเหตุคือวิธีการทำให้เป็นมาตรฐานบนพื้นฐานของการตรวจสอบข้ามโดยทั่วไปนั้นขึ้นอยู่กับการสังเกต "ความจริงพื้นฐาน" นั่นคือผลลัพธ์จริง ในตัวอย่างการตรวจสอบข้าม อย่างไรก็ตามหากเป้าหมายของเราคือลดข้อผิดพลาดกำลังสองเฉลี่ยของผลการรักษาเราพบสิ่งที่ [11] เรียกว่า "ปัญหาพื้นฐานของการอนุมานเชิงสาเหตุ": ไม่พบผลกระทบเชิงสาเหตุสำหรับแต่ละหน่วยและดังนั้นเราจึงไม่ได้โดยตรง มีความจริงพื้นดิน เราพูดถึงเรื่องนี้โดยเสนอวิธีการในการสร้างการประมาณการแบบไม่ลำเอียงของความคลาดเคลื่อนเฉลี่ยกำลังสองของผลกระทบเชิงสาเหตุของการรักษา


2
การตรวจสอบความถูกต้องไขว้เป็นเพียงวิธีหนึ่งในชุดข้อมูลการเรียนรู้และเครื่องมือการเรียนรู้ของเครื่อง ML เห็นการใช้ที่เพิ่มขึ้นในด้านเศรษฐศาสตร์ - ดูเว็บไซต์ของ Susan Athey ที่ Stanford (เธอเป็นนักวิชาการที่สนใจในการบูรณาการเทคนิค ML เข้ากับเศรษฐศาสตร์) หรือบทความนี้ปัญหาการทำนายนโยบายโดย Kleinberg และคณะในรุ่นที่ไม่ได้ปรับปรุง cornell.edu/home/kleinber/aer15-prediction.pdf
Mike Hunter

9
ได้โปรดคนอื่นแก้ความกำกวม: ML สำหรับหลาย ๆ คนชี้ให้เห็นว่าการเรียนรู้ด้วยเครื่องและสำหรับคนอื่น ๆ นั้นมีโอกาสมากที่สุด (คำจำกัดความ: คุณกำลังเรียนรู้ด้านเครื่องของรั้วถ้า ML แปลตัวคุณเป็นเครื่องจักรโดยอัตโนมัติ)
Nick Cox

3
@Aksakal ประสบการณ์ของฉันคือเศรษฐศาสตร์แบบดั้งเดิมซึ่งถูกสอนให้กับทั้งนักศึกษาระดับปริญญาตรีและปริญญาโทให้ความสนใจกับการตรวจสอบข้ามศูนย์เป็นหลัก ดูฮายาชิซึ่งเป็นตำราเรียนคลาสสิก แน่นอนว่าอาจเป็นการตรวจสอบข้ามและการแลกเปลี่ยนความแปรปรวนแบบอคติถูกกล่าวถึงในหลักสูตรเฉพาะเรื่องการพยากรณ์ แต่ไม่ใช่ในหลักสูตรแกนกลางที่นักเรียนทุกคนเริ่มต้นด้วย เสียงนั้นเหมาะสมกับคุณหรือไม่?
เอเดรียน

2
@ เอเดรียฉันเห็นคนโหวตให้ปิดคำถามนี้กว้างเกินไป อาจเป็นเช่นนั้น แต่อย่างที่ฉันเห็นคุณกำลังถามว่า: "CV จะมีประโยชน์หากเราสนใจในการสร้างแบบจำลองเท่านั้นไม่ใช่ในการคาดการณ์" - ถ้าฉันเข้าใจคุณถูกต้องคำถามของคุณสามารถแก้ไขได้ง่ายและง่ายขึ้นดังนั้นจึงชัดเจนและไม่กว้างเกินไป (น่าสนใจ!)
ทิม

2
@ เอเดรียดังนั้นมันเป็นคำถามที่น่าสนใจมาก! ฉันเกรงว่าคุณจะทำให้มันซับซ้อนเกินไปและการอ้างอิงถึงเศรษฐมิตินั้นไม่สำคัญในที่นี้ (เหมือนกันกับสาขาอื่น ๆ ที่ใช้วิธีการทางสถิติ) ฉันอยากจะแนะนำให้คุณแก้ไขคำถามเพื่อให้ง่ายขึ้น
ทิม

คำตอบ:


2

ใช่เมื่อเราต้องการการประมาณค่าความแปรปรวนต่ำแบบเอนเอียง ฉันชอบโพสต์ของ gung โดยเฉพาะที่นี่วิธีการหดตัวมีปัญหาอะไรแก้ได้บ้าง โปรดอนุญาตให้ฉันวางร่างของ gung ที่นี่ ...

ป้อนคำอธิบายรูปภาพที่นี่ หากคุณตรวจสอบพล็อต gung ที่ทำคุณจะชัดเจนว่าทำไมเราถึงต้องทำให้เป็นมาตรฐาน / การหดตัว ตอนแรกฉันรู้สึกแปลก ๆ ว่าทำไมเราต้องมีการประเมินแบบเอนเอียง? แต่เมื่อดูจากรูปนั้นฉันรู้ว่ามีรูปแบบความแปรปรวนต่ำมีข้อได้เปรียบมากมาย: ตัวอย่างเช่นมีความเสถียรมากกว่าในการใช้งานจริง


ใช่ แต่เราจะเลือกพารามิเตอร์การทำให้เป็นมาตรฐานได้อย่างไร เมื่อเป้าหมายคือลดข้อผิดพลาดในการคาดการณ์ให้น้อยที่สุดเราสามารถใช้ชุดการตรวจสอบความถูกต้องได้ เราจะใช้ชุดการตรวจสอบความถูกต้องได้อย่างไรหากเราไม่เคยสังเกตพารามิเตอร์โมเดลจริง
เอเดรียน

ดูคำพูดเกี่ยวกับ "ปัญหาพื้นฐานของการอนุมานเชิงสาเหตุ" ที่ด้านล่างของคำถามของฉัน
เอเดรีย

1

การตรวจสอบข้ามจะมีประโยชน์หรือไม่หากเราสนใจในการสร้างแบบจำลองเท่านั้น (เช่นการประมาณค่าพารามิเตอร์) ไม่ใช่การพยากรณ์

ใช่มันสามารถ ตัวอย่างเช่นเมื่อวันก่อนฉันใช้การประมาณค่าความสำคัญของพารามิเตอร์ผ่านต้นไม้การตัดสินใจ ทุกครั้งที่ฉันสร้างต้นไม้ฉันจะตรวจสอบข้อผิดพลาดในการตรวจสอบข้าม ฉันพยายามลดข้อผิดพลาดให้ได้มากที่สุดจากนั้นฉันจะไปยังขั้นตอนต่อไปในการประเมินความสำคัญของพารามิเตอร์ เป็นไปได้ว่าถ้าต้นไม้แรกที่คุณสร้างไม่ดีมากและคุณไม่ตรวจสอบข้อผิดพลาดคุณจะมีคำตอบที่แม่นยำน้อยลง (ถ้าไม่ผิด)

เหตุผลหลักที่ฉันเชื่อว่าเกิดจากตัวแปรควบคุมจำนวนมากที่แต่ละเทคนิคมี แม้การเปลี่ยนแปลงเล็กน้อยในตัวแปรควบคุมเดียวจะให้ผลลัพธ์ที่แตกต่าง

วิธีการปรับปรุงแบบจำลองของคุณหลังจากที่คุณตรวจสอบข้อผิดพลาดการตรวจสอบข้าม มันขึ้นอยู่กับรุ่นของคุณ หวังว่าหลังจากลองสองสามครั้งคุณจะได้รับแนวคิดเกี่ยวกับตัวแปรควบคุมที่สำคัญที่สุดและสามารถจัดการกับมันเพื่อหาข้อผิดพลาดต่ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.