การลดอคติในการสร้างแบบจำลองอธิบายทำไม? (Galit Shmueli“ อธิบายหรือทำนาย”)


15

นี้อ้างอิงคำถาม Galit Shmueli กระดาษ"ที่จะอธิบายหรือทำนาย"

โดยเฉพาะอย่างยิ่งในหัวข้อ 1.5 "การอธิบายและการทำนายต่างกัน" ศาสตราจารย์ Shmueli เขียน:

ในการอธิบายแบบจำลองการมุ่งเน้นไปที่การลดอคติเพื่อให้ได้การแสดงที่ถูกต้องที่สุดของทฤษฎีพื้นฐาน

นี่ทำให้ฉันงงทุกครั้งที่ฉันอ่านกระดาษ การลดอคติในการประมาณการให้ความหมายที่ถูกต้องที่สุดในการแสดงถึงทฤษฎีพื้นฐานได้อย่างไร?

ฉันได้ดูการพูดคุยของศาสตราจารย์ Shmueli ที่นี่ด้วยซึ่งจัดส่งที่ JMP Discovery Summit 2017 และเธอกล่าวว่า:

... สิ่งต่าง ๆ ที่เหมือนกับนางแบบหดตัวตระการตาคุณจะไม่มีวันได้เห็น เนื่องจากรูปแบบเหล่านั้นโดยการออกแบบแนะนำความเอนเอียงเพื่อลดอคติ / ความแปรปรวนโดยรวม นั่นเป็นเหตุผลที่พวกเขาจะไม่อยู่ที่นั่นมันไม่มีเหตุผลใด ๆ ที่จะทำเช่นนั้น ทำไมคุณต้องทำให้แบบจำลองของคุณลำเอียงโดยมีจุดประสงค์

นี่ไม่ใช่คำถามของฉันที่ชัดเจนเพียงแค่ปรับการอ้างสิทธิ์ที่ฉันไม่เข้าใจ

หากทฤษฏีมีพารามิเตอร์มากมายและเรามีข้อมูลไม่เพียงพอที่จะประมาณค่าเหล่านั้นข้อผิดพลาดในการประมาณจะถูกควบคุมโดยความแปรปรวน เหตุใดจึงไม่เหมาะสมที่จะใช้ขั้นตอนการประเมินแบบเอนเอียงเช่นการถดถอยสัน (ส่งผลให้การประเมินแบบเอนเอียงของความแปรปรวนต่ำกว่า) ในสถานการณ์นี้


1
คำถามที่ดี! +1 ฉันถามคำถามที่เกี่ยวข้องที่stats.stackexchange.com/questions/204386/…
เอเดรียน

@ เอเดรียนั่นเป็นคำถามที่ดีถามดี ฉันชอบที่จะเห็นคำตอบที่ละเอียดถี่ถ้วน!
Matthew Drury

คำตอบ:


6

นี่เป็นคำถามที่ยอดเยี่ยมซึ่งต้องมีการท่องเที่ยวสู่โลกของการใช้แบบจำลองทางสถิติในการวิจัยทางเศรษฐมิติและสังคมศาสตร์ (จากสิ่งที่ฉันได้เห็นนักสถิติประยุกต์และนักขุดข้อมูลที่ทำงานเชิงพรรณนาหรือการทำนายมักไม่เกี่ยวข้องกับ อคติของแบบฟอร์มนี้) คำว่า "อคติ" ที่ฉันใช้ในบทความนี้คือสิ่งที่นักเศรษฐศาสตร์และนักสังคมศาสตร์ถือว่าเป็นอันตรายร้ายแรงต่อการอนุมานสาเหตุจากการศึกษาเชิงประจักษ์ มันหมายถึงความแตกต่างระหว่างแบบจำลองทางสถิติของคุณและรูปแบบทางทฤษฎีสาเหตุที่รองรับมัน คำที่เกี่ยวข้องคือ "ข้อกำหนดเฉพาะของรูปแบบ" หัวข้อที่สอนอย่างหนักในสาขาเศรษฐศาสตร์เนื่องจากความสำคัญของ "ระบุรูปแบบการถดถอยของคุณอย่างถูกต้อง" (ด้วยความเคารพต่อทฤษฎี) เมื่อเป้าหมายของคุณคือการอธิบายเชิงสาเหตุ ดูบทความ Wikipedia เกี่ยวกับข้อมูลจำเพาะสำหรับคำอธิบายสั้น ๆ ปัญหาการสะกดคำผิดที่สำคัญอยู่ภายใต้ข้อมูลจำเพาะเรียกว่า "Omitted Variable Bias" (OVB) ซึ่งคุณละเว้นตัวแปรอธิบายจากการถดถอยที่ควรมี (ตามทฤษฎี) - นี่คือตัวแปรที่สัมพันธ์กับตัวแปรตามและ มีตัวแปรอธิบายอย่างน้อยหนึ่งตัว ดูคำอธิบายที่เรียบร้อย ) ที่อธิบายความหมายของอคติประเภทนี้ จากมุมมองทางทฤษฎี OVB เป็นอันตรายต่อความสามารถในการอนุมานสาเหตุของโมเดล

ในภาคผนวกของกระดาษของฉันเพื่ออธิบายหรือทำนาย? มีตัวอย่างที่แสดงให้เห็นว่าแบบจำลองที่ไม่เน้นด้านล่าง ("ผิด") บางครั้งสามารถมีพลังการทำนายที่สูงกว่าได้ แต่ตอนนี้หวังว่าคุณจะเห็นว่าทำไมสิ่งนั้นจึงขัดแย้งกับเป้าหมายของ "แบบจำลองเชิงสาเหตุที่ดี"


2
ฉันคิดว่ายังมีความสับสนมากมายเกี่ยวกับแบบจำลองการทำนายและแบบอธิบาย ฉันสัมภาษณ์นักวิทยาศาสตร์ด้านข้อมูลที่ บริษัท ประกันภัยรายใหญ่และถามว่าพวกเขาสร้างแบบจำลองการทำนายหรืออธิบายในทีมของเขาหรือไม่ เขาพูดว่า "มันไม่สำคัญเลย" - ฉันไม่คิดว่าเขารู้ความแตกต่าง
RobertF
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.