ทำไมรุ่น“ ข้อผิดพลาดใน X” จึงไม่ใช้กันอย่างแพร่หลาย?


11

เมื่อเราคำนวณผิดพลาดมาตรฐานของค่าสัมประสิทธิ์การถดถอยเราไม่บัญชีสำหรับแบบแผนในการออกแบบเมทริกซ์Xใน OLS เราจะคำนวณเป็นXvar(β^)var((XTX)1XTY)=σ2(XTX)1

หากถูกพิจารณาแบบสุ่มกฎความแปรปรวนโดยรวมจะเรียกร้องการสนับสนุนเพิ่มเติมของความแปรปรวนของเช่นกัน กล่าวคือXX

var(β^)=var(E(β^|X))+E(var(β^|X)).

ซึ่งหากตัวประมาณค่า OLS ไม่มีความเป็นกลางอย่างแท้จริงเทอมแรกก็หายไปเนื่องจากความคาดหวังนั้นคงที่ ระยะที่สองจะกลายเป็นจริง:1}σ2cov(X)1

  1. หากเป็นที่รู้จักกันในแบบจำลองพารามิเตอร์สำหรับทำไมเราไม่แทนที่ด้วยการประมาณความแปรปรวนร่วมที่แท้จริง ตัวอย่างเช่นถ้าเป็นการสุ่มมอบหมายการรักษาความแปรปรวนทวินามควรเป็นการประมาณที่มีประสิทธิภาพมากกว่าหรือไม่XXTXXE(X)(1E(X))

  2. ทำไมเราไม่พิจารณาใช้โมเดลที่ไม่ใช่พารามิเตอร์ที่ยืดหยุ่นเพื่อประเมินแหล่งที่มาของความเอนเอียงที่เป็นไปได้ในการประมาณค่า OLS และพิจารณาความไวในการออกแบบ (เช่นการกระจายของ ) ในเทอมที่แปรปรวนเทอมแรก ?Xvar(E(β^|X))


2
ทำไมกฎหมายทางคณิตศาสตร์ "เรียกร้อง" อะไร? เราใช้แบบจำลองเพื่อให้เหตุผลกับข้อมูลเพื่อระบุวัตถุประสงค์เฉพาะ เมื่อสิ่งเหล่านั้นเพื่อทำความเข้าใจหรือทำนายการตอบสนองแบบมีเงื่อนไขบนพื้นฐานของค่าสังเกตได้หรือวัดได้ความแปรปรวนในจะมีน้อยมาก (ถ้ามี) ที่ทำกับคำถามที่แท้จริง - แน่นอนการรวมการเปลี่ยนแปลงนี้ในกระบวนการของเรา ผิดทั้งหมดทำให้เข้าใจผิดหรือไร้สาระ ดังนั้นการตอบคำถามของคุณดูเหมือนจะเป็นการประเมินความถี่ที่พบปัญหาทางสถิติประเภทต่าง ๆ XX,X
whuber

1
@whuber ฉันมุ่งเน้นไปที่การอนุมาน กฎความแปรปรวนโดยรวมดูเหมือนจะสอดคล้องกับการตีความผลการศึกษาบ่อยครั้งมากขึ้น เรามักจะพูดถึง "ถ้าการศึกษาถูกจำลอง" ... โดยไม่ต้องคำนึงถึงข้อเท็จจริงที่ว่าการแจกแจงของอาจแตกต่างกันหากการศึกษาถูกจำลอง ความสมดุลของเพศอาจเป็น 40% ในตัวอย่างหนึ่ง แต่ 60% ในอีกตัวอย่างหนึ่งเป็นการสุ่มผลลัพธ์ของวิธีการศึกษาที่ได้รับ กระแทกแดกดัน bootstrap สะท้อนถึงสิ่งนี้ แต่ไม่ได้สร้างความแปรปรวนใด ๆ ในผลลัพธ์สำหรับการรวมกันของ covariates X
AdamO

2
ก่อนอื่นการศึกษาจำนวนมากวางภายใต้การควบคุมการทดลองดังนั้นจึงไม่ได้สุ่ม ประการที่สองการศึกษาเชิงสังเกตการณ์ (โดยที่สุ่ม) มักสนใจเฉพาะการอนุมานเกี่ยวกับการแจกแจงแบบมีเงื่อนไขของดังนั้นการมุ่งเน้นที่การอนุมานจะไม่แยกความแตกต่างของสถานการณ์หนึ่งจากอีกสถานการณ์หนึ่ง เมื่อการกระจาย (ข้อต่อ) เต็มรูปแบบเป็นที่สนใจคุณจะเห็นคนจำนวนมากหันไปใช้รูปแบบของการวิเคราะห์สหสัมพันธ์หรือวิธีการหลายตัวแปร ไม่มีสิ่งเช่น "bootstrap" เพราะในสถานการณ์เช่นนี้ว่าคุณ resample ขึ้นอยู่กับวัตถุประสงค์ของคุณเช่นเดียวกับแบบจำลองของคุณ X YXXY.
whuber

1
ควบคุม @whuber ทดลองจะสุ่มที่จุดของการเข้าศึกษา ดังที่ฉันได้กล่าวมานี้เป็นกรณีที่น่าสนใจ: พูดว่าการสุ่มคือเบอร์นูลลี ใช้การประมาณการเชิงประจักษ์ว่าทำไม ? ใช้ความน่าจะเป็นสูงสุด: ? คุณถูกต้องเกี่ยวกับ bootstrap ฉันหมายถึง bootstrap ที่ไม่มีพารามิเตอร์ (ไม่มีเงื่อนไข) ที่ซึ่ง "แถว" ของข้อมูลถูกสุ่มตัวอย่างด้วยการแทนที่ cov ( X ) = E ( X ) ( 1 - E ( X ) )cov(X)=XTXcov(X)=E(X)(1E(X))
AdamO

2
นอกโดยเฉพาะอย่างยิ่งกรณีที่ผิดปกติก็ไม่ได้เรื่องจริงๆถ้าเป็นแบบสุ่มสิ่งที่สำคัญคือถ้ามีข้อผิดพลาดในการวัดในX_1ถ้าเป็นเช่นนั้นวิธี OLS จะนำไปสู่ความลำเอียงและลดประมาณการขับเคลื่อน\ในกรณีนั้นควรใช้ข้อผิดพลาดในวิธีตัวแปร X 1 β 1X1X1β1
gung - Reinstate Monica

คำตอบ:


8

คำถามของคุณ (บวกความเห็นเพิ่มเติมในความคิดเห็น) ดูเหมือนจะให้ความสนใจเป็นส่วนใหญ่ในกรณีที่เรามีการทดลองแบบสุ่มควบคุมโดยที่นักวิจัยได้ทำการสุ่มตัวแปรอธิบายอย่างน้อยหนึ่งตัวตามการออกแบบแบบสุ่ม ในบริบทนี้คุณต้องการที่จะรู้ว่าทำไมเราใช้แบบจำลองที่ปฏิบัติต่อตัวแปรอธิบายว่าเป็นค่าคงที่ที่รู้จักกันดีกว่าให้ถือว่าพวกมันเป็นตัวแปรสุ่มจากการกระจายตัวตัวอย่างที่กำหนดโดยการสุ่ม (คำถามของคุณกว้างกว่านี้ แต่นี่น่าจะเป็นกรณีที่ความสนใจหลักในคำอธิบายดังนั้นนี่คือคำถามที่ฉันจะกล่าวถึง)

เหตุผลที่เราเงื่อนไขในการอธิบายตัวแปรในบริบทนี้คือว่าในปัญหาการถดถอยสำหรับ RCT เรายังคงสนใจในเงื่อนไขการกระจายของตัวแปรตอบสนองได้รับพยากรณ์ อันที่จริงแล้วใน RCT เรามีความสนใจในการพิจารณาผลกระทบเชิงสาเหตุของตัวแปรอธิบายในการตอบสนองตัวแปรซึ่งเราจะพิจารณาผ่านการอนุมานเกี่ยวกับการแจกแจงแบบมีเงื่อนไข (ขึ้นอยู่กับโปรโตคอลบางอย่างเพื่อป้องกันการรบกวน) สุ่มจะเรียกเก็บที่จะทำลายการพึ่งพาอาศัยกันระหว่างตัวแปรอธิบายและตัวแปรใด ๆ จะถูกรบกวน (กล่าวคือป้องกันไม่ให้สมาคมประตูหลัง) XYX อย่างไรก็ตามวัตถุประสงค์ของการอนุมานในปัญหายังคงเป็นการกระจายแบบมีเงื่อนไขของตัวแปรตอบกลับที่ได้รับจากตัวแปรอธิบาย ดังนั้นจึงยังคงทำให้ความรู้สึกในการประมาณค่าพารามิเตอร์ในการกระจายเงื่อนไขนี้โดยใช้วิธีการประเมินที่มีคุณสมบัติที่ดีสำหรับการอนุมานเงื่อนไขการจำหน่าย

นั่นเป็นกรณีปกติที่ใช้สำหรับ RCT โดยใช้เทคนิคการถดถอย แน่นอนว่ามีบางสถานการณ์ที่เรามีความสนใจอื่น ๆ และเราอาจต้องการรวมความไม่แน่นอนเกี่ยวกับตัวแปรอธิบาย การรวมความไม่แน่นอนในตัวแปรอธิบายโดยทั่วไปเกิดขึ้นในสองกรณี:

  • (1) เมื่อเราไปไกลกว่าการวิเคราะห์การถดถอยและการวิเคราะห์หลายตัวแปรเราก็สนใจที่จะกระจายการแจกแจงของตัวแปรอธิบายและการตอบสนองร่วมกัน อาจมีแอปพลิเคชั่นที่นี่เป็นที่สนใจของเราและดังนั้นเราจึงไปไกลกว่าการวิเคราะห์การถดถอยและรวมข้อมูลเกี่ยวกับการแจกแจงของตัวแปรอธิบาย

  • (2) ในแอปพลิเคชันการถดถอยบางส่วนความสนใจของเราอยู่ในการแจกแจงแบบกระจายตามเงื่อนไขของตัวแปรตอบกลับแบบมีเงื่อนไขบนตัวแปรอธิบายที่ไม่ได้สังเกตซึ่งเราสันนิษฐานว่าตัวแปรอธิบายที่สังเกตพบนั้นมีข้อผิดพลาด ("error-in-variables") ในกรณีนี้เรารวมความไม่แน่นอนผ่าน "ความผิดพลาดในตัวแปร" สาเหตุของเรื่องนี้ก็คือความสนใจของเราในกรณีเหล่านี้อยู่ในการแจกแจงแบบมีเงื่อนไขโดยมีเงื่อนไขกับตัวแปรพื้นฐานที่ไม่มีการตรวจสอบ

โปรดทราบว่าทั้งสองกรณีนี้มีความซับซ้อนทางคณิตศาสตร์มากกว่าการวิเคราะห์การถดถอยดังนั้นหากเราสามารถใช้การวิเคราะห์การถดถอยได้ ไม่ว่าในกรณีใดในการประยุกต์ใช้การวิเคราะห์การถดถอยเป้าหมายส่วนใหญ่จะทำการอนุมานเกี่ยวกับการแจกแจงแบบมีเงื่อนไขของการตอบสนองเนื่องจากตัวแปรอธิบายที่สังเกตได้ดังนั้นการสรุปทั่วไปเหล่านี้จึงไม่จำเป็น


โปรดทราบว่า randomisation severs เป็นสาเหตุที่ทำให้เกิดผลกระทบจากตัวแปรที่ทำให้เกิดตัวแปรสุ่มตัวแปร แต่มันก็ไม่ได้ส่งผลกระทบเชิงสาเหตุจากตัวแปรสุ่มไปยังตัวแปรที่รบกวนและจากนั้นก็ตอบสนอง ซึ่งหมายความว่าอาจจำเป็นต้องใช้โปรโตคอลอื่น (เช่น placebos, blinding, ฯลฯ ) ในการวิเคราะห์ความสัมพันธ์เชิงสาเหตุทั้งหมด


2
คำตอบที่ดี ฉันจะเพิ่มที่ AFAIK ถ้าคุณมีข้อผิดพลาดในตัวแปรเกาส์และเกาส์ข้อผิดพลาดในการตอบสนองกว่าวิธีการถดถอยปกติการทำงานและจะกลายเป็นปัญหาเฉพาะในกรณีที่คุณ) การตอบสนองที่สังเกตได้โดยไม่ผิดพลาดข) มีการกระจายการตอบสนองที่แตกต่างกัน
มาร์ติน Modrák

2

หัวข้อ "ข้อผิดพลาดในตัวแปร" และเนื้อหาของคำถามดูเหมือนจะแตกต่างกันตามที่ถามเกี่ยวกับสาเหตุที่เราไม่คำนึงถึงความแปรปรวนในเมื่อสร้างแบบจำลองการตอบสนองตามเงื่อนไขนั่นคือการอนุมานสำหรับพารามิเตอร์การถดถอย ความลุ่มหลงสองอย่างนั้นดูเหมือนว่าเป็นมุมฉากสำหรับฉันดังนั้นที่นี่ฉันจึงตอบสนองต่อเนื้อหาX

ฉันได้ตอบคำถามที่คล้ายกันก่อนหน้านี้อะไรคือความแตกต่างระหว่างการเพิ่มประสิทธิภาพของ regressors กับการปฏิบัติตามที่กำหนด? ดังนั้นฉันจะคัดลอกคำตอบที่นี่:

ฉันจะพยายามโต้เถียงสำหรับเงื่อนไขใน regressors ค่อนข้างเป็นทางการมากขึ้น Letเป็นเวกเตอร์สุ่มและที่น่าสนใจคือในการถดถอยบนที่ถดถอยจะนำไปหมายถึงความคาดหวังที่มีเงื่อนไขของบนXภายใต้สมมติฐานพหุคูณที่จะเป็นฟังก์ชันเชิงเส้น แต่ข้อโต้แย้งของเราไม่ได้ขึ้นอยู่กับว่า เราเริ่มต้นด้วยการแยกความหนาแน่นของข้อต่อตามปกติ แต่ฟังก์ชั่นเหล่านั้นไม่เป็นที่รู้จักดังนั้นเราจึงใช้พารามิเตอร์แบบจำลอง โดยที่ parameterizes การแจกแจงแบบมีเงื่อนไขและ(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψการกระจายส่วนเพิ่มของXในโมเดลเชิงเส้นปกติเราสามารถมีแต่นั่นไม่ได้สันนิษฐาน พื้นที่พารามิเตอร์แบบเต็มของคือ , ผลิตภัณฑ์คาร์ทีเซียนและพารามิเตอร์ทั้งสองไม่มีส่วนร่วมXθ=(β,σ2)(θ,ψ)Θ×Ψ

สิ่งนี้สามารถตีความได้ว่าเป็นการแยกตัวประกอบของการทดลองทางสถิติ (หรือกระบวนการสร้างข้อมูล, DGP),แรกถูกสร้างขึ้นตามและเป็นขั้นตอนที่สองถูกสร้างขึ้นตามความหนาแน่นของเงื่อนไขx) โปรดทราบว่าขั้นตอนแรกไม่ได้ใช้ความรู้ใด ๆ เกี่ยวกับที่เข้ามาในขั้นตอนที่สองเท่านั้น สถิติคือเสริมสำหรับดูhttps://en.wikipedia.org/wiki/Ancillary_statisticXfψ(x)Yfθ(yX=x)θXθ

แต่ขึ้นอยู่กับผลลัพธ์ของขั้นตอนแรกขั้นตอนที่สองอาจให้ข้อมูลเกี่ยวกับมากหรือน้อยθfψ(x)xθθX=x

ในการออกแบบการทดลองสมมติฐานส่วนใหญ่จะมีขึ้นบ่อยครั้งที่ไม่มีข้อมูลเชิงสังเกต ตัวอย่างของปัญหาจะเป็น: การถดถอยที่มีการตอบสนองล่าช้าเป็นตัวทำนาย การปรับเงื่อนไขในตัวทำนายในกรณีนี้จะเป็นเงื่อนไขในการตอบสนองด้วย! (ฉันจะเพิ่มตัวอย่างเพิ่มเติม)

§4.3


θXθXθ

อาร์กิวเมนต์การแยกนี้มีประโยชน์เช่นกันเพราะมันชี้ไปที่กรณีที่ไม่สามารถใช้งานได้เช่นการถดถอยที่มีการตอบสนองล่าช้าเป็นตัวทำนาย


1
XYθψ

ฉันไม่รู้เกี่ยวกับ PLS แต่จะพยายามคิดเกี่ยวกับมัน
kjetil b halvorsen

1
คำตอบที่ดี! ...
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.