วิธีการปรับโมเดลข้อผิดพลาดในการวัด“ แบบง่าย”


13

ฉันกำลังมองหาวิธีการที่สามารถใช้ในการประมาณรูปแบบข้อผิดพลาดในการวัด "OLS"

x i = X i + e x , i Y i = α + β X i

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

ในกรณีที่ข้อผิดพลาดที่มีความเป็นอิสระปกติที่ไม่รู้จักแปรปรวนและ{2} OLS "มาตรฐาน" จะไม่ทำงานในกรณีนี้ σ 2 xσy2σx2

วิกิพีเดียมีวิธีแก้ปัญหาที่ไม่น่าสนใจ - ทั้งสองบังคับให้คุณคิดว่า "อัตราส่วนแปรปรวน"หรือ " อัตราส่วนความน่าเชื่อถือ "เป็นที่รู้จักที่คือความแปรปรวนของ regressor จริงx_iฉันไม่พอใจกับสิ่งนี้เพราะคนที่ไม่รู้ความแปรปรวนจะรู้อัตราส่วนได้อย่างไร λ=σ 2 Xδ=σy2σx2 σ 2 X Xiλ=σX2σx2+σX2σX2Xi

ยังมีโซลูชันอื่นนอกเหนือจากสองสิ่งนี้ซึ่งไม่ต้องการให้ฉัน "รู้" เกี่ยวกับพารามิเตอร์หรือไม่

วิธีแก้ปัญหาสำหรับการสกัดกั้นและความลาดชันนั้นใช้ได้


บทความ Wikipedia นั้นให้คำตอบสำหรับคำถามนี้กับคุณ หากคุณยอมรับความเป็นปกติของผู้ลงทะเบียน "ของจริง" คุณต้องมีเงื่อนไขเพิ่มเติมเกี่ยวกับการแจกแจงข้อผิดพลาด หาก regressor ที่แท้จริงไม่ใช่ Gaussian แสดงว่าคุณมีความหวัง ดูReiersol (1950)
พระคาร์ดินัล

นอกจากนี้สิ่งที่คุณหมายถึงโดย "โซลูชั่นสำหรับเพียงแค่การสกัดกั้นและความลาดชันได้ดี" นี่เป็นเพียงพารามิเตอร์สองตัวของคุณ! หรือคุณหวังที่จะลองถอยหลังตัวจริง "จริง" เช่นกัน?
พระคาร์ดินัล

@cardinal - ฉันหมายความว่าฉันไม่ได้โดยเฉพาะอย่างยิ่งเกี่ยวกับการดูแลสองพารามิเตอร์ขนาดและที่คุณพูดว่า "true" regressor{i} Xi
ความน่าจะเป็นทาง

ฉันเห็น. นั่นทำให้รู้สึก
พระคาร์ดินัล

คำตอบ:


7

มีช่วงของความเป็นไปได้ที่อธิบายโดย JW Gillard ในภาพรวมเชิงประวัติศาสตร์ของการถดถอยเชิงเส้นพร้อมข้อผิดพลาดในตัวแปรทั้งสอง

หากคุณไม่สนใจรายละเอียดหรือเหตุผลในการเลือกวิธีอื่นมากกว่าเพียงแค่วิธีที่ง่ายที่สุดซึ่งก็คือการลากเส้นผ่านเซนทรอยด์ด้วยความชันคืออัตราส่วนของการเบี่ยงเบนมาตรฐานที่สังเกต (ทำให้เครื่องหมายของความชันเท่ากับสัญลักษณ์ของความแปรปรวนร่วมของและ ) ในขณะที่คุณสามารถออกกำลังกายได้สิ่งนี้จะเป็นการสกัดกั้น -axis ของ(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

ข้อดีของวิธีนี้คือ

  1. มันจะช่วยให้สายเดียวกันเปรียบเทียบกับเป็นกับ ,xyyx
  2. มันเป็นค่าคงที่ดังนั้นคุณไม่ต้องกังวลกับยูนิต
  3. มันอยู่ระหว่างเส้นถดถอยเชิงเส้นธรรมดาสองเส้น
  4. มันข้ามพวกเขาโดยที่พวกเขาข้ามกันที่เซนทรอยด์ของการสำรวจและ
  5. มันง่ายในการคำนวณ

ความชันเป็นค่าเฉลี่ยทางเรขาคณิตของความชันของทั้งสองเส้นถดถอยเชิงเส้นสามัญ นอกจากนี้ยังเป็นสิ่งที่คุณจะได้รับหากคุณกำหนดมาตรฐานการสังเกตและให้ลากเส้นที่ 45 ° (หรือ 135 °หากมีความสัมพันธ์เชิงลบ) แล้วยกเลิกการกำหนดมาตรฐาน มันอาจถูกมองว่าเทียบเท่ากับการตั้งสมมติฐานโดยนัยที่ความแปรปรวนของข้อผิดพลาดสองชุดนั้นแปรผันตามความแปรปรวนของการสังเกตสองชุด เท่าที่ฉันสามารถบอกได้คุณอ้างว่าไม่รู้ว่าวิธีนี้ผิดxy

นี่คือตัวอย่างรหัส R เพื่อแสดง: เส้นสีแดงในแผนภูมิคือ OLS regression ของบน , เส้นสีฟ้าคือ OLS regression ของบนและเส้นสีเขียวเป็นวิธีง่าย ๆ โปรดทราบว่าความลาดชันควรประมาณ 5XYXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")

@Henry ความหมายของคุณที่มีต่อนั้นไม่สมเหตุสมผลเลยสำหรับฉัน "หมวก" หายไปไหม? β^
พระคาร์ดินัล

มันเป็นค่าเฉลี่ยจะเป็นที่สังเกตส่วนเบี่ยงเบนมาตรฐานของหารด้วยส่วนเบี่ยงเบนมาตรฐานสังเกตของ\} ฉันจะเปลี่ยนเป็น{yi}{xi}σs
Henry

@ เฮนรี่คุณช่วยอธิบายความคิดเห็นของคุณได้ไหม? มีบางอย่างที่ทำให้ฉันรู้สึกไม่ดีโดยอิงจากคำอธิบายปัจจุบันของคุณ ปล่อยเป็นความชันโดยที่คือการตอบสนองและคือตัวทำนาย ให้เป็นความชันโดยสมมติว่าเป็นการตอบสนองและเป็นตัวทำนาย จากนั้นและโดยที่เป็นตัวอย่างความสัมพันธ์ระหว่างและy ที่ดังนั้นค่าเฉลี่ยเรขาคณิตของทั้งสองประมาณการความลาดชันเป็นเพียงโร}Yx β YxxY β xY= ρ sY/sx β Yxβ^xyyxβ^yxxyβ^xy=ρ^sy/sxβ^yx=ρ^sx/syρ^xyρ^
พระคาร์ดินัล

@cardinal: ไม่มี - เมื่อฉันเห็นที่ผมหมายถึงความลาดชันเป็นเนื่องจากสามารถเขียนใหม่เป็น b เมื่อคุณพยายามวาดเส้น OLS สองเส้นบนกราฟเดียวกันพร้อมกับจุดที่สังเกต (เช่นบนแกนตั้งและบนแกนนอน) คุณต้องสลับหนึ่งในลาด ดังนั้นผมจึงหมายความว่าคุณจะใช้ค่าเฉลี่ยเรขาคณิตของและซึ่งเป็นเพียงs_yหรือถ้าคุณไม่ธรรมดาพอที่จะพล็อตและอีกด้านหนึ่งสำหรับทั้งเส้นและจุดที่สังเกตได้คุณจะได้ค่าอินเวอร์สของความชันนั้น1 /Y = x / B - C /Y x ρx=by+c1/by=x/bc/byxs Y / ρ s x s Y / s x Y xρ^sy/sxsy/ρ^sxsy/sxyx
เฮนรี่

@ Henry - นั่นเป็นคำตอบที่น่าสนใจทีเดียว ฉันไม่จำเป็นต้องสงสัยความถูกต้องของมัน แต่สิ่งหนึ่งที่ทำให้ฉันประหลาดใจก็คือความสัมพันธ์ / ความแปรปรวนร่วมระหว่างและไม่ได้อยู่ในคำตอบ แน่นอนว่าสิ่งนี้ควรเกี่ยวข้องกับคำตอบ? XYX
ความน่าจะเป็นเชิง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.