การทำความเข้าใจรูปร่างและการคำนวณแถบความเชื่อมั่นในการถดถอยเชิงเส้น


33

ฉันพยายามเข้าใจที่มาของรูปโค้งของแถบความเชื่อมั่นที่เกี่ยวข้องกับการถดถอยเชิงเส้น OLS และวิธีการที่เกี่ยวข้องกับช่วงความมั่นใจของพารามิเตอร์การถดถอย (ความชันและจุดตัด) ตัวอย่างเช่น (โดยใช้ R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

ป้อนคำอธิบายรูปภาพที่นี่

ปรากฏว่าวงดนตรีมีความเกี่ยวข้องกับขีด จำกัด ของเส้นที่คำนวณด้วยการสกัด 2.5% และความชัน 97.5% เช่นเดียวกับการสกัดกั้น 97.5% และความชัน 2.5% (แม้ว่าจะไม่มาก):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งที่ฉันไม่เข้าใจมีสองสิ่ง:

  1. สิ่งที่เกี่ยวกับการรวมกันของความชัน 2.5% และการสกัดกั้น 2.5% รวมถึงความชัน 97.5% และการสกัดกั้น 97.5% สิ่งเหล่านี้ให้เส้นที่ชัดเจนนอกวงที่วางแผนไว้ด้านบน บางทีฉันอาจไม่เข้าใจความหมายของช่วงความมั่นใจ แต่ถ้าใน 95% ของกรณีที่การประมาณการของฉันอยู่ในช่วงความเชื่อมั่นสิ่งเหล่านี้ดูเหมือนจะเป็นผลลัพธ์ที่เป็นไปได้หรือไม่
  2. อะไรเป็นตัวกำหนดระยะห่างขั้นต่ำระหว่างขีด จำกัด บนและล่าง (เช่นใกล้กับจุดที่เส้นสองเส้นที่เพิ่มเข้ามาด้านบนจุดตัด)

ฉันเดาว่าคำถามทั้งสองเกิดขึ้นเพราะฉันไม่รู้ / เข้าใจว่าวงดนตรีเหล่านี้คำนวณได้อย่างไร

ฉันจะคำนวณขีด จำกัด บนและล่างโดยใช้ช่วงความเชื่อมั่นของพารามิเตอร์การถดถอยได้อย่างไร (โดยไม่ต้องอาศัยการทำนาย () หรือฟังก์ชันที่คล้ายกันเช่นด้วยมือ) ฉันพยายามถอดรหัสฟังก์ชั่น Pred.lm ใน R แต่การเขียนโค้ดนั้นอยู่เหนือฉัน ฉันขอขอบคุณพอยน์เตอร์ที่มีต่อวรรณคดีหรือคำอธิบายที่เหมาะสมสำหรับผู้เริ่มต้นใช้งานสถิติ

ขอบคุณ


4
คุณมีสองคำตอบที่ดีด้านล่าง หากคุณต้องการข้อมูลเพิ่มเติมมันอาจช่วยให้คุณอ่านคำตอบของฉันได้ที่นี่: ช่วงเวลาการทำนายการถดถอยเชิงเส้นซึ่งเกี่ยวข้องกับช่วงการทำนาย แต่แนวคิดนั้นคล้ายกันมาก
gung - Reinstate Monica

2
มีคำอธิบายรายละเอียดที่ใช้งานง่ายได้รับในโพสต์นี้เป็น: รูปแบบของช่วงความเชื่อมั่นสำหรับค่าที่คาดการณ์ไว้ในการถดถอยเชิงเส้น
Glen_b -Reinstate โมนิก้า

TA สำหรับคำตอบที่เป็นประโยชน์และลิงค์ที่ยอดเยี่ยม
David

คำตอบ:


18

XsY^X

sY^X=sY|X1n+(X-X¯)2Σผม=1n(Xผม-X¯)2

sY|X

sY|X=Σผม=1n(Yผม-Y^)2n-2

Y^±เสื้อν=n-2,α/2sY^

YX

β^α^


1
มีตำราที่อธิบายว่าสูตรเหล่านี้มาจากไหน?
Michael Goerz

1
@MichaelGoerz สถิติเบื้องต้นชีวสถิติเศรษฐศาสตร์ ฯลฯ หนังสือเรียนที่ครอบคลุมการถดถอยเชิงเส้นสี่เหลี่ยมน้อยที่สุดธรรมดาควรมี
Alexis

ฉันมี Wasserman - สถิติทั้งหมด, James et al - ข้อมูลเบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติและ Hastie et al - องค์ประกอบของการเรียนรู้ทางสถิติ ฉันไม่สามารถหาสมการสำหรับแถบความเชื่อมั่นการถดถอยเชิงเส้นในใด ๆ ของพวกเขา คุณมีหมายเลขบท / eq สำหรับหนังสือเหล่านี้หรือหนังสืออื่น ๆ
Michael Goerz

2
ไม่มีหนังสือที่คุณพูดถึงเป็นประเภทของหนังสือที่อเล็กซิสกำลังพูดถึง หนังสือของ Fox เกี่ยวกับการถดถอยแบบประยุกต์มีถ้าฉันจำได้ถูกต้อง
Glen_b -Reinstate Monica

1
@MichaelGoerz เช่นเดียวกับ Pagano, M. และ Gauvreau, K. (2000) หลักการทางชีวสถิติ . Duxbury Press, Pacific Grove, CA, รุ่นที่ 2 และ Glantz, SA (2011) ไพรเมอร์ของชีวสถิติ McGraw-Hill Medical, New York, NY, ฉบับที่ 7 ถึงแม้ว่าพวกเขาจะไม่ได้เป็นตำราเฉพาะการถดถอย
Alexis

16

เป็นคำถามที่ดี สิ่งสำคัญคือการเข้าใจแนวคิดเหล่านี้และพวกเขาไม่ตรงไปตรงมา

Y¯Y¯Y¯

เมื่อเรารวมช่วงความเชื่อมั่นทั้งหมดเข้าด้วยกันสำหรับทุก ๆ x ที่เป็นไปได้มันจะให้แถบสีเทาที่เราเห็นในผลลัพธ์

ความหมายของการใช้งานคือเรามั่นใจ 95% ว่าเส้นการถดถอยที่แท้จริงอยู่ที่ไหนสักแห่งในเขตสีเทานั้น

เนื่องจากช่วงความเชื่อมั่นถูกคำนวณโดยใช้ช่วงความเชื่อมั่น 95% สำหรับแต่ละจุดจึงมีความสัมพันธ์อย่างใกล้ชิดกับ 95% CI สำหรับการสกัดกั้น ในความเป็นจริงที่ x = 0 ขอบของโซนสีเทาจะตรงกับ 95% CI สำหรับการสกัดกั้นเพราะนั่นคือวิธีที่เราสร้างแถบความเชื่อมั่น นั่นเป็นสาเหตุที่เส้นที่คุณเพิ่มด้านบนกระทบกับขอบของแถบสีเทาทางด้านซ้าย

อย่างไรก็ตามความลาดชันแตกต่างกันเล็กน้อย มันช่วยให้เกิดข้อ จำกัด ดังที่คุณเห็นด้านบน แต่ความชันและการสกัดกั้นไม่สามารถแยกกันได้ในการถดถอยเชิงเส้น ดังนั้นคุณไม่สามารถพูดได้ว่า "จะเกิดอะไรขึ้นถ้าการสกัดกั้นอยู่ที่ช่วง CI ขั้นต่ำและความชันก็น้อยที่สุดด้วย" บรรทัดนี้จะสร้างจุดที่อยู่นอก 95% CI ของเราสำหรับ x จำนวนมาก ซึ่งหมายความว่าเรามั่นใจ 95% ที่ไม่ใช่สายการถดถอยที่แท้จริงของเรา

x¯sY^x(x-x¯)x=x¯

มีจุดที่เหมาะสมที่นี่ซึ่งสามารถช่วยให้คุณเห็นภาพของสิ่งเหล่านี้: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
ฉันคิดว่าฉันซ่อมมัน - แทนที่ yhats ด้วย ybars ถูกต้องหรือไม่ ฉันมักจะพลาดอะไร
Duncan

ขอบคุณ สิ่งหนึ่งที่ยังไม่ชัดเจนสำหรับฉันคือทำอย่างไรให้คำสั่งสองข้อต่อไปนี้สอดคล้องกัน: "สิ่งนี้ใช้งานได้จริงหมายความว่าเรามั่นใจ 95% ว่าเส้นการถดถอยที่แท้จริงอยู่ที่ไหนสักแห่งในเขตสีเทา" vs "[... ] ช่วงความมั่นใจเกี่ยวกับการสกัดกั้นและความชันยังเป็นปริมาณอื่น ๆ " หากข้อความแรกถูกต้องจะต้องมีความสัมพันธ์ (ทางคณิตศาสตร์?) บางอย่างระหว่าง CIs ของการสกัดกั้นและความลาดชันและวงที่วางแผนไว้ข้างต้น? ฉันเดาว่าสิ่งนี้เกี่ยวข้องกับส่วนหนึ่งของคำถามของฉัน: ฉันจะคำนวณ (ถ้าเป็นไปได้) วงดนตรีข้างต้นโดยใช้ความชันและการสกัดกั้นของ CI ได้อย่างไร
David

1
x¯

โพสต์ที่เข้าใจดีและลิงค์ดี! +1
theestestecologist
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.