ความแตกต่างระหว่างช่วงความมั่นใจและช่วงการทำนาย


80

สำหรับช่วงเวลาการคาดการณ์ในการถดถอยเชิงเส้นคุณยังคงใช้เพื่อสร้างช่วงเวลา นอกจากนี้คุณยังใช้วิธีนี้ในการสร้างความเชื่อมั่นของx_0] ความแตกต่างระหว่างสองคืออะไรE[Y| x0]E^[Y|x]=β0^+β^1xE[Y|x0]


7
E^[Y|x]=β0^+β^1xไม่ "สร้างช่วงเวลา"
Glen_b

ฉันไม่เห็นเหตุผลของความแตกต่างระหว่างสองวิธีในคำตอบข้างต้น โดยทั่วไปแล้วผลลัพธ์การถดถอยจะถูกประเมินตามพารามิเตอร์การแจกแจงแบบพารามิเตอร์ของนักเรียนและโดยทั่วไปแล้วการถดถอยโดยเฉพาะอย่างยิ่งจากการจับคู่ที่ไม่ดีกับตัวแบบการถดถอยข้อมูลนำไปสู่ส่วนที่เหลือที่ไม่ได้ศึกษา การวัดพารามิเตอร์ของการกระจายตัวของข้อมูลมีขนาดใหญ่กว่าปริมาณที่วัดได้ กฎของหัวแม่มือฉันได้พบว่ามีประโยชน์: ถ้าฉันเห็นเศษที่มีค่าผิดปกติหางยาวและคุณ
Carl

ที่เกี่ยวข้อง: การได้รับสูตรสำหรับข้อ จำกัด ของการคาดคะเนในรูปแบบเชิงเส้น
Scortchi

คำตอบ:


75

คำถามของคุณไม่ถูกต้องนัก ช่วงความมั่นใจให้ช่วงของตามที่คุณพูด ช่วงเวลาการทำนายให้ช่วงของเอง ธรรมชาติเดาที่ดีที่สุดของเราสำหรับเป็นดังนั้นช่วงเวลาทั้งสองจะเป็นศูนย์กลางรอบค่าเดียวกัน,เบต้า}E[yx]yyE[yx]xβ^

ในฐานะที่เป็น @ Greg กล่าวว่าข้อผิดพลาดมาตรฐานเป็นไปได้ที่แตกต่างกัน --- เราเดาคาดว่ามูลค่าของอย่างแม่นยำมากขึ้นกว่าที่เราประมาณการตัวเอง การประมาณต้องการรวมถึงความแปรปรวนที่มาจากคำผิดพลาดที่แท้จริงE[yx]yy

เพื่อแสดงให้เห็นถึงความแตกต่างลองจินตนาการว่าเราจะได้ค่าประมาณที่สมบูรณ์แบบของค่าสัมประสิทธิ์ของเรา จากนั้นการประมาณจะสมบูรณ์แบบ แต่เรายังคงไม่แน่ใจว่าสิ่งที่เป็นเพราะมีข้อผิดพลาดจริงที่เราต้องพิจารณา "ช่วงเวลา" ความมั่นใจของเราจะเป็นเพียงจุดเพราะเราประมาณถูกต้อง แต่ช่วงการทำนายของเราจะกว้างขึ้นเพราะเราคำนึงถึงข้อผิดพลาดที่แท้จริงβE[yx]yE[yx]

ดังนั้นช่วงเวลาการทำนายจะกว้างกว่าช่วงความมั่นใจ


40

ความแตกต่างระหว่างช่วงการทำนายและช่วงความมั่นใจคือข้อผิดพลาดมาตรฐาน

ข้อผิดพลาดมาตรฐานสำหรับช่วงความมั่นใจในค่าเฉลี่ยจะพิจารณาถึงความไม่แน่นอนเนื่องจากการสุ่มตัวอย่าง บรรทัดที่คุณคำนวณจากตัวอย่างของคุณจะแตกต่างจากบรรทัดที่จะคำนวณถ้าคุณมีประชากรทั้งหมดข้อผิดพลาดมาตรฐานจะนำความไม่แน่นอนนี้มาพิจารณา

ข้อผิดพลาดมาตรฐานสำหรับช่วงเวลาการทำนายในการสังเกตการณ์แต่ละครั้งนั้นคำนึงถึงความไม่แน่นอนเนื่องจากการสุ่มตัวอย่างเช่นด้านบน แต่ยังคำนึงถึงความแปรปรวนของบุคคลรอบ ๆ ค่าเฉลี่ยที่คาดการณ์ไว้ ข้อผิดพลาดมาตรฐานสำหรับช่วงเวลาการทำนายจะกว้างกว่าสำหรับช่วงความมั่นใจและดังนั้นช่วงเวลาการทำนายจะกว้างกว่าช่วงความมั่นใจ


39

ฉันพบว่าคำอธิบายต่อไปนี้มีประโยชน์:

ช่วงความเชื่อมั่นจะบอกคุณว่าคุณได้กำหนดค่าเฉลี่ยที่ดีเพียงใด สมมติว่าข้อมูลสุ่มอย่างสุ่มจากการแจกแจงแบบเกาส์ หากคุณทำเช่นนี้หลายครั้งและคำนวณช่วงความมั่นใจของค่าเฉลี่ยจากแต่ละตัวอย่างคุณจะคาดหวังประมาณ 95% ของช่วงเวลาเหล่านั้นเพื่อรวมค่าจริงของค่าเฉลี่ยประชากร จุดสำคัญคือช่วงความมั่นใจบอกคุณเกี่ยวกับตำแหน่งที่เป็นไปได้ของพารามิเตอร์ประชากรจริง

ช่วงเวลาการทำนายจะบอกตำแหน่งที่คุณสามารถคาดหวังว่าจะเห็นจุดข้อมูลถัดไปตัวอย่าง สมมติว่าข้อมูลสุ่มอย่างสุ่มจากการแจกแจงแบบเกาส์ รวบรวมตัวอย่างของข้อมูลและคำนวณช่วงเวลาการทำนาย จากนั้นลองสุ่มตัวอย่างอีกหนึ่งค่าจากประชากร หากคุณทำเช่นนี้หลายครั้งคุณคาดหวังว่าค่าถัดไปจะอยู่ในช่วงการทำนายนั้นใน 95% ของตัวอย่างประเด็นสำคัญคือช่วงเวลาการทำนายจะบอกคุณเกี่ยวกับการกระจายของค่าไม่ใช่ความไม่แน่นอนในการกำหนดจำนวนประชากร หมายความ

ช่วงเวลาการทำนายต้องคำนึงถึงทั้งความไม่แน่นอนในการรู้คุณค่าของค่าเฉลี่ยประชากรบวกกับการกระจายข้อมูล ดังนั้นช่วงการทำนายจึงกว้างกว่าช่วงความมั่นใจเสมอ

ที่มา: http://www.graphpad.com/support/faqid/1506/


"การกระจายข้อมูล" ที่นี่หมายถึงอะไร
โทร

2
@tel: ความแปรปรวนเห็นได้ชัด
vonjd

36

หนึ่งคือการทำนายของการสังเกตในอนาคตและอื่น ๆ คือการตอบสนองค่าเฉลี่ยที่คาดการณ์ไว้ ฉันจะให้คำตอบโดยละเอียดเพื่อหวังอธิบายความแตกต่างและที่มาของมันรวมถึงความแตกต่างนี้ที่ปรากฏในช่วงเวลาที่กว้างกว่าสำหรับการทำนายมากกว่าเพื่อความมั่นใจ

ตัวอย่างนี้อาจแสดงให้เห็นถึงความแตกต่างระหว่างความเชื่อมั่นและช่วงการทำนาย: สมมติว่าเรามีแบบจำลองการถดถอยที่ทำนายราคาบ้านตามจำนวนห้องนอนขนาดและอื่น ๆ มีการคาดการณ์สองแบบที่เราสามารถทำได้สำหรับกำหนด:x0

  1. เราสามารถทำนายราคาสำหรับบ้านใหม่ที่เฉพาะเจาะจงที่มาในตลาดด้วยคุณสมบัติ ( "ราคาที่คาดการณ์สำหรับบ้านหลังนี้คืออะไร" ) ราคาที่แท้จริงของมันจะมีx_0 เนื่องจากราคาที่คาดการณ์จะเป็นในการประเมินความแปรปรวนของการทำนายนี้เราจำเป็นต้องรวมความไม่แน่นอนเกี่ยวกับเช่นเดียวกับความไม่แน่นอนของเราเกี่ยวกับการทำนายของเรา (ข้อผิดพลาดของการทำนายของเรา) และดังนั้นจะต้องรวมความแปรปรวนของ (ข้อผิดพลาดของการทำนายของเรา) นี้มักจะเรียกว่าการทำนายของมูลค่าในอนาคตx0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. เราสามารถคาดการณ์ราคาเฉลี่ยของบ้านที่มีคุณสมบัติ ( "ราคาเฉลี่ยสำหรับบ้านที่มีคุณลักษณะคืออะไร" ) การประมาณจุดยังคงเป็นแต่ตอนนี้จำเป็นต้องคำนึงถึงความแปรปรวนในเท่านั้น ซึ่งโดยทั่วไปจะเรียกว่าการทำนายการตอบกลับค่าเฉลี่ยx0x0

    y^=x0Tβ^
    β^

ส่วนใหญ่สิ่งที่เราต้องการเป็นกรณีแรก เรารู้ว่า

var(x0Tβ^)=x0T(XTX)1x0σ2

นี่คือความแปรปรวนสำหรับการตอบกลับค่าเฉลี่ยของเรา (กรณีที่ 2) แต่สำหรับการคาดการณ์การสังเกตการณ์ในอนาคต (กรณีที่ 1) โปรดจำไว้ว่าเราต้องการความแปรปรวนของ ; มีความแปรปรวนและจะถือว่าเป็นอิสระจากเบต้า} ด้วยการใช้พีชคณิตแบบง่ายผลลัพธ์นี้จะอยู่ในช่วงความเชื่อมั่นต่อไปนี้:ε σ 2 βx0Tβ^+ϵϵσ2β^

  1. CI สำหรับการตอบกลับในอนาคตสำหรับ :Y 0 ± T ( α / 2 ) n - พี σx0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. CI สำหรับการตอบกลับค่าเฉลี่ยที่ได้รับ :Y 0 ± T ( α / 2 ) n - พี σx0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

โดยที่เป็นสถิติ t-องศาอิสระที่ quantile n - p α / 2tnpα/2npα/2

หวังว่านี่จะทำให้ชัดเจนขึ้นเล็กน้อยว่าทำไมช่วงเวลาการทำนายจึงกว้างกว่าเสมอและความแตกต่างพื้นฐานระหว่างช่วงเวลาสองช่วงคืออะไร ตัวอย่างนี้ดัดแปลงมาจาก Faraway รุ่นเชิงเส้นด้วย R, Sec 4.1


2
มันเป็นการดีที่ได้เห็นเธรดเก่าที่ได้รับการปรับปรุงให้ดีขึ้นอย่างมากจากการตอบสนองที่ชัดเจนและรอบคอบ ยินดีต้อนรับสู่เว็บไซต์ของเรา!
whuber

ไม่ควรเป็น ... x0 + 1 / n +1 (สำหรับช่วงการคาดการณ์ (1)) และ ... x0 + 1 / n (สำหรับช่วงความมั่นใจ (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/?hl=th
48956

12

คำตอบสั้น ๆ :

ช่วงการทำนายเป็นช่วงเวลาที่เกี่ยวข้องกับตัวแปรสุ่มยังไม่ได้รับข้อสังเกต (คาดการณ์)

ช่วงความเชื่อมั่นเป็นช่วงเวลาที่เกี่ยวข้องกับพารามิเตอร์และเป็นแนวคิดที่ frequentist

ตรวจสอบคำตอบทั้งหมดได้ที่นี่จาก Rob Hyndman ผู้สร้างแพ็คเกจพยากรณ์ใน R


3

คำตอบนี้สำหรับผู้อ่านที่ไม่เข้าใจคำตอบก่อนหน้า เรามาพูดถึงตัวอย่างที่เฉพาะเจาะจง สมมติว่าคุณพยายามทำนายน้ำหนักของผู้คนจากส่วนสูงเพศ (ชายหญิง) และอาหาร (มาตรฐานคาร์โบไฮเดรตต่ำมังสวิรัติ) ปัจจุบันมีผู้คนบนโลกมากกว่า 8 พันล้านคน แน่นอนคุณสามารถหาคนหลายพันคนที่มีความสูงเท่ากันและอีกสองพารามิเตอร์ แต่น้ำหนักแตกต่างกัน น้ำหนักของพวกเขาแตกต่างกันอย่างดุเดือดเพราะบางคนมีโรคอ้วนและอื่น ๆ อาจประสบจากความอดอยาก คนเหล่านี้ส่วนใหญ่จะอยู่ตรงกลาง

ภารกิจหนึ่งคือการทำนายน้ำหนักเฉลี่ยของทุกคนที่มีค่าเดียวกันของตัวแปรอธิบายทั้งสาม ที่นี่เราใช้ช่วงความมั่นใจ ปัญหาอีกประการหนึ่งคือการคาดการณ์น้ำหนักของบางคน และเราไม่รู้สภาพความเป็นอยู่ของบุคคลนั้น ที่นี่จะต้องใช้ช่วงการทำนาย มันอยู่กึ่งกลางรอบจุดเดียวกัน แต่จะต้องกว้างกว่าช่วงความเชื่อมั่นมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.