เราสามารถสร้างความน่าจะเป็นด้วยการทำนายเป็นช่วง ๆ ได้หรือไม่?


12

ฉันได้อ่านการอภิปรายที่ยอดเยี่ยมมากมายในเว็บไซต์เกี่ยวกับการตีความช่วงเวลาความเชื่อมั่นและช่วงการคาดการณ์ แต่แนวคิดหนึ่งยังคงทำให้งงงวย:

พิจารณากรอบ OLS และเราได้รับรูปแบบการติดตั้งY = X β เราได้รับx และขอให้ทำนายการตอบสนองของมัน เราคำนวณx * T βและเป็นโบนัส, เรายังมีช่วงเวลาที่การคาดการณ์ 95% รอบการคาดการณ์ของเราลาได้รับสูตรสำหรับข้อ จำกัด ของการคาดการณ์ในรูปแบบเชิงเส้น ลองเรียกคำทำนายช่วงเวลา PI นี้ดูy^=Xβ^xxTβ^

ทีนี้ข้อใดต่อไปนี้ (หรือไม่ใช่) การตีความ PI ที่ถูกต้องคืออะไร?

  1. สำหรับโดยเฉพาะอย่างยิ่งY ( x * )อยู่ภายใน PI กับความน่าจะเป็น 95%xy(x)
  2. หากเราได้รับจำนวนมากขั้นตอนนี้ในการคำนวณ PIs จะครอบคลุมการตอบสนองที่แท้จริง 95% ของเวลาx

จากถ้อยคำของ @ gung ในช่วงการทำนายการถดถอยเชิงเส้นดูเหมือนว่าในอดีตจะเป็นความจริง (แม้ว่าฉันจะตีความการตีความผิดได้เป็นอย่างดี) การตีความที่ 1 ดูเหมือนจะเป็นเรื่องง่ายสำหรับฉัน (ในแง่ที่ว่าเรากำลังสรุปข้อสรุปแบบเบย์ ถ้ามันถูกต้องมันเป็นเพราะเรากำลังคาดการณ์สำนึกของความเป็นตัวแปรสุ่มเทียบกับประมาณการพารามิเตอร์ ?

(แก้ไข) คำถามโบนัส: สมมติว่าเรารู้ว่าสิ่งที่จริงคือคือกระบวนการสร้างข้อมูลแล้วเราจะพูดคุยเกี่ยวกับความน่าจะเป็นความสามารถในการคาดการณ์เกี่ยวกับการใด ๆ เนื่องจากเราเพียงแค่มองหาที่ε ?βϵ

ความพยายามครั้งล่าสุดของฉันที่นี่: เราสามารถ "แยกย่อยความคิดรวบยอด" (ใช้คำว่าหลวมมาก) ช่วงการทำนายเป็นสองส่วน: (A) ช่วงความมั่นใจรอบการตอบสนองค่าเฉลี่ยที่คาดการณ์ไว้และ (B) ชุดของช่วงเวลา ช่วงของข้อผิดพลาด (B) เราสามารถสร้างข้อความที่น่าจะเป็นไปได้โดยมีเงื่อนไขว่าจะรู้ค่าเฉลี่ยที่คาดการณ์ได้จริง แต่โดยรวมแล้วเราสามารถรักษาระยะเวลาการทำนายเป็น CIs ที่ใช้บ่อยรอบค่าที่คาดการณ์ไว้ มันค่อนข้างถูกต้องเหรอ?


คำตอบที่ฉันเขียนที่stats.stackexchange.com/a/26704บอกเป็นนัยว่าบางสิ่งเช่น (2) เป็นกรณี (ตามกฎหมายของคนจำนวนมาก) แต่ไม่แน่นอน (1)
whuber

คำตอบ:


5

ข้อแรกในการใช้ความน่าจะเป็นของคำบ่อยครั้งไม่มีปัญหากับการใช้ความน่าจะเป็นคำว่าเมื่อคาดการณ์บางอย่างที่ชิ้นส่วนแบบสุ่มยังไม่เกิดขึ้น เราไม่ชอบความน่าจะเป็นของคำสำหรับช่วงความมั่นใจเนื่องจากพารามิเตอร์จริงไม่เปลี่ยนแปลง (เราสมมติว่าเป็นค่าคงที่ แต่ไม่ทราบค่า) และช่วงเวลาได้รับการแก้ไขเนื่องจากขึ้นอยู่กับข้อมูลที่เรารวบรวมไว้แล้ว ตัวอย่างเช่นหากข้อมูลของเรามาจากตัวอย่างแบบสุ่มของมนุษย์ผู้ใหญ่เพศชายและ x คือความสูงและ y คือน้ำหนักของพวกเขาและเราพอดีกับแบบจำลองการถดถอยทั่วไปเราจะไม่ใช้ความน่าจะเป็นเมื่อพูดถึงช่วงความมั่นใจ แต่ถ้าฉันต้องการพูดเกี่ยวกับความน่าจะเป็นของชายร่างสูง 65 นิ้วที่เลือกโดยการสุ่มจากชายร่างสูง 65 นิ้วทั้งหมดที่มีน้ำหนักภายในช่วงเวลาหนึ่งคืออะไร

ดังนั้นฉันจะบอกว่าคำตอบสำหรับคำถามโบนัสคือ "ใช่" หากเรารู้ข้อมูลเพียงพอเราสามารถคำนวณความน่าจะเป็นที่จะเห็นค่า ay ภายในช่วงเวลาหนึ่ง (หรือค้นหาช่วงเวลาที่มีความน่าจะเป็นที่ต้องการ)

สำหรับข้อความของคุณที่ระบุว่า "1. " ฉันจะบอกว่ามันก็โอเคถ้าคุณใช้คำเช่น "โดยประมาณ" เมื่อพูดถึงช่วงเวลาหรือความน่าจะเป็น เช่นเดียวกับที่คุณพูดถึงคำถามโบนัสเราสามารถแยกความไม่แน่นอนออกเป็นส่วน ๆ เกี่ยวกับศูนย์กลางของการทำนายและชิ้นส่วนเกี่ยวกับการสุ่มรอบค่าเฉลี่ยที่แท้จริง เมื่อเรารวมสิ่งเหล่านี้เพื่อครอบคลุมความไม่แน่นอนทั้งหมดของเรา (และสมมติว่าเรามีโมเดล / ภาวะปกติถูกต้อง) เรามีช่วงเวลาที่จะกว้างเกินไป (แม้ว่าจะแคบเกินไปเช่นกัน) ดังนั้นความน่าจะเป็นของจุดสุ่มเลือกใหม่ การตกลงไปในช่วงการทำนายจะไม่เท่ากับ 95% คุณสามารถดูสิ่งนี้ได้โดยการจำลองสถานการณ์ เริ่มต้นด้วยโมเดลการถดถอยที่รู้จักพร้อมพารามิเตอร์ทั้งหมดที่ทราบ เลือกตัวอย่าง (จากค่า x จำนวนมาก) จากความสัมพันธ์นี้ให้พอดีกับการถดถอย และคำนวณช่วงเวลาการทำนาย ตอนนี้สร้างจุดข้อมูลใหม่จำนวนมากจากตัวแบบจริงอีกครั้งและเปรียบเทียบกับช่วงการทำนาย ฉันทำสิ่งนี้สองสามครั้งโดยใช้รหัส R ต่อไปนี้:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

ฉันรันโค้ดด้านบนสองสามครั้ง (ประมาณ 10 แต่ไม่นับอย่างระมัดระวัง) และส่วนใหญ่สัดส่วนของค่าใหม่ที่ลดลงในช่วงเวลาอยู่ในช่วง 96% ถึง 98% ฉันมีกรณีหนึ่งที่ค่าเบี่ยงเบนมาตรฐานโดยประมาณต่ำมากซึ่งสัดส่วนอยู่ในช่วง 93% ถึง 94% แต่ที่เหลือทั้งหมดอยู่สูงกว่า 95% ดังนั้นฉันจะมีความสุขกับคำสั่งของคุณ 1 ที่มีการเปลี่ยนแปลงเป็น "ประมาณ 95%" (สมมติว่าสมมติฐานทั้งหมดเป็นจริงหรือใกล้พอที่จะครอบคลุมในประมาณ)

ในทำนองเดียวกันคำสั่ง 2 ต้องการ "ประมาณ" หรือคล้ายกันเพราะเพื่อให้ครอบคลุมความไม่แน่นอนของเราเราได้รับค่าเฉลี่ยมากกว่า 95%


0

ที่สองดีกว่า ครั้งแรกขึ้นอยู่กับข้อมูลอื่น ๆ ที่เป็นที่รู้จัก

การใช้ตัวอย่างแบบสุ่มมันเป็นความจริงที่ว่า "95% ของช่วงเวลา (ที่ความมั่นใจ 95%) จะรวมค่าเฉลี่ยที่แท้จริงของ [ตัวแปรแทรก]"

ในทางกลับกันหากผลลัพธ์เห็นได้ชัดว่าโต้กลับเราไม่สามารถยืนยัน (1)

เช่น "การทดสอบความสำคัญของฉันที่ความเชื่อมั่น 95% แสดงให้เห็นว่าความสูงและน้ำหนักมีความสัมพันธ์เชิงลบ " เห็นได้ชัดว่ามันผิดและเราไม่สามารถพูดได้ว่ามีความเป็นไปได้ "95% ว่าเป็นจริง" ในความเป็นจริงแล้วเมื่อคำนึงถึงความรู้เดิมแล้วมีความเป็นไปได้น้อยมากที่เป็นจริง อย่างไรก็ตามเป็นไปได้ที่จะบอกว่า "95% ของการทดสอบดังกล่าวจะให้ผลลัพธ์ที่ถูกต้อง"


1
คำตอบนี้ดูเหมือนจะพูดถึงช่วงความเชื่อมั่นมากกว่าช่วงการทำนาย
whuber

@whuber ใช้หลักการเดียวกัน เรากำลังจัดการกับช่วงความมั่นใจสำหรับตัวแปรบางตัว (ตัวแปร "ทำนาย")

2
มีความแตกต่างที่สำคัญระหว่างค่าคงที่ (เช่นพารามิเตอร์) และค่าของตัวแปรสุ่ม ยิ่งกว่านั้นหัวใจของคำถามปัจจุบันได้รับความแตกต่างนี้: อะไรที่สามารถพูดได้เกี่ยวกับความน่าจะเป็นของผลลัพธ์แบบสุ่ม ("อนาคต") ดังนั้นจึงดูเหมือนไม่เพียงพอ - และอาจทำให้เข้าใจผิด - เพื่อปฏิบัติต่อคำถามนี้ว่าเป็นเพียงเรื่องเกี่ยวกับความหมายของความมั่นใจ
whuber

@whuber คำสั่ง (2) ในโพสต์ยังไม่ได้หมายความถึงคำสั่ง (1) ในตัวอย่างของฉันการคาดการณ์ที่ขัดแย้งกับความรู้สัญชาติญาณ / ภูมิหลังอย่างชัดเจนนั้นไม่ได้หมายความว่าผลลัพธ์ในอนาคตจะมีโอกาส 95% ที่จะล้มลงใน PI มันเป็นความจริงที่ว่ากระบวนการซึ่ง 95% ของเวลานั้นจะให้ PI ที่มีผลลัพธ์ในอนาคต แต่บางครั้งก็เป็นไปได้ที่จะตรวจจับเมื่อมีหรือไม่ได้เกิดขึ้น

คุณพูดถูก แต่ถ้าฉันอ่านความคิดเห็นของคุณถูกต้องฉันคิดว่ามันผิดพลาด ปัญหาไม่ใช่ความจริงที่ว่า (โดยการออกแบบ) PI มีโอกาสเพียง 95% ในการครอบคลุมมูลค่าในอนาคตหรือข้อมูลเพิ่มเติม (หรือสัญชาตญาณ) สามารถให้ข้อมูลเพิ่มเติมได้ เรื่องก่อนที่เราจะกังวลว่า PI สามารถตีความได้ในแง่ของความน่าจะเป็นแบบมีเงื่อนไขสำหรับมูลค่าในอนาคต (ขึ้นอยู่กับค่าการถดถอย) นั่นคือการตีความของBayes PI ในฐานะ OP หมายเหตุ แต่มันไม่ถูกต้องสำหรับ PI ที่ใช้บ่อย
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.