การทำนายและช่วงเวลาความอดทน


11

ฉันมีคำถามสองสามข้อสำหรับการทำนายและช่วงเวลาที่ยอมรับได้

เราเห็นด้วยกับคำจำกัดความของช่วงความอดทนก่อน: เราจะได้รับระดับความเชื่อมั่นพูด 90% เปอร์เซ็นต์ของประชากรที่จะจับพูด 99% และขนาดตัวอย่าง 20 คนการกระจายความน่าจะเป็นเป็นที่รู้จักพูดปกติ เพื่อความสะดวก. ทีนี้, จากตัวเลขสามตัวข้างต้น (90%, 99% และ 20) และความจริงที่ว่าการแจกแจงพื้นฐานเป็นเรื่องปกติ, เราสามารถคำนวณค่าเผื่อได้ ได้รับตัวอย่างมีค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานช่วงเวลาความอดทนเป็นKS หากช่วงความอดทนนี้จับ 99% ของประชากรดังนั้นตัวอย่างเรียกว่าสำเร็จ( x 1 , x 2 , , x 20 ) ˉ x s ˉ x ± k s ( x 1 , x 2 , , x 20 )k(x1,x2,,x20)x¯sx¯±ks(x1,x2,,x20)และความต้องการก็คือว่า 90% ของกลุ่มตัวอย่างที่มีความสำเร็จ

ความคิดเห็น: 90% เป็นโอกาสเบื้องต้นสำหรับตัวอย่างที่จะประสบความสำเร็จ 99% คือความน่าจะเป็นแบบมีเงื่อนไขที่การสังเกตในอนาคตจะอยู่ในช่วงเวลาที่ยอมรับได้เนื่องจากตัวอย่างนั้นประสบความสำเร็จ

คำถามของฉัน: เราจะเห็นช่วงเวลาการทำนายว่าเป็นช่วงเวลาที่ยอมรับได้หรือไม่ มองบนเว็บฉันได้คำตอบที่ขัดแย้งกันในเรื่องนี้ไม่ต้องพูดถึงว่าไม่มีใครกำหนดช่วงเวลาการทำนายอย่างระมัดระวัง ดังนั้นหากคุณมีคำจำกัดความที่แม่นยำของช่วงการทำนาย (หรือการอ้างอิง) ฉันจะขอบคุณมัน

สิ่งที่ฉันเข้าใจคืออินสแตนซ์ช่วงการทำนาย 99% เช่นไม่จับ 99% ของค่าในอนาคตทั้งหมดสำหรับตัวอย่างทั้งหมด นี่จะเหมือนกับช่วงเวลาที่ยอมรับได้ที่ 99% ของประชากรที่มีความน่าจะเป็น 100%

ในคำจำกัดความที่ฉันพบสำหรับช่วงเวลาการทำนาย 90% 90% เป็นความน่าจะเป็นแบบเบื้องต้นที่ได้รับตัวอย่างพูด (ขนาดคงที่) และการสังเกตอนาคตเดียวนั่นคือจะอยู่ในช่วงการทำนาย ดังนั้นดูเหมือนว่าทั้งตัวอย่างและค่าในอนาคตจะได้รับทั้งสองในเวลาเดียวกันในทางตรงกันข้ามกับช่วงความอดทนที่ตัวอย่างจะได้รับและมีความน่าจะเป็นบางอย่างที่มันเป็นความสำเร็จและภายใต้เงื่อนไขที่ตัวอย่างเป็นความสำเร็จy y(x1,x2,,x20)yyมูลค่าในอนาคตจะได้รับและมีความน่าจะเป็นบางอย่างตกอยู่ในช่วงความอดทน ฉันไม่แน่ใจว่าคำจำกัดความข้างต้นของช่วงเวลาการทำนายนั้นถูกต้องหรือไม่

ความช่วยเหลือใด ๆ


4
ช่วงความอดทนด้านเดียวสำหรับการสุ่มตัวอย่างปกติอาจช่วยให้เข้าใจแนวคิดนี้ได้ บน -tolerance ผูกพันคืออะไร แต่ความเชื่อมั่นผูกพันบนของ -quantile ของการกระจายสันนิษฐานของรูปแบบ ดังนั้นในกรณีของการแจกแจงแบบปกตินี่คือขอบเขตความเชื่อมั่นสูงสุดของพารามิเตอร์โดยที่คือของการแจกแจงแบบเกาส์มาตรฐาน 99 % μ + k σ k = z 99 % 99 %99%99%μ+kσk=z99%99%
Stéphane Laurent

นี่คือ reformulation ดีStéphaneเพราะทันทีที่แสดงให้เห็นว่ามีหลายชนิดของข้อ จำกัด ของความอดทน: หนึ่งสามารถขอบนขีด จำกัด ของความเชื่อมั่นในสำหรับต่ำกว่าขีด จำกัด ของความเชื่อมั่นในμ + Z 0.99 σหรือสำหรับ (พูด) การประมาณการที่ไม่เอนเอียงของพารามิเตอร์นั้น ทั้งสามเรียกว่า "ขีดจำกัดความอดทน" ในวรรณคดี μ+z0.99σμ+z0.99σ
whuber

ฉันคิดว่าคุณค่อนข้างอยากจะบอกว่าขีด จำกัด ของความเชื่อมั่นที่ลดลงใน ? μz0.99σ
Stéphane Laurent

2
ที่จริงแล้วไม่มีStéphane (ซึ่งเป็นสาเหตุที่ฉันใช้ความระมัดระวังในการทำซ้ำสูตรสำหรับพารามิเตอร์) นอกจากนี้ยังมีคำจำกัดความที่คล้ายกันสามข้อสำหรับขีดจำกัดความอดทนที่ต่ำกว่า เช่นเราอาจต้องการที่จะอยู่ภายใต้การ -estimate 99th บนเปอร์เซ็นต์ของประชากร แต่เพื่อควบคุมปริมาณของเบาที่เรายืนยันจะมี (พูด) โอกาส 5% ที่ต่ำกว่าของเราจะยังคงสูงเกินไป สิ่งนี้จะช่วยให้เราสามารถพูดสิ่งต่างๆเช่น "ข้อมูลแสดงด้วยความมั่นใจ 95% ว่าเปอร์เซ็นต์ไทล์ที่ 99 ของประชากรนั้นเกินค่าเช่นนั้น"
whuber

คำตอบ:


14

คำจำกัดความของคุณดูเหมือนจะถูกต้อง

หนังสือเพื่อให้คำปรึกษาเกี่ยวกับเรื่องเหล่านี้เป็นสถิติช่วงเวลา (เจอราลด์ฮาห์นวิลเลียมและ Meeker) ปี 1991 ผมอ้าง:

ช่วงเวลาการทำนายสำหรับการสังเกตการณ์ในอนาคตครั้งเดียวคือช่วงเวลาที่จะมีระดับความเชื่อมั่นที่ระบุโดยมีการสังเกตแบบสุ่มต่อไป (หรือบางอย่างที่กำหนดล่วงหน้า) จากการสุ่มของประชากร

[A] ช่วงเวลาความอดทนเป็นช่วงเวลาหนึ่งที่สามารถเรียกร้องให้มีอย่างน้อยในสัดส่วนที่ระบุหน้าของประชากรที่มีระดับที่กำหนดของความเชื่อมั่น, %100(1α)%

นี่คือการกล่าวซ้ำในคำศัพท์ทางคณิตศาสตร์มาตรฐาน ให้ข้อมูลที่จะถือว่าเป็นสำนึกของตัวแปรสุ่มอิสระX = ( X 1 , ... , X n )ที่มีฟังก์ชั่นที่พบบ่อยการแจกแจงสะสมF θ ( θปรากฏเป็นเตือนว่าFอาจจะไม่ทราบ แต่จะถือว่าโกหกในชุดที่กำหนดของการแจกแจงF θ | θ Θ ) ให้X 0x=(x1,,xn)X=(X1,,Xn)FθθFFθ|θΘX0เป็นตัวแปรสุ่มอีกตัวที่มีการแจกแจงแบบเดียวกันและเป็นอิสระจากตัวแปรnตัวแรกFθn

  1. ช่วงทำนาย (สำหรับการสังเกตในอนาคตเดียว) ที่ได้รับจากปลายทางมีการกำหนดสถานที่ให้บริการ[l(x),u(x)]

    infθ{Prθ(X0[l(X),u(X)])}=100(1α)%.

    โดยเฉพาะหมายถึงกระจายตัวแปรของกำหนดโดยกฎหมายF_สังเกตการขาดความน่าจะเป็นแบบมีเงื่อนไขใด ๆ : นี่เป็นความน่าจะเป็นร่วมแบบเต็ม หมายเหตุเช่นกันหากไม่มีการอ้างอิงใด ๆ กับลำดับเวลา:อาจสังเกตได้ดีก่อนค่าอื่น ๆ ไม่เป็นไร. n+1( X 0 , X 1 ,, X n ) F θ X 0Prθn+1(X0,X1,,Xn)FθX0

    ฉันไม่แน่ใจว่าแง่มุมใดของสิ่งนี้อาจเป็น หากเรานึกถึงการเลือกกระบวนการทางสถิติเป็นกิจกรรมที่จะดำเนินการก่อนรวบรวมข้อมูลนี่เป็นสูตรที่เป็นธรรมชาติและสมเหตุสมผลของกระบวนการสองขั้นตอนตามแผนเนื่องจากทั้งข้อมูล ( ) และ "ค่าในอนาคต"จะต้องมีการจำลองเป็นแบบสุ่มX 0Xi,i=1,,nX0

  2. ช่วงเวลาความอดทนที่ได้รับจากปลายทางมีการกำหนดสถานที่ให้บริการ(L(x),U(x)]

    infθ{Prθ(Fθ(U(X))Fθ(L(X))p)}=100(1α)%.

    สังเกตว่าไม่มีการอ้างอิงใด ๆ กับ : มันไม่มีบทบาทX0

เมื่อคือชุดของการแจกแจงแบบปกติจะมีช่วงการทำนายของแบบฟอร์มอยู่{Fθ}

l(x)=x¯k(α,n)s,u(x)=x¯+k(α,n)s

(คือค่าเฉลี่ยตัวอย่างและคือค่าเบี่ยงเบนมาตรฐานตัวอย่าง) ค่าของฟังก์ชั่นซึ่ง Hahn & Meeker จัดระเบียบไม่ได้ขึ้นอยู่กับข้อมูล{x} มีขั้นตอนการทำนายช่วงเวลาอื่น ๆแม้ในกรณีปกติ: สิ่งเหล่านี้ไม่ได้เป็นเพียงกระบวนการเดียว skxx¯skx

ในทำนองเดียวกันมีช่วงเวลาที่ยอมรับได้ของแบบฟอร์มอยู่

L(x)=x¯K(α,n,p)s,U(x)=x¯+K(α,n,p)s.

มีขั้นตอนช่วงเวลาการยอมรับอื่น ๆ : สิ่งเหล่านี้ไม่ใช่วิธีการเดียวเท่านั้น

สังเกตความคล้ายคลึงกันระหว่างสูตรคู่นี้เราอาจแก้สมการได้

k(α,n)=K(α,n,p).

นี้จะช่วยให้หนึ่งในการแปลช่วงการทำนายเป็นช่วงเวลาความอดทน (ในหลายวิธีที่แตกต่างกันไปโดยที่แตกต่างกันและ ) หรือแปลช่วงเวลาความอดทนเป็นช่วงเวลาที่การคาดการณ์ (เฉพาะในขณะนี้มักจะถูกกำหนดโดยไม่ซ้ำกันโดยและ ) นี่อาจเป็นจุดกำเนิดของความสับสน P α α ' Pαpααp


2
ความสับสนระหว่างช่วงเวลาเหล่านี้เป็นจริง ทศวรรษที่ผ่านมาฉันมีการสนทนาที่ยากหลายครั้งกับนักสถิติของรัฐบาลซึ่งไม่รู้ถึงความแตกต่างและ (รุนแรง) ไม่สามารถรับรู้ได้ว่ามี บทบาทที่โดดเด่นของเธอในการสร้างคำแนะนำการตรวจสอบรายงานการให้คำปรึกษาผู้ทำงานด้านคดีการแจกจ่ายซอฟต์แวร์ ดังนั้นจงระวัง!
whuber

คำตอบที่ดีมากขอบคุณ ผมมีหัวใจสถิติบางคนบอกว่าช่วงเวลาการทำนายเป็นช่วงเวลาความอดทนกับ\% มีข้อเท็จจริงที่แท้จริงเบื้องหลังแนวคิดนี้หรือไม่? กล่าวอีกนัยหนึ่งจริงหรือที่หรืออะไรทำนองนั้น? k ( α , n ) = K ( α , n , 0.5 )p=50%k(α,n)=K(α,n,0.5)
Stéphane Laurent

3
ไม่นั่นไม่ใช่ความจริง @ Stéphane หากต้องการดูว่าทำไมไม่พิจารณากรณีของความเชื่อมั่นและปานกลางที่มีขนาดใหญ่มากพูด 95% ด้วยช่วงความอดทนสองด้านจึงควรใกล้เคียงกับค่ากลาง 50% ของการแจกแจงดังนั้นตามคำนิยามมีโอกาส 50% เท่านั้นที่จะอยู่ข้างในนั้นไม่ใช่ 95% ที่ต้องการ นั่นเป็นความแตกต่างอย่างมาก! โดยสัญชาตญาณช่วงเวลาที่ยอมรับได้ 95% ของประชากรควรใกล้เคียงกับช่วงเวลาการทำนายด้วยความมั่นใจ 95% แต่พวกเขาก็ยังไม่เห็นด้วยอย่างแน่นอน p = 50 % X 0np=50%X0
whuber

ฉันเพิ่งคิดเกี่ยวกับเรื่องนี้และฉันเชื่อว่าความจริงก็คือ:เมื่อมีขนาดใหญ่ นี่เป็นเรื่องง่ายที่จะเห็นเมื่อเป็นปัจจัยความอดทนแบบคลาสสิกที่ได้รับจากความช่วยเหลือของการแจกแจงแบบไม่ใช่ศูนย์กลาง (ค่า -quantile เป็นพารามิเตอร์ที่ไม่ใช่ศูนย์กลาง ) nK50%z1-α/k(α,n)K(50%,n,1α)nK50%z1α/n
Stéphane Laurent

@whuber ขอบคุณสำหรับคำตอบ ฉันจะต้องทำให้แน่ใจว่าฉันเข้าใจมันก่อนที่ฉันจะทำเครื่องหมายถูกต้อง ให้เวลาฉัน "ย่อย" หน่อย
Ioannis Souldatos

1

ตามที่ฉันเข้าใจสิ่งต่าง ๆ สำหรับขีด จำกัด ความอดทนปกติค่าของมาจากไม่ใช่เปอร์เซ็นต์ไทล์เปอร์เซ็นต์ เห็นได้ชัดว่าในจุดของ W Huber มีนักสถิติบางคนที่ไม่คุ้นเคยกับแนวคิดเรื่องขีดจำกัดความอดทนกับขีด จำกัด การทำนาย ความคิดของความอดทนดูเหมือนจะเกิดขึ้นส่วนใหญ่ในการออกแบบวิศวกรรมและการผลิตเมื่อเทียบกับชีวสถิติคลินิก บางทีสาเหตุของการขาดความคุ้นเคยกับช่วงเวลาที่ยอมรับได้และความสับสนกับช่วงเวลาการทำนายคือบริบทที่เราได้รับการฝึกอบรมทางสถิติของเขาหรือเธอK(α,p)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.