ค่าเดียวนี้ตรงกับการแจกแจงนั้นหรือไม่


10

นี่รู้สึกเหมือนเป็นคำถามที่ไร้เดียงสา แต่ฉันมีปัญหาในการดูคำตอบ

ฉันมี 30 ชุดหนึ่งค่า ฉันได้รับค่าที่ 31 อย่างอิสระ สมมติฐานที่ว่างเปล่าคือค่าที่ 31 เป็นส่วนหนึ่งของการแจกแจงแบบเดียวกัน ทางเลือกคือมันแตกต่างกัน ฉันต้องการค่า p หรือค่าความน่าจะเป็นบางประเภท

ฉันมีความคิดบางอย่าง:

  • นี่คล้ายกับต้องการทำแบบทดสอบสองตัวอย่าง - ยกเว้นว่าสำหรับตัวอย่างที่สองฉันมีเพียงค่าเดียวและค่า 30 ค่าไม่จำเป็นต้องกระจายแบบปกติ
  • หากแทนการวัด 30 รายการฉันมีการวัด 10,000 ตำแหน่งอันดับของการวัดเดี่ยวสามารถให้ข้อมูลที่เป็นประโยชน์ได้

ฉันจะคำนวณความน่าจะเป็นหรือค่า p นี้ได้อย่างไร

ขอบคุณ! Yannick


4
คุณจะถามหาช่วงเวลาที่ทำนาย ความคิดที่สองของคุณนำไปสู่ช่วงเวลาการทำนายแบบไม่มีพารามิเตอร์ (ซึ่งฉันเชื่อว่ายังไม่เคยมีการพูดถึงในเว็บไซต์นี้มาก่อน)
whuber

มีอะไรอีกที่คุณบอกเราเกี่ยวกับประชากรของคุณ คุณค่าทั้งหมดเป็นบวกหรือไม่? คุณคาดหวังว่ามันจะสมมาตรหรือไม่? unimodal?
soakley

ขอขอบคุณและขอโทษที่ฉันควรจะให้ข้อมูลเพิ่มเติม เรากำลังดูช่วงเวลาการทำนาย โดยทั่วไปเรามีความยาวของการทำนายยีนทางโฟกัส และความยาวของยีนที่คล้ายกันที่พบในฐานข้อมูล ตัวเลขทั้งหมดจึงเป็นจำนวนเต็มบวก ในกรณีที่ง่ายการกระจายของความยาวคือ unimodal ในความเป็นจริงพวกเขามักจะไม่; ในขั้นตอนนี้เราสามารถสันนิษฐานได้ว่าพวกเขาเป็น บางส่วนของการแจกแจงแสดงไว้ที่นี่: github.com/monicadragan/gene_prediction/tree/master/…
Yannick Wurm

ฉันไม่มั่นใจว่าเราต้องการ "ช่วงเวลาการทำนาย" เราไม่ต้องการคาดการณ์ ... และเราไม่ต้องการช่วงเวลา ... ?
Yannick Wurm

1
อย่าตีความคำศัพท์ทางเทคนิคมากเกินไป ตามคำนิยาม "ช่วงเวลาการทำนาย"ถูกสร้างขึ้นจากค่าในลักษณะที่ภายใต้การกระจายข้อสันนิษฐานร่วมของค่าทั้งหมดโอกาสที่ค่า 31 อยู่ภายในเท่ากับเป้าหมายที่กำหนดเช่น 95% หากในความเป็นจริงค่าที่ 31 ไม่ได้อยู่ภายในคุณอาจสรุปได้ว่า (i) คุณโชคร้าย (ซึ่งมีโอกาส 5% เท่านั้นที่จะเกิดขึ้นก่อนที่คุณจะรวบรวมข้อมูล) หรืออื่น ๆ (ii) ไม่ใช่จริง ๆ ในกรณีที่ค่าลำดับที่ 31 มีการแจกแจงที่คุณคิดว่าเป็น: และนั่นคือสิ่งที่คุณต้องการทดสอบ I3031II
whuber

คำตอบ:


7

ในกรณี unimodal ความไม่เท่าเทียมกันของ Vysochanskij-Petunin สามารถทำให้คุณมีช่วงการทำนายคร่าวๆ นี่คือเว็บไซต์วิกิพีเดีย: http://en.wikipedia.org/wiki/Vysochanski%C3%AF%E2%80%93Petunin_inequality

การใช้จะส่งผลให้ช่วงเวลาการทำนาย 95% โดยประมาณλ=3

ดังนั้นคุณประมาณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของประชากรของคุณและใช้ค่าเฉลี่ยตัวอย่าง plus หรือลบเป็นช่วงเวลาของคุณx¯3s

มีปัญหาสองสามข้อเกี่ยวกับวิธีการนี้ คุณไม่รู้ค่าเฉลี่ยหรือค่าเบี่ยงเบนมาตรฐานจริง ๆ คุณกำลังใช้การประมาณ และโดยทั่วไปแล้วคุณจะไม่มีการกระจายแบบ unimodal หมายความว่าคุณจะต้องใช้ความไม่เท่าเทียมของ Chebyshev รุ่นพิเศษ แต่อย่างน้อยคุณก็มีจุดเริ่มต้น

สำหรับกรณีทั่วไป Konijn (The American Statisticsian, February 1987) ระบุว่าสถิติการสั่งซื้ออาจถูกใช้เป็นช่วงการทำนาย ดังนั้นเป็นช่วงการคาดการณ์สำหรับกับสิ่งที่ Konijn เรียกขนาดขนาดถูกกำหนดให้เป็น "ขอบเขตล่างที่ยิ่งใหญ่ที่สุด (โดยคำนึงถึงชุดของการแจกแจงร่วมที่ยอมรับ) ของความน่าจะเป็นที่ช่วงเวลาจะครอบคลุมค่าที่ต้องดำเนินการ" ด้วยวิธีการนี้ช่วงเวลาการทำนาย 93.6% จะเป็น[x(i),x(j)]Xjin+1.X[x(1),x(30)].

เขายังให้วิธีการประกอบกับ Saw, Yang และ Mo:พร้อมรายละเอียดเกี่ยวกับความครอบคลุมที่ระบุในบทความ

[x¯λ(1+1n)1/2s , x¯+λ(1+1n)1/2s],

ตัวอย่างเช่นกับใช้จะให้ความครอบคลุมมากกว่า 90%n=30,λ=3.2


สิ่งนี้ดูเหมือนจะเป็นแอปพลิเคชันที่ไม่ถูกต้องของความไม่เท่าเทียมกัน: มันจะถือว่าค่าเฉลี่ยและความแปรปรวนเป็นที่รู้จักซึ่งความแปรปรวนสามารถประมาณได้จากข้อมูลในบริบทนี้เท่านั้น ความแตกต่างอาจมีขนาดใหญ่มากโดยเฉพาะกับชุดข้อมูลขนาดเล็ก ในการศึกษาแบบจำลองของฉันเกี่ยวกับข้อเสนอที่คล้ายกันกับความไม่เท่าเทียมของ Chebyshev ฉันพบว่าประสิทธิภาพที่ต่ำอย่างน่าทึ่ง โดยสังเขปสิ่งนี้คล้ายกับความเข้าใจของนักเรียนว่าควรใช้การแจกแจงแบบ t แทนการแจกแจงแบบปกติสำหรับการสร้าง CIs เนื่องจาก PI นั้นอยู่ไกลกว่า "ออกไปข้างนอก" ในส่วนท้ายความแตกต่างจึงขยายออกไป
whuber

2
การแก้ไขอีกครั้ง (+1): ช่วงเวลาการทำนายที่ไม่ใช่พารามิเตอร์สามารถเข้าใจได้ว่าเป็นการทดสอบการเปลี่ยนแปลงภายใต้สมมติฐาน iid null ในกรณีนั้นมีโอกาสเพียง % เท่านั้นที่ค่าที่ 31 จะเป็นค่าที่ใหญ่ที่สุดหรือเล็กที่สุดของค่า 31 ทั้งหมด การทดสอบที่เกี่ยวข้องสรุปว่าค่าที่ 31 นั้นไม่สอดคล้องกับค่าอื่น ๆ 30 เมื่อค่านั้นมีค่าน้อยที่สุดหรือใหญ่ที่สุด การทดสอบนี้มีขนาด ( ตามปกติ ) % มันเป็นขนาดที่เล็กที่สุดที่สามารถทำได้สำหรับการทดสอบ (สองด้าน) ด้วยค่าข้อมูล 30 ค่า 2/316.456.45
whuber

1

ฉันมีความคิดบางอย่าง:

นี่คล้ายกับต้องการทำแบบทดสอบสองตัวอย่าง - ยกเว้นว่าสำหรับตัวอย่างที่สองฉันมีเพียงค่าเดียวและค่า 30 ค่าไม่จำเป็นต้องกระจายแบบปกติ

แก้ไข. แนวคิดนี้ค่อนข้างเหมือนกับการทดสอบด้วยค่าเดียว เนื่องจากการกระจายนั้นไม่เป็นที่รู้จักและปกติแล้วมีเพียงจุดข้อมูล 30 จุดอาจจะยากที่จะกลืนการทดสอบนี้เรียกร้องให้มีการทดสอบแบบไม่ใช้พารามิเตอร์

หากแทนการวัด 30 รายการฉันมีการวัด 10,000 ตำแหน่งอันดับของการวัดเดี่ยวสามารถให้ข้อมูลที่เป็นประโยชน์ได้

แม้จะมีการวัด 30 ครั้งก็สามารถให้ข้อมูลได้

@whuber ได้ชี้ให้เห็นว่าคุณต้องการช่วงเวลาการทำนายบางอย่าง สำหรับกรณีที่ไม่มีพารามิเตอร์สิ่งที่คุณถามโดยพื้นฐานแล้วคือความน่าจะเป็นที่จุดข้อมูลที่ระบุจะมีโอกาสอันดับที่เราสังเกตเห็นสำหรับการวัดครั้งที่ 31 ของคุณคืออะไร

สิ่งนี้สามารถแก้ไขได้ด้วยการทดสอบการเปลี่ยนรูปแบบง่าย ๆ นี่คือตัวอย่างที่มีค่า 15 ค่าและนวนิยาย (การสังเกตครั้งที่ 16) ซึ่งมีขนาดใหญ่กว่าค่าก่อนหน้านี้:

932
915
865
998
521
462
688
1228
746
433
662
404
301
473
647

new value: 1374

เราดำเนินการเรียงสับเปลี่ยนNโดยที่ลำดับขององค์ประกอบในรายการถูกสับแล้วถามคำถาม: อะไรคืออันดับสำหรับมูลค่าขององค์ประกอบแรกในรายการ (สับ)?

การดำเนินการ N = 1,000 พีชคณิตทำให้เรามี 608 รายซึ่งอันดับขององค์ประกอบแรกในรายการเท่ากับหรือดีกว่าอันดับของค่าใหม่ (เท่ากับจริงเนื่องจากค่าใหม่เป็นค่าที่ดีที่สุด) ดำเนินการจำลองอีกครั้งสำหรับ 1,000 พีชคณิตเราได้รับ 658 กรณีจากนั้น 663 ...

หากเราทำการ N = 1,000,000 พีชคณิตเราได้รับ 62825 รายที่อันดับขององค์ประกอบแรกในรายการเท่ากับหรือดีกว่าอันดับของค่าใหม่ (การจำลองเพิ่มเติมให้ 62871 กรณีแล้ว 62840 ... ) หากอัตราส่วนระหว่างกรณีที่เงื่อนไขเป็นที่พอใจและจำนวนการเปลี่ยนลำดับทั้งหมดเราจะได้รับหมายเลขเช่น 0.062825, 0.062871, 0.06284 ...

คุณสามารถเห็นค่าเหล่านี้มาบรรจบกันใน 1/16 = 0.0625 (6.25%) ซึ่งเป็น @whuber notes คือความน่าจะเป็นที่ค่าที่กำหนด (จาก 16) ที่สุ่มมีอันดับที่ดีที่สุด

สำหรับชุดข้อมูลใหม่โดยที่ค่าใหม่คือค่าที่ดีที่สุดอันดับที่สอง (เช่นอันดับ 2):

6423
8552
6341
6410
6589
6134
6500
6746
8176
6264
6365
5930
6331
6012
5594

new value: 8202

เราได้รับ (สำหรับ N = 1,000,000 พีชคณิต): 125235, 124883 ... กรณีที่น่าพอใจซึ่งอีกครั้งประมาณความน่าจะเป็นที่ค่าที่กำหนด (จาก 16) ที่สุ่มมีอันดับที่ดีที่สุดเป็นอันดับสองในหมู่พวกเขา: 2/16 = 0.125 (12.5%)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.