ความน่าจะเป็นของคน n คนจากรายชื่อคน m ที่อยู่ในการสุ่มเลือก x คนจากรายชื่อคน y


10

ถ้าฉันเลือก 232 คนจากกลุ่ม 363 คนโดยไม่เปลี่ยนความน่าจะเป็นที่ 2 จากรายชื่อ 12 คนที่อยู่ในการเลือกนั้นคืออะไร

นี่คือการสุ่มจับฉลากสำหรับการแข่งขันแบบพิเศษที่มีผู้เข้าชม 363 คนจาก 232 จุด มีข้อโต้แย้งว่าการเลือกนั้นมีอคติต่อกลุ่มคน 12 คนหรือไม่

ความพยายามครั้งแรกของฉันในการคำนวณว่ามี 232 ตัวเลือกที่เป็นไปได้ 363 ตัวเลือก จำนวนชุดค่าผสมของบุคคลหนึ่งคนจากรายการสิบสองคือ 1 เลือก 12 + 2 เลือก 12 + ... + 11 เลือก 12 + 12 เลือก 12 ดังนั้น 1 เลือก 12 + 2 เลือก 12 .... / 232 เลือก 363 ซึ่งจบลงด้วยการเป็นจำนวนที่ต่ำมากซึ่งต่ำเกินไปอย่างชัดเจน

ฉันจะคำนวณสิ่งนี้ได้อย่างไร


1
สองจุดทางเทคนิค ก่อนอื่นคุณต้องรับมือกับโอกาสที่จะเกิดขึ้นมากกว่าที่จะเป็นไปได้ ประการที่สองมันไม่สำคัญว่าความน่าจะเป็นทางทฤษฎีคืออะไรเนื่องจากคุณมีผลลัพธ์ ฉันคิดว่ามันจะเป็นการดีกว่าถ้าจะเข้าใกล้วิธีการที่ใช้ในการคัดเลือก คุณต้องพิสูจน์ความถูกต้องของวิธีการไม่ใช่ความถูกต้องของผลลัพธ์
มิเชล

1
ใครจะมองว่านี่เป็นโอกาสมิเชลล์เพื่อประเมินความน่าจะเป็นของการคัดเลือก ที่ดูเหมือนจะไม่เป็นกรณีที่นี่
whuber

คุณต้องระมัดระวังในการใช้การคำนวณอย่างง่ายของ hypergeometric RV เนื่องจาก 12 คนที่บ่นไม่ได้ถูกเลือกแบบสุ่ม พวกเขากำลังบ่นเพราะพวกเขาไม่ได้เลือก
Guy

คำตอบ:


10

ฉันตีความคำถามเช่นนี้สมมติว่าการสุ่มตัวอย่างดำเนินการโดยเจตนาราวกับว่าใส่กระดาษขาวจำนวนใบในขวดแต่ละใบมีชื่อกำกับด้วยชื่อของบุคคลหนึ่งคนและคนถูกสุ่มออกมาหลังจากกวนเนื้อหาของโถอย่างละเอียด ก่อนหน้านี้ตั๋วใบมีสีแดง โอกาสที่เป็นสิ่งที่ตรงสองของตั๋วที่เลือกจะเป็นสีแดง? โอกาสที่ตั๋วสองใบส่วนใหญ่จะเป็นสีแดงคืออะไร232 1236323212

สามารถรับสูตรที่แน่นอนได้ แต่เราไม่จำเป็นต้องทำงานทางทฤษฎีมากนัก แต่เราเพียงแค่ติดตามโอกาสเมื่อตั๋วถูกดึงออกจากโถ ในขณะที่ของพวกเขาได้ถูกถอนออกให้โอกาสที่ว่าตั๋วสีแดงได้รับการเห็นเป็นลายลักษณ์อักษรม.) ในการเริ่มต้นโปรดทราบว่าถ้า (คุณไม่มีตั๋วสีแดงก่อนเริ่มใช้งาน) และ (แน่นอนว่าคุณไม่มีตั๋วสีแดง ตอนแรก) ตอนนี้การจับรางวัลครั้งล่าสุดไม่ว่าจะเป็นตั๋วแดงหรือไม่ก็ตาม ในกรณีแรกก่อนหน้านี้เรามีโอกาสที่เห็นอย่างแน่นอนi p ( i , m ) p ( i , 0 ) = 0 i > 0 p ( 0 , 0 ) = 1 p ( i - 1 , m - 1 ) i - 1 363 - m + 1 i ( 12 - i + 1 ) / ( 363 - m + 1 )mip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1ตั๋วสีแดง จากนั้นเราก็เกิดขึ้นเพื่อดึงตั๋วสีแดงจากตั๋วที่เหลือทำให้ตั๋วสีแดงจริงๆ เพราะเราถือว่าตั๋วทุกคนมีโอกาสเท่าเทียมกันในทุกขั้นตอนมีโอกาสของการวาดภาพสีแดงแบบนี้เราจึง1) ในอีกกรณีหนึ่งเรามีโอกาสในการได้รับ red tickets อย่างแน่นอนในการจับรางวัลก่อนหน้าและโอกาสที่จะไม่เพิ่มตั๋วสีแดงอีกตัวอย่างในการจับครั้งต่อไปคือ363m+1i(12i+1)/(363m+1)i m - 1 ( 363 - m + 1 - 12 + i ) / ( 363 - m + 1 )p(i,m1)im1(363m+112+i)/(363m+1). ดังนั้นโดยใช้สัจพจน์พื้นฐานของความน่าจะเป็น (เพื่อปัญญาโอกาสของสองกรณีพิเศษร่วมกันและเพิ่มโอกาสเงื่อนไข)

พี(ผม,ม.)=พี(ผม-1,ม.-1)(12-ผม+1)+พี(ผม,ม.-1)(363-ม.+1-12+ผม)363-ม.+1.

เราทำซ้ำการคำนวณนี้ซ้ำออกวางเป็นแถวสามเหลี่ยมของค่าของสำหรับและ232 หลังจากการคำนวณเล็กน้อยเราได้รับและตอบคำถามทั้งสองรุ่น ตัวเลขเหล่านี้มีจำนวนน้อย: ไม่ว่าคุณจะมองอย่างไรพวกเขาเป็นเหตุการณ์ที่เกิดขึ้นได้ยาก (หายากกว่าหนึ่งในพัน)0 i 12 0 m 232 p ( 2 , 232 ) 0.000849884 p ( 0 , 232 ) + p ( 1 , 232 ) + p ( 2 , 232 ) 0.000934314พี(ผม,ม.)0ผม120ม.232พี(2,232)0.000849884พี(0,232)+พี(1,232)+พี(2,232)0.000934314

ในการตรวจสอบอีกครั้งฉันทำการออกกำลังกายนี้กับคอมพิวเตอร์ 1,000,000 ครั้ง ใน 932 = 0.000932 ของการทดลองเหล่านี้พบตั๋วสีแดง 2 ใบหรือน้อยกว่า ซึ่งใกล้เคียงกับผลการคำนวณอย่างมากเนื่องจากความผันผวนของการสุ่มตัวอย่างในค่าที่คาดหวังของ 934.3 อยู่ที่ประมาณ 30 (ขึ้นหรือลง) นี่คือวิธีการจำลองใน R:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

เวลานี้เนื่องจากการทดลองเป็นแบบสุ่มผลลัพธ์จึงเปลี่ยนแปลงเล็กน้อย: พบตั๋วสีแดงสองใบหรือน้อยกว่าใน 948 ของการทดลองล้านครั้ง ที่ยังคงสอดคล้องกับผลทางทฤษฎี)

บทสรุปคือมันไม่น่าเป็นไปได้อย่างมากที่ตั๋วสองใบหรือ 232 ใบจะเป็นสีแดง หากคุณมีกลุ่มตัวอย่างจำนวน 232 คนจาก 363 คนผลลัพธ์นี้เป็นสิ่งบ่งชี้อย่างชัดเจนว่าแบบจำลอง ticket-in-a-jar ไม่ใช่คำอธิบายที่ถูกต้องเกี่ยวกับวิธีการรับตัวอย่าง คำอธิบายทางเลือกรวมถึง (a) ตั๋วสีแดงทำให้ยากต่อการเอาออกจากขวด (เป็น "อคติ" กับพวกเขา) และ (b) ตั๋วถูกสีหลังจากตัวอย่างถูกสังเกต ( สอดแนมข้อมูลหลังการเฉพาะกิจไม่ได้บ่งบอกถึงอคติใด ๆ )

ตัวอย่างของคำอธิบาย (b) ในการดำเนินการจะเป็นคณะลูกขุนสำหรับการพิจารณาคดีฆาตกรรมที่มีชื่อเสียง สมมติว่ามันรวม 363 คน ศาลได้สัมภาษณ์ผู้แทน 232 คน นักข่าวหนังสือพิมพ์ที่มีความทะเยอทะยานอย่างพิถีพิถันตรวจสอบประวัติของทุกคนในสระว่ายน้ำและสังเกตว่า 12 จาก 363 เป็นนักตกปลาทอง แต่เพียงสองคนเท่านั้นที่ถูกสัมภาษณ์ ศาลมีอคติกับนักเล่นปลาทองหรือไม่? อาจจะไม่.


NBในการจำลองมันไม่สำคัญว่ามันเป็นตั๋ว 12 ใบแรกที่ถูกทำเครื่องหมายเพราะการสุ่มตัวอย่างทั้งหมดจะดำเนินการแบบสุ่มโดยไม่มีการแทนที่ (ผ่านsample) ในการทำซ้ำแต่ละครั้งจะsampleทำการผสมตั๋วทุกครั้งที่มีการเรียกใช้ก่อนที่จะถอนออก 232 ใบ
whuber

2
ดี - นั่นไม่ใช่ผลลัพธ์ที่ฉันคาดไว้ ขอบคุณสำหรับการทำงานอย่างละเอียดและคำอธิบายที่ดี (อยากรู้อยากเห็นฉันจริง ๆ แล้วบางการฝึกอบรมสถิติที่มหาวิทยาลัยโอ๊คแลนด์ที่ R ถูกพัฒนาขึ้นครั้งแรก)
Sarge

10

@whuber ให้คำอธิบายที่ละเอียดถี่ถ้วนฉันแค่ต้องการชี้ให้เห็นว่ามีการแจกแจงทางสถิติแบบมาตรฐานที่สอดคล้องกับสถานการณ์นี้: การแจกแจงแบบไฮเพอร์เมตริกซ์ ดังนั้นคุณสามารถได้รับความน่าจะเป็นดังกล่าวโดยตรงในการพูด R:

ความน่าจะเป็นที่ถูกเลือก 2 จาก 12 อย่างแน่นอน:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

ความน่าจะเป็นที่เลือก 2 หรือน้อยกว่าจาก 12 รายการ:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 ขอบคุณ ฉันควรจะกล่าวถึงการเชื่อมต่อนี้ การแจกแจง hypergeometric นั้นคลาสสิกปรากฏขึ้นในการทดลองสุ่มตัวอย่าง คนเฉพาะ 12 คน ("ตั๋วสีแดง" ของฉัน) เป็นเหมือนปลาที่ถูกจับทำเครื่องหมายและโยนกลับลงไปในสระ ตัวอย่างของ 232 นั้นเหมือนกับชุดของปลาที่จับได้ในภายหลัง การกระจาย hypergeometric อธิบายความถี่ของปลาตะครุบ
whuber

0

อัตราต่อรองจะสูงกว่าการคำนวณด้วยการแจกแจง hypergeometric อย่างง่ายเนื่องจากกลุ่มไม่ได้ถูกสุ่มเลือก ( "ปลา 12 ตัวจะถูกทาสีแดงก่อนการแข่งขัน" )

จากคำอธิบายของคำถามเรากำลังทดสอบการฉ้อโกงในการจับสลาก กลุ่มเฉพาะ 12 คนบ่นว่าเลือกเพียง 2 คนเท่านั้นในขณะที่จำนวนที่คาดหวังคือ 232/363 ~ 2/3 = 8

สิ่งที่เราต้องการคำนวณจริง ๆ คือราคาที่ " ไม่มีกลุ่มขนาด 12 จะมีสมาชิก 2 คนที่เลือก" อัตราต่อรองที่อย่างน้อยหนึ่งกลุ่มจะมี 2 หรือน้อยกว่า (ดังนั้นจะบ่นต่อความยุติธรรมของการเสมอกัน) สูงกว่ามาก

เมื่อฉันใช้การจำลองนี้และตรวจสอบว่ามีการทดลองกี่กลุ่มที่ไม่มีกลุ่ม 30 (= 360/12) มีการเลือก 2 ครั้งหรือน้อยกว่าฉันได้รับ2.3%ของจำนวนครั้ง 1:42นั้นต่ำ แต่ไม่เป็นไปไม่ได้

คุณควรตรวจสอบขั้นตอนการจับฉลากเพราะอาจมีอคติกับคนกลุ่มใดกลุ่มหนึ่งโดยเฉพาะ พวกเขาอาจมารวมกันและได้รับช่วงของการจับสลากที่มีความน่าจะเป็นน้อยกว่า (เช่นตัวเลขตัวแรกหรือตัวสุดท้าย) หรือตัวแปรใด ๆ ที่ขึ้นอยู่กับกระบวนการของการเสมอกัน แต่ถ้าคุณไม่พบข้อบกพร่องใด ๆ ในขั้นตอนคุณสามารถกลับไปที่อัตราต่อรอง 1:42 ว่าเป็นโชคร้ายสำหรับกลุ่ม


จุดดี BUT (a) ไม่ใช่ทุกกลุ่มที่เป็นไปได้ของ 12 มีความคล้ายคลึงกันมากพอและ (b) ไม่ใช่ทุกกลุ่มที่มีความคล้ายคลึงกันเพียงพอที่จะมีสมาชิก 12 คน
zbicyclist

@zbicyclist ฉันไม่อ้างว่าการคำนวณนั้นถูกต้อง ฉันต้องการที่จะให้ข้อสงสัยที่สมเหตุสมผล (ในขณะที่เราอยู่ในขอบเขตของกฎหมายที่มีการตรวจจับการฉ้อโกง) ว่าการวาดนั้นไม่ผิด
Guy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.