คำตอบสั้น ๆ :
โดยทั่วไปจะมากขึ้นน่าเชื่อว่าจะมี 600 ออกจาก 1000 กว่าหกจาก 10 เพราะได้รับการตั้งค่าเท่ากันก็ห่างไกลมีโอกาสมากขึ้นสำหรับ 6 จาก 10 ที่จะเกิดขึ้นโดยบังเอิญแบบสุ่ม
มาสมมุติกันว่าสัดส่วนที่ต้องการส้มและแอปเปิ้ลมีค่าเท่ากัน (ดังนั้นละ 50%) เรียกสิ่งนี้ว่าสมมุติฐานว่าง เมื่อพิจารณาถึงความน่าจะเป็นที่เท่าเทียมกันเหล่านี้โอกาสที่ผลลัพธ์ทั้งสองคือ:
- จากตัวอย่าง 10 คนมีโอกาส 38% ที่จะสุ่มตัวอย่างจากคน 6 คนขึ้นไปที่ชอบส้ม (ซึ่งไม่น่าจะเป็นไปได้ทั้งหมด)
- ด้วยกลุ่มตัวอย่าง 1,000 คนมีโอกาสน้อยกว่า 1 ในพันล้านที่มี 600 คนหรือมากกว่า 1,000 คนชอบส้ม
(สำหรับความเรียบง่ายฉันสมมติว่าประชากรไม่ จำกัด ที่จะดึงตัวอย่างได้ไม่ จำกัด จำนวน)
มาแบบง่าย ๆ
วิธีหนึ่งที่จะได้ผลลัพธ์นี้คือการระบุวิธีที่เป็นไปได้ที่ผู้คนสามารถรวมกันในตัวอย่างของเรา:
สำหรับสิบคนมันง่าย:
ลองวาดตัวอย่างจาก 10 คนโดยการสุ่มจากประชากรที่ไม่มีที่สิ้นสุดของคนที่มีความชอบเท่ากันสำหรับแอปเปิ้ลหรือส้ม ด้วยการตั้งค่าที่เท่ากันคุณสามารถแสดงรายการชุดค่าผสมที่เป็นไปได้ทั้งหมดของ 10 คนได้อย่างง่ายดาย:
นี่คือรายการเต็ม
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r คือจำนวนผลลัพธ์ (คนที่ชอบส้ม), C คือจำนวนวิธีที่เป็นไปได้ของคนจำนวนมากที่เลือกส้มและ p คือความน่าจะเป็นแบบแยกกันของคนหลายคนที่ชอบส้มในตัวอย่างของเรา
(p เป็นเพียง C หารด้วยจำนวนชุดค่าผสมทั้งหมดโปรดทราบว่ามี 1024 วิธีในการจัดเรียงการตั้งค่าทั้งสองนี้โดยรวม (เช่น 2 ต่อกำลัง 10)
- ตัวอย่างเช่นมีทางเดียวเท่านั้น (หนึ่งตัวอย่าง) สำหรับ 10 คน (r = 10) สำหรับส้มที่ชอบทั้งหมด เช่นเดียวกันสำหรับทุกคนที่ต้องการแอปเปิ้ล (r = 0)
- มีชุดค่าผสมที่แตกต่างกัน 10 แบบทำให้มีเก้าชุดที่เลือกใช้ส้ม (บุคคลที่ต่างกันคนหนึ่งชอบแอปเปิ้ลในแต่ละตัวอย่าง)
- มีตัวอย่าง 45 ตัวอย่าง (ชุดค่าผสม) ที่ 2 คนชอบแอปเปิ้ล ฯลฯ
(ในที่เราพูดคุยทั่วไปเกี่ยวกับn C Rการรวมกันของผลrจากตัวอย่างของnคน. มีเครื่องคิดเลขออนไลน์ที่คุณสามารถใช้เพื่อตรวจสอบตัวเลขเหล่านี้.)
รายการนี้ช่วยให้เราสามารถให้ความน่าจะเป็นข้างต้นโดยใช้การหารเพียงอย่างเดียว มีโอกาส 21% ที่จะได้ 6 คนจากตัวอย่างที่ชอบส้ม (210 จาก 1024 ของชุดค่าผสม) โอกาสในการรับคนหกคนขึ้นไปในตัวอย่างของเราคือ 38% (ผลรวมของกลุ่มตัวอย่างทั้งหมดที่มีคนหกคนขึ้นไปหรือ 386 จาก 1024 ชุดค่าผสม)
ความน่าจะเป็นแบบกราฟิก:
ด้วยจำนวนที่มากขึ้นจำนวนชุดค่าผสมที่เป็นไปได้จะเพิ่มขึ้นอย่างรวดเร็ว
สำหรับกลุ่มตัวอย่างเพียง 20 คนมีตัวอย่างที่เป็นไปได้ 1,048,576 ทั้งหมดมีโอกาสเท่ากัน (หมายเหตุ: ฉันได้แสดงชุดค่าผสมทุกวินาทีด้านล่างเท่านั้น)
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
ยังมีเพียงตัวอย่างเดียวที่คน 20 คนชอบส้ม ชุดค่าผสมที่มีผลลัพธ์แบบผสมมีแนวโน้มมากขึ้นเพียงเพราะมีหลายวิธีที่ผู้คนในกลุ่มตัวอย่างสามารถนำมารวมกันได้
ตัวอย่างที่มีความเอนเอียงไม่น่าเป็นไปได้มากเพียงเพราะมีคนจำนวนน้อยที่อาจส่งผลให้เกิดกลุ่มตัวอย่าง:
มีเพียง 20 คนในแต่ละตัวอย่างความน่าจะเป็นสะสมที่มี 60% หรือมากกว่า (12 คนขึ้นไป) ในกลุ่มตัวอย่างที่เราเลือกส้มลดลงเหลือเพียง 25%
การกระจายความน่าจะเป็นสามารถดูผอมลงและสูงขึ้นได้:
ด้วย 1,000 คนตัวเลขเหล่านั้นใหญ่มาก
เราสามารถขยายตัวอย่างข้างต้นไปเป็นตัวอย่างขนาดใหญ่ (แต่ตัวเลขเติบโตเร็วเกินไปสำหรับเป็นไปได้ที่จะแสดงรายการชุดค่าผสมทั้งหมด) แต่ฉันคำนวณความน่าจะเป็นใน R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
ความน่าจะเป็นสะสมที่มี 600 คนหรือมากกว่า 1,000 คนชอบส้มมากกว่า 1.364232e-10
การกระจายความน่าจะเป็นตอนนี้มีความเข้มข้นมากขึ้นรอบ ๆ ศูนย์:
[
(ตัวอย่างเช่นในการคำนวณความน่าจะเป็นที่แน่นอนจาก 600 คนจาก 1,000 คนที่ชอบส้มในการใช้ R dbinom(600, 1000, prob=0.5)
ซึ่งเท่ากับ 4.633908e-11 และความน่าจะเป็นที่ 600 หรือมากกว่านั้นคือคน1-pbinom(599, 1000, prob=0.5)
ซึ่งเท่ากับ 1.364232e-10 (น้อยกว่า 1 ในพันล้าน)