ฉันมีข้อมูลสามกลุ่มแต่ละกลุ่มมีการแจกแจงทวินาม (เช่นแต่ละกลุ่มมีองค์ประกอบที่ประสบความสำเร็จหรือล้มเหลว) ฉันไม่มีความน่าจะเป็นที่คาดการณ์ไว้ของความสำเร็จ แต่สามารถพึ่งพาอัตราความสำเร็จของแต่ละคนเป็นเพียงการประมาณอัตราความสำเร็จที่แท้จริง ฉันเพิ่งพบคำถามนี้ซึ่งใกล้ แต่ดูเหมือนจะไม่จัดการกับสถานการณ์นี้
เพื่อให้การทดสอบง่ายขึ้นสมมติว่าฉันมี 2 กลุ่ม (3 สามารถขยายได้จากกรณีพื้นฐานนี้)
- การทดลองกลุ่ม 1: = 2455
- การทดลองกลุ่ม 2: = 2730
- ความสำเร็จของกลุ่ม 1: = 1556
- ความสำเร็จของกลุ่ม 2: = 1671
ฉันไม่ได้มีโอกาสประสบความสำเร็จที่คาดหวังเพียงสิ่งที่ฉันรู้จากตัวอย่าง ดังนั้นอัตราความสำเร็จโดยนัยของฉันสำหรับทั้งสองกลุ่มคือ:
- อัตราความสำเร็จของกลุ่ม 1: = 1556/2455 = 63.4%
- อัตราความสำเร็จของกลุ่ม 2: = 1671/2730 = 61.2%
อัตราความสำเร็จของตัวอย่างแต่ละตัวอย่างค่อนข้างใกล้เคียง อย่างไรก็ตามขนาดตัวอย่างของฉันก็ค่อนข้างใหญ่เช่นกัน ถ้าฉันตรวจสอบ CDF ของการแจกแจงทวินามเพื่อดูว่ามันแตกต่างจากครั้งแรก (โดยที่ฉันสมมติว่าอันแรกคือการทดสอบว่าง) ฉันได้รับความน่าจะเป็นที่น้อยมากที่สามารถทำได้ครั้งที่สอง
ใน Excel:
1-BINOM.DIST (1556,2455,61.2%, TRUE) = 0.012
อย่างไรก็ตามสิ่งนี้ไม่ได้คำนึงถึงความแปรปรวนของผลการทดสอบครั้งแรกเพียง แต่ถือว่าผลลัพธ์แรกคือความน่าจะเป็นในการทดสอบ
มีวิธีที่ดีกว่าในการทดสอบว่าทั้งสองตัวอย่างของข้อมูลที่แตกต่างกันจริงหรือไม่?
prop.test
prop.test(c(1556, 1671), c(2455, 2730))