เราควรตีความการเปรียบเทียบค่าเฉลี่ยของขนาดตัวอย่างที่แตกต่างกันอย่างไร


49

นำกรณีของการจัดอันดับหนังสือบนเว็บไซต์ หนังสือที่จัดอยู่ในอันดับโดย 10,000 คนที่มีค่าเฉลี่ยคะแนน 4.25 และความแปรปรวน 0.5 ในทำนองเดียวกันหนังสือ B คือประเมินโดย 100 คนและมีการประเมินจาก 4.5 กับσ = 0.25σ=0.5σ=0.25

ตอนนี้เนื่องจากขนาดตัวอย่างขนาดใหญ่ของ Book A 'ค่าเฉลี่ยเสถียร' เป็น 4.25 ตอนนี้สำหรับ 100 คนอาจเป็นได้ว่าถ้ามีคนอ่านหนังสือ B มากขึ้นค่าเฉลี่ยอาจลดลงเหลือ 4 หรือ 4.25

  • เราควรตีความการเปรียบเทียบค่าเฉลี่ยจากตัวอย่างที่แตกต่างกันอย่างไรและข้อสรุปที่ดีที่สุดที่เราสามารถทำได้ / ควรวาดคืออะไร?

ตัวอย่างเช่น - เราสามารถพูดได้หรือไม่ว่าหนังสือ B ดีกว่าหนังสือ A.


คุณสนใจบริบทการให้คะแนนเป็นพิเศษหรือไม่
Jeromy Anglim

@JeromyAnglim - อืม ... น่าจะเป็น ไม่แน่ใจ. นั่นเป็นตัวอย่างที่พบบ่อยที่สุด สิ่งที่คุณมีในใจ?
PhD

2
ดูคำตอบของฉันเกี่ยวกับระบบการจัดอันดับแบบเบย์ด้านล่าง บริบทการจัดอันดับโดยทั่วไปจะมีวัตถุเป็นร้อยหรือพันรายการซึ่งถูกจัดอันดับและเป้าหมายมักจะประเมินการจัดอันดับที่ดีที่สุดสำหรับวัตถุที่ได้รับข้อมูลที่มีอยู่ สิ่งนี้แตกต่างอย่างมากจากการเปรียบเทียบสองกลุ่มอย่างง่ายเนื่องจากคุณอาจพบว่าพูดในการทดลองทางการแพทย์กับสองกลุ่ม
Jeromy Anglim

คำตอบ:


57

Nn

เพื่ออธิบายประเด็นของฉันเกี่ยวกับพลังงานนี่คือการจำลองแบบง่าย ๆ ที่เขียนขึ้นสำหรับ R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. โปรดทราบว่ามาตรฐานการสร้างความแตกต่าง / ข้อมูลที่ได้มาตรฐานนั้นเหมือนกันในทุกกรณี อย่างไรก็ตามในขณะที่การทดสอบคือ 'สำคัญ' 70% ของเวลาสำหรับตัวอย่าง 50-50 อำนาจคือ 56% กับ 75-25 และเพียง 33% เมื่อขนาดกลุ่ม 90-10

ฉันคิดถึงสิ่งนี้โดยการเปรียบเทียบ หากคุณต้องการทราบพื้นที่ของสี่เหลี่ยมและเส้นรอบวงได้รับการแก้ไขแล้วพื้นที่นั้นจะถูกขยายให้กว้างที่สุดหากความยาวและความกว้างเท่ากัน (เช่นถ้าสี่เหลี่ยมเป็นสี่เหลี่ยม ) ในขณะที่ความยาวและความกว้างแตกต่างกัน (ในขณะที่รูปสี่เหลี่ยมผืนผ้ายาวออกไป) พื้นที่จะหดตัว


พลังงานถูกขยายให้ใหญ่สุด ?? ฉันไม่แน่ใจว่าฉันเข้าใจ คุณช่วยยกตัวอย่างได้ไหม
PhD

5
เหตุผลที่การทดสอบ t สามารถจัดการกับขนาดตัวอย่างที่ไม่เท่ากันได้คือมันต้องคำนึงถึงข้อผิดพลาดมาตรฐานของการประมาณค่าเฉลี่ยของแต่ละกลุ่ม นั่นคือค่าเบี่ยงเบนมาตรฐานของการแจกแจงของกลุ่มหารด้วยสแควร์รูทของขนาดตัวอย่างของกลุ่ม goup ที่มีขนาดตัวอย่างใหญ่กว่าจะมีข้อผิดพลาดมาตรฐานที่เล็กกว่าหากค่าเบี่ยงเบนมาตรฐานของประชากรมีค่าเท่ากันหรือเกือบเป็นเช่นนั้น
Michael Chernick

@gung - ฉันไม่แน่ใจว่าฉันรู้จริง ๆ ว่า 'ภาษา' แบบจำลองนี้ถูกเขียนขึ้นมา ฉันคาดเดา 'R'? และฉันยังคงพยายามถอดรหัสมัน :)
ปริญญาเอก

2
รหัสสำหรับอาร์ฉันได้ให้ความเห็นเพื่อให้ง่ายต่อการติดตาม คุณสามารถคัดลอกและวางลงใน R และรันด้วยตัวคุณเองถ้าคุณมี R; set.seed()ฟังก์ชั่นจะประกันคุณจะได้รับการส่งออกเหมือนกัน แจ้งให้เราทราบหากยังติดตามได้ยากเกินไป
gung - Reinstate Monica

8
N=n1+n2n1×n2n1n2

10

นอกเหนือจากคำตอบที่ @gung อ้างถึงคุณในการทดสอบ t-test ดูเหมือนว่าคุณอาจสนใจระบบการจัดอันดับแบบเบย์ (เช่นนี่คือการสนทนา ) เว็บไซต์สามารถใช้ระบบดังกล่าวเพื่อจัดอันดับรายการสั่งซื้อที่แตกต่างกันไปตามจำนวนโหวตที่ได้รับ โดยพื้นฐานแล้วระบบดังกล่าวทำงานโดยการจัดอันดับที่ประกอบไปด้วยคะแนนเฉลี่ยของรายการทั้งหมดรวมถึงค่าเฉลี่ยของตัวอย่างของการจัดอันดับสำหรับวัตถุที่เฉพาะเจาะจง เมื่อจำนวนเรตติ้งเพิ่มขึ้นน้ำหนักที่กำหนดให้กับค่าเฉลี่ยของวัตถุจะเพิ่มขึ้นและน้ำหนักที่กำหนดให้ค่าเรตติ้งของไอเท็มทั้งหมดลดลง บางทีอาจจะตรวจสอบค่าเฉลี่ยแบบเบย์

แน่นอนว่าสิ่งต่าง ๆ จะมีความซับซ้อนมากขึ้นเมื่อคุณจัดการกับปัญหาที่หลากหลายเช่นการโกงการลงคะแนนการเปลี่ยนแปลงตลอดเวลาเป็นต้น


หวาน. ไม่เคยได้ยินเรื่องนี้ ฉันจะตรวจสอบมันอย่างแน่นอน อาจจะเป็นสิ่งที่ฉันตามมาหลังจากทั้งหมด :)
ปริญญาเอก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.