ฉันเข้าร่วมการประชุมของสมาคมบุคลิกภาพและจิตวิทยาสังคมเมื่อสัปดาห์ที่แล้วซึ่งฉันเห็นการพูดคุยของ Uri Simonsohn กับสถานที่ตั้งว่าการใช้การวิเคราะห์พลังงานเบื้องต้นเพื่อกำหนดขนาดตัวอย่างนั้นไร้ประโยชน์เพราะผลลัพธ์นั้นอ่อนไหวต่อสมมติฐาน
แน่นอนการเรียกร้องนี้ขัดกับสิ่งที่ฉันได้รับการสอนในชั้นเรียนวิธีการของฉันและต่อต้านคำแนะนำของนักวิธีการที่โดดเด่นหลายคน (สะดุดตาที่สุดโคเฮน 1992 ) ดังนั้น Uri จึงแสดงหลักฐานบางอย่างเกี่ยวกับการอ้างสิทธิ์ของเขา ฉันพยายามสร้างหลักฐานบางส่วนด้านล่างนี้ใหม่
สำหรับความเรียบง่ายให้จินตนาการสถานการณ์ที่คุณมีสองกลุ่มของการสังเกตและคาดเดาว่าขนาดของผล (วัดจากความแตกต่างของค่าเฉลี่ยมาตรฐาน) เป็น0.5การคำนวณพลังงานมาตรฐาน (ทำโดยใช้แพ็คเกจด้านล่าง) จะบอกให้คุณทราบว่าต้องใช้การสังเกตแบบเพื่อให้ได้พลังงาน 80% จากการออกแบบนี้R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
อย่างไรก็ตามโดยปกติเราคาดเดาเกี่ยวกับขนาดของเอฟเฟกต์ที่คาดไว้คือ (อย่างน้อยในแวดวงสังคมศาสตร์ซึ่งเป็นสาขาวิชาของฉัน) นั่น - คาดเดายากมาก จะเกิดอะไรขึ้นถ้าเราเดาว่าขนาดของเอฟเฟกต์ออกไปเล็กน้อย การคำนวณพลังงานอย่างรวดเร็วจะบอกคุณว่าถ้าขนาดของผลกระทบที่เป็นแทนคุณต้องข้อสังเกต -เท่าของจำนวนที่คุณจะต้องมีพลังงานเพียงพอสำหรับขนาดของผลกระทบ0.5ในทำนองเดียวกันหากขนาดของเอฟเฟกต์เป็นคุณเพียงต้องการการสังเกตครั้ง 70% ของสิ่งที่คุณจะต้องมีพลังเพียงพอที่จะตรวจจับขนาดเอฟเฟกต์ที่.5 200 1.56 .5 .6 90 .50 90. จวนพูดในช่วงการสังเกตโดยประมาณมีขนาดใหญ่มาก -ที่จะ200
การตอบสนองต่อปัญหานี้อย่างหนึ่งคือแทนที่จะคาดเดาอย่างบริสุทธิ์ว่าขนาดของเอฟเฟกต์นั้นคืออะไรคุณรวบรวมหลักฐานเกี่ยวกับขนาดของเอฟเฟกต์ไม่ว่าจะผ่านวรรณกรรมหรือผ่านการทดสอบนำร่อง แน่นอนถ้าคุณกำลังทำการทดสอบนำร่องคุณจะต้องการให้การทดสอบนำร่องของคุณมีขนาดเล็กเพียงพอที่คุณจะไม่เพียงแค่ใช้เวอร์ชันการศึกษาของคุณเพียงเพื่อกำหนดขนาดตัวอย่างที่จำเป็นสำหรับการดำเนินการศึกษา (เช่นคุณต้องการ ต้องการให้ขนาดตัวอย่างที่ใช้ในการทดสอบนำร่องมีขนาดเล็กกว่าขนาดตัวอย่างของการศึกษาของคุณ)
Uri Simonsohn แย้งว่าการทดสอบนำร่องเพื่อจุดประสงค์ในการกำหนดขนาดเอฟเฟกต์ที่ใช้ในการวิเคราะห์พลังงานของคุณนั้นไร้ประโยชน์ R
พิจารณาจำลองต่อไปที่ผมวิ่งเข้าไปในห้อง จำลองนี้อนุมานว่าขนาดของผลประชากร0.5จากนั้นจะดำเนินการ "การทดสอบนำร่อง" ที่มีขนาด 40 และกำหนดตารางแนะนำจากการทดสอบนำร่องแต่ละ 10,000 ครั้ง1,000 N
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
ด้านล่างเป็นพล็อตความหนาแน่นตามการจำลองนี้ ฉันข้ามการทดสอบนำร่องครั้งที่แนะนำการสังเกตการณ์จำนวนไปเพื่อให้ภาพตีความได้ง่ายขึ้น แม้จะมุ่งเน้นไปที่ผลการจำลองสถานการณ์ที่น้อยที่สุด แต่ก็มีความหลากหลายในแนะนำโดยการทดสอบครั้ง500 N s 1000
แน่นอนฉันมั่นใจว่าความไวของปัญหาสมมติฐานจะแย่ลงเมื่อการออกแบบของใครซับซ้อนมากขึ้น ตัวอย่างเช่นในการออกแบบที่ต้องการข้อมูลจำเพาะของโครงสร้างเอ็ฟเฟ็กต์แบบสุ่มลักษณะของโครงสร้างเอฟเฟกต์แบบสุ่มจะมีผลกระทบอย่างมากต่อพลังของการออกแบบ
ดังนั้นคุณคิดอย่างไรกับการโต้แย้งนี้? การวิเคราะห์พลังงานเบื้องต้นนั้นไร้ประโยชน์หรือไม่? ถ้าเป็นเช่นนั้นแล้วนักวิจัยควรวางแผนขนาดของการศึกษาของพวกเขาอย่างไร?