การวิเคราะห์พลังงานเบื้องต้นนั้นไร้ประโยชน์หรือไม่?


23

ฉันเข้าร่วมการประชุมของสมาคมบุคลิกภาพและจิตวิทยาสังคมเมื่อสัปดาห์ที่แล้วซึ่งฉันเห็นการพูดคุยของ Uri Simonsohn กับสถานที่ตั้งว่าการใช้การวิเคราะห์พลังงานเบื้องต้นเพื่อกำหนดขนาดตัวอย่างนั้นไร้ประโยชน์เพราะผลลัพธ์นั้นอ่อนไหวต่อสมมติฐาน

แน่นอนการเรียกร้องนี้ขัดกับสิ่งที่ฉันได้รับการสอนในชั้นเรียนวิธีการของฉันและต่อต้านคำแนะนำของนักวิธีการที่โดดเด่นหลายคน (สะดุดตาที่สุดโคเฮน 1992 ) ดังนั้น Uri จึงแสดงหลักฐานบางอย่างเกี่ยวกับการอ้างสิทธิ์ของเขา ฉันพยายามสร้างหลักฐานบางส่วนด้านล่างนี้ใหม่

สำหรับความเรียบง่ายให้จินตนาการสถานการณ์ที่คุณมีสองกลุ่มของการสังเกตและคาดเดาว่าขนาดของผล (วัดจากความแตกต่างของค่าเฉลี่ยมาตรฐาน) เป็น0.5การคำนวณพลังงานมาตรฐาน (ทำโดยใช้แพ็คเกจด้านล่าง) จะบอกให้คุณทราบว่าต้องใช้การสังเกตแบบเพื่อให้ได้พลังงาน 80% จากการออกแบบนี้.5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

อย่างไรก็ตามโดยปกติเราคาดเดาเกี่ยวกับขนาดของเอฟเฟกต์ที่คาดไว้คือ (อย่างน้อยในแวดวงสังคมศาสตร์ซึ่งเป็นสาขาวิชาของฉัน) นั่น - คาดเดายากมาก จะเกิดอะไรขึ้นถ้าเราเดาว่าขนาดของเอฟเฟกต์ออกไปเล็กน้อย การคำนวณพลังงานอย่างรวดเร็วจะบอกคุณว่าถ้าขนาดของผลกระทบที่เป็นแทนคุณต้องข้อสังเกต -เท่าของจำนวนที่คุณจะต้องมีพลังงานเพียงพอสำหรับขนาดของผลกระทบ0.5ในทำนองเดียวกันหากขนาดของเอฟเฟกต์เป็นคุณเพียงต้องการการสังเกตครั้ง 70% ของสิ่งที่คุณจะต้องมีพลังเพียงพอที่จะตรวจจับขนาดเอฟเฟกต์ที่.5 200 1.56 .5 .6 90 .50 90.4.52001.56.5.690.50. จวนพูดในช่วงการสังเกตโดยประมาณมีขนาดใหญ่มาก -ที่จะ20090200

การตอบสนองต่อปัญหานี้อย่างหนึ่งคือแทนที่จะคาดเดาอย่างบริสุทธิ์ว่าขนาดของเอฟเฟกต์นั้นคืออะไรคุณรวบรวมหลักฐานเกี่ยวกับขนาดของเอฟเฟกต์ไม่ว่าจะผ่านวรรณกรรมหรือผ่านการทดสอบนำร่อง แน่นอนถ้าคุณกำลังทำการทดสอบนำร่องคุณจะต้องการให้การทดสอบนำร่องของคุณมีขนาดเล็กเพียงพอที่คุณจะไม่เพียงแค่ใช้เวอร์ชันการศึกษาของคุณเพียงเพื่อกำหนดขนาดตัวอย่างที่จำเป็นสำหรับการดำเนินการศึกษา (เช่นคุณต้องการ ต้องการให้ขนาดตัวอย่างที่ใช้ในการทดสอบนำร่องมีขนาดเล็กกว่าขนาดตัวอย่างของการศึกษาของคุณ)

Uri Simonsohn แย้งว่าการทดสอบนำร่องเพื่อจุดประสงค์ในการกำหนดขนาดเอฟเฟกต์ที่ใช้ในการวิเคราะห์พลังงานของคุณนั้นไร้ประโยชน์ Rพิจารณาจำลองต่อไปที่ผมวิ่งเข้าไปในห้อง จำลองนี้อนุมานว่าขนาดของผลประชากร0.5จากนั้นจะดำเนินการ "การทดสอบนำร่อง" ที่มีขนาด 40 และกำหนดตารางแนะนำจากการทดสอบนำร่องแต่ละ 10,000 ครั้ง1,000 N.51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

ด้านล่างเป็นพล็อตความหนาแน่นตามการจำลองนี้ ฉันข้ามการทดสอบนำร่องครั้งที่แนะนำการสังเกตการณ์จำนวนไปเพื่อให้ภาพตีความได้ง่ายขึ้น แม้จะมุ่งเน้นไปที่ผลการจำลองสถานการณ์ที่น้อยที่สุด แต่ก็มีความหลากหลายในแนะนำโดยการทดสอบครั้ง500 N s 1000204500Ns1000

ป้อนคำอธิบายรูปภาพที่นี่

แน่นอนฉันมั่นใจว่าความไวของปัญหาสมมติฐานจะแย่ลงเมื่อการออกแบบของใครซับซ้อนมากขึ้น ตัวอย่างเช่นในการออกแบบที่ต้องการข้อมูลจำเพาะของโครงสร้างเอ็ฟเฟ็กต์แบบสุ่มลักษณะของโครงสร้างเอฟเฟกต์แบบสุ่มจะมีผลกระทบอย่างมากต่อพลังของการออกแบบ

ดังนั้นคุณคิดอย่างไรกับการโต้แย้งนี้? การวิเคราะห์พลังงานเบื้องต้นนั้นไร้ประโยชน์หรือไม่? ถ้าเป็นเช่นนั้นแล้วนักวิจัยควรวางแผนขนาดของการศึกษาของพวกเขาอย่างไร?


10
ฟังดูเหมือนเป็นการประณามการวิเคราะห์พลังงานอย่างไร้เหตุผลไม่ใช่การวิเคราะห์พลังงาน คำถามที่ใหญ่กว่าคือไม่ว่าจะเป็นการโจมตีชายฟางหรือมีคนจำนวนมากที่ทำการวิเคราะห์พลังงาน (หรือการวิเคราะห์อื่น ๆ ) โดยไม่คำนึงถึงความอ่อนไหวต่อสมมติฐาน หากหลังเป็นเรื่องจริงมันเป็นการดีที่จะสอนพวกเขา แต่ฉันหวังว่าพวกเขาจะไม่ท้อแท้จนต้องละทิ้งความพยายามทั้งหมดเพื่อวางแผนการทดลองของพวกเขา!
whuber

2
เตือนให้ฉันนึกถึงจำนวนมากค่อนข้างมากเช่นกัน. และไม่เพียงเพราะความคล้ายคลึงกันทางโครงสร้างประโยคในการตั้งคำถาม ดูเหมือนคำถามว่าจะเข้าใจสมมติฐานอย่างไร ประเด็นสำคัญในทั้งสองคือการเข้าใจความไวของการวิเคราะห์เหล่านี้ต่อความลำเอียงมากกว่าการตัดสินใจแบบกวาดล้างการตัดสินทั้งหมดหรือไม่มีอะไรเลยที่สมมติฐานของพวกเขาคือ(a)สำคัญอย่างยิ่งหรือ(b)เล็กน้อยที่สุด นี่คือกุญแจสำคัญในการอนุมานที่มีประโยชน์และไม่เป็นอันตรายโดยทั่วไป ฉันกลัวว่ามันไม่ใช่ฟาง ผู้คนคิดอย่างสมบูรณ์บ่อยครั้งมากเมื่อพวกเขาไม่รู้หรือไม่สนใจ
Nick Stauner

5
ฉันไม่ต้องการเพิ่มคำถามนี้เพราะฉันสนใจคำแนะนำที่คนอื่นทำ แต่คำแนะนำของ Uri Simonsohn ในตอนท้ายของการพูดคุยคือเพื่อเพิ่มพลังการศึกษาของคุณเพื่อตรวจหาเอฟเฟกต์ที่เล็กที่สุดที่คุณสนใจ
Patrick S. Forscher

9
@ PatrickS.Forscher: ดังนั้นหลังจากทั้งหมดถูกพูดและทำเขาเชื่อในการวิเคราะห์พลังงานเบื้องต้น เขาคิดว่าควรเลือกขนาดเอฟเฟ็กต์อย่างชาญฉลาด: ไม่ต้องเดาว่ามันควรเป็นอะไร แต่ควรคำนึงถึงค่าต่ำสุดที่คุณสนใจ ฟังดูคล้ายกับคำอธิบายตำราเรียนของการวิเคราะห์พลังงาน: ตรวจสอบให้แน่ใจว่าคุณมีข้อมูลเพียงพอว่าสิ่งที่คุณเชื่อว่าเป็นความแตกต่างที่สำคัญในทางปฏิบัติจะปรากฏเป็นความแตกต่างอย่างมีนัยสำคัญทางสถิติ
Wayne

2
วิธีที่ Uri ใส่กรอบการพูดคุยฉันคิดว่าเขาเชื่อว่าการวิเคราะห์พลังงานเบื้องต้นนั้นไร้ประโยชน์อย่างที่มันมักจะทำในสังคมศาสตร์ แต่อาจจะไม่เหมือนที่สอนไว้ที่อื่น แน่นอนฉันได้รับการสอนให้วิเคราะห์การใช้พลังงานโดยการคาดเดาอย่างสมเหตุสมผลเกี่ยวกับขนาดของเอฟเฟกต์ที่ฉันกำลังมองหา
Patrick S. Forscher

คำตอบ:


20

ปัญหาพื้นฐานที่นี่เป็นจริงและเป็นที่รู้จักกันดีในสถิติ อย่างไรก็ตามการตีความ / การอ้างสิทธิ์ของเขานั้นรุนแรงมาก มีหลายประเด็นที่จะกล่าวถึง:

NNN50%80%ddd=.5N=1287.9%5.5%.116.9%.112.6%

ป้อนคำอธิบายรูปภาพที่นี่

d

80%

ประการที่สองเกี่ยวกับการเรียกร้องที่กว้างขึ้นว่าการวิเคราะห์พลังงาน (a-initiali หรืออย่างอื่น) ขึ้นอยู่กับสมมติฐานมันไม่ชัดเจนว่าจะต้องทำการโต้แย้งอะไร แน่นอนพวกเขาทำ ทุกอย่างก็เช่นกัน ไม่ใช้การวิเคราะห์พลังงาน แต่เพียงรวบรวมข้อมูลตามจำนวนที่คุณเลือกจากหมวกแล้วทำการวิเคราะห์ข้อมูลของคุณจะไม่ปรับปรุงสถานการณ์ นอกจากนี้การวิเคราะห์ผลลัพธ์ของคุณจะยังคงขึ้นอยู่กับสมมติฐานเช่นเดียวกับการวิเคราะห์ทั้งหมด (พลังงานหรืออื่น ๆ ) ทำเสมอ หากคุณตัดสินใจว่าคุณจะเก็บข้อมูลต่อไปและวิเคราะห์อีกครั้งจนกว่าคุณจะได้ภาพที่คุณชอบหรือเบื่อมันจะมีผลน้อยกว่ามาก (และจะยังคงใช้สมมติฐานที่อาจมองไม่เห็นต่อผู้พูด แต่ ยังคงมีอยู่) พูดง่ายๆมีวิธีรอบความจริงที่ว่าสมมติฐานที่ถูกทำในการวิจัยและการวิเคราะห์ข้อมูลไม่มี

คุณอาจพบแหล่งข้อมูลที่น่าสนใจเหล่านี้:


1
ฉันคิดว่าการโต้แย้งของ Uri Simonsohn นั้นไม่ใช่ข้อสันนิษฐานที่ไม่ดี แต่การวิเคราะห์พลังงานโดยทั่วไปนั้นมีความอ่อนไหวต่อสมมติฐานที่ทำให้พวกเขาไร้ประโยชน์สำหรับการวางแผนขนาดตัวอย่าง อย่างไรก็ตามคะแนนของคุณยอดเยี่ยมเช่นเดียวกับข้อมูลอ้างอิงที่คุณให้ไว้ (+1)
Patrick S. Forscher

การแก้ไขของคุณยังคงปรับปรุงคำตอบที่ยอดเยี่ยมนี้อยู่แล้ว :)
Patrick S. Forscher

3
ฉันเห็นด้วยว่านี่เป็นคำตอบที่ดีและฉันต้องการให้คุณ (และคนอื่น ๆ ) รู้ว่าฉันอ้างคุณในโพสต์บล็อกล่าสุดที่ฉันเขียนในหัวข้อนี้: jakewestfall.org/blog/index.php/2015/06/ 16 / …
Jake Westfall

2
@ JakeWestfall โพสต์ดี! ในบันทึกอื่น ๆ เมื่อคุณศึกษาคุกกี้คุณทำเช่นนั้นโดยการกินคุกกี้เป็นหลักหรือไม่? คุณต้องการที่ปรึกษาทางสถิติสำหรับโครงการเหล่านี้หรือไม่?
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.