การสุ่มมีความน่าเชื่อถือกับกลุ่มตัวอย่างขนาดเล็กหรือไม่


11

Jerome Cornfield ได้เขียน:

หนึ่งในผลไม้ที่ดีที่สุดของการปฏิวัติของชาวประมงคือความคิดของการสุ่มและนักสถิติที่เห็นด้วยกับสิ่งอื่น ๆ น้อยได้เห็นด้วยอย่างน้อยในเรื่องนี้ แต่แม้จะมีข้อตกลงนี้และแม้จะมีการใช้ขั้นตอนการจัดสรรแบบสุ่มในทางคลินิกและในรูปแบบอื่น ๆ ของการทดลอง แต่สถานะทางตรรกะของมันก็คือฟังก์ชันที่แน่นอนที่มันทำนั้นยังคงคลุมเครือ

ทุ่งนาเจอโรม (1976) "ผลงานล่าสุดกับระเบียบวิธีการทดลองทางคลินิก" วารสารระบาดวิทยาแห่งอเมริกา 104 (4): 408–421

ในเว็บไซต์นี้และในวรรณคดีที่หลากหลายฉันมักเห็นการอ้างสิทธิ์ที่มั่นใจเกี่ยวกับพลังของการสุ่ม คำศัพท์ที่แข็งแกร่งเช่น "มันกำจัดปัญหาของตัวแปรที่รบกวน" เป็นเรื่องปกติ ดูที่นี่ยกตัวอย่างเช่น อย่างไรก็ตามมีการทดลองหลายครั้งด้วยตัวอย่างเล็ก ๆ (3-10 ตัวอย่างต่อกลุ่ม) สำหรับเหตุผลเชิงปฏิบัติ / จริยธรรม นี่เป็นเรื่องธรรมดามากในการวิจัยพรีคลินิกโดยใช้สัตว์และเซลล์เพาะเลี้ยงและนักวิจัยมักรายงานค่า p เพื่อสนับสนุนข้อสรุปของพวกเขา

สิ่งนี้ทำให้ฉันสงสัยว่าการสุ่มตัวอย่างทำได้ดีเพียงใดในการสร้างสมดุลให้กับขอบเขต สำหรับพล็อตนี้ฉันจำลองสถานการณ์เปรียบเทียบกลุ่มการรักษาและกลุ่มควบคุมด้วยความสับสนที่สามารถรับสองค่าด้วยโอกาส 50/50 (เช่น type1 / type2, ชาย / หญิง) มันแสดงให้เห็นการกระจายตัวของ "% ไม่สมดุล" (ความแตกต่างใน # ของ type1 ระหว่างการรักษาและตัวอย่างการควบคุมหารด้วยขนาดตัวอย่าง) สำหรับการศึกษาความหลากหลายของตัวอย่างขนาดเล็ก เส้นสีแดงและแกนด้านขวาแสดง ecdf

ความน่าจะเป็นขององศาสมดุลต่างๆภายใต้การสุ่มตัวอย่างสำหรับตัวอย่างขนาดเล็ก: ป้อนคำอธิบายรูปภาพที่นี่

มีสองสิ่งที่ชัดเจนจากพล็อตนี้ (ยกเว้นกรณีที่ฉันทำบางอย่างผิดพลาด)

1) ความน่าจะเป็นที่จะได้รับตัวอย่างที่สมดุลลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น

2) ความน่าจะเป็นที่จะได้รับตัวอย่างที่ไม่สมดุลลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น

3) ในกรณีของ n = 3 สำหรับทั้งสองกลุ่มมีโอกาส 3% ที่จะได้รับกลุ่มที่ไม่สมดุลอย่างสมบูรณ์ (type1 ทั้งหมดในการควบคุม, type2 ทั้งหมดในการรักษา) N = 3 เป็นเรื่องปกติสำหรับการทดลองทางอณูชีววิทยา (เช่นวัด mRNA ด้วย PCR หรือโปรตีนที่มี Western blot)

เมื่อฉันตรวจสอบอีกกรณี n = 3 ฉันสังเกตเห็นพฤติกรรมที่แปลกประหลาดของค่า p ภายใต้เงื่อนไขเหล่านี้ ด้านซ้ายแสดงการกระจายโดยรวมของ pvalues ​​ที่คำนวณโดยใช้การทดสอบ t ภายใต้เงื่อนไขของวิธีการที่แตกต่างกันสำหรับกลุ่มย่อย type2 ค่าเฉลี่ยสำหรับ type1 คือ 0 และ sd = 1 สำหรับทั้งสองกลุ่ม แผงด้านขวาแสดงอัตราบวกที่ผิดพลาดที่สอดคล้องกันสำหรับ "การตัดนัยสำคัญ" เล็กน้อยจาก. 05 ถึง.0001

การกระจายของค่า p สำหรับ n = 3 ด้วยสองกลุ่มย่อยและวิธีที่แตกต่างของกลุ่มย่อยที่สองเมื่อเปรียบเทียบกับการทดสอบ t (10,000 monte carlo ทำงาน): ป้อนคำอธิบายรูปภาพที่นี่

นี่คือผลลัพธ์สำหรับ n = 4 สำหรับทั้งสองกลุ่ม: ป้อนคำอธิบายรูปภาพที่นี่

สำหรับ n = 5 สำหรับทั้งสองกลุ่ม: ป้อนคำอธิบายรูปภาพที่นี่

สำหรับ n = 10 สำหรับทั้งสองกลุ่ม: ป้อนคำอธิบายรูปภาพที่นี่

ดังที่เห็นได้จากแผนภูมิด้านบนดูเหมือนว่าจะมีปฏิสัมพันธ์ระหว่างขนาดกลุ่มตัวอย่างและความแตกต่างระหว่างกลุ่มย่อยที่ส่งผลให้เกิดการแจกแจงค่า p ต่าง ๆ ภายใต้สมมติฐานว่างที่ไม่เหมือนกัน

ดังนั้นเราสามารถสรุปได้ว่าค่า p ไม่น่าเชื่อถือสำหรับการทดลองแบบสุ่มและควบคุมอย่างถูกต้องด้วยตัวอย่างขนาดเล็ก?

รหัส R สำหรับพล็อตแรก

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

รหัส R สำหรับแปลง 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

ฉันพบคำอธิบายของคุณเกี่ยวกับเงื่อนไขและปัญหาเล็กน้อยที่เข้าใจยากในตอนแรก Type I และ type II เป็นคำศัพท์ทางเทคนิคที่แตกต่างจากการใช้งาน type1 subgroup และ type2 subgroup เท่าที่ฉันสามารถบอกได้ว่าคุณกำลังใช้การทดสอบ t กับข้อมูลจากการแจกจ่ายด้วยวิธีการผสม นั่นถูกต้องใช่ไหม?
Michael Lew

ใช่มีการแจกแจงปกติสองแบบ "type1" หมายถึง N (0,1), type2 คือ N (mean2,1) โดยที่ mean2 = (2,3,10 หรือ 100) ขออภัยฉันสามารถเปลี่ยนเป็น typeA, typeB หากคุณคิดว่าจะช่วยได้?
ขวด

คำตอบ:


4

คุณถูกต้องเพื่อชี้ให้เห็นข้อ จำกัด ของการสุ่มในการจัดการกับตัวแปรรบกวนที่ไม่รู้จักสำหรับตัวอย่างที่มีขนาดเล็กมาก อย่างไรก็ตามปัญหาไม่ได้อยู่ที่ค่า P- ไม่น่าเชื่อถือ แต่ความหมายของพวกเขาแตกต่างกันไปตามขนาดตัวอย่างและความสัมพันธ์ระหว่างสมมติฐานของวิธีการและคุณสมบัติที่แท้จริงของประชากร

สิ่งที่ฉันใช้กับผลลัพธ์ของคุณคือค่า P ทำงานได้ค่อนข้างดีจนกระทั่งความแตกต่างในค่าเฉลี่ยของกลุ่มย่อยนั้นใหญ่มากจนผู้ทดลองที่มีสติสัมปชัญญะจะรู้ว่ามีปัญหาก่อนทำการทดลอง

แนวคิดที่ว่าสามารถทำการทดลองและวิเคราะห์ได้โดยไม่ต้องอ้างอิงถึงความเข้าใจที่ถูกต้องเกี่ยวกับธรรมชาติของข้อมูลที่ผิดพลาด ก่อนที่จะวิเคราะห์ชุดข้อมูลขนาดเล็กคุณต้องรู้ข้อมูลเกี่ยวกับข้อมูลอย่างเพียงพอเพื่อให้สามารถปกป้องสมมติฐานได้อย่างมั่นใจในการวิเคราะห์ ความรู้ดังกล่าวมักมาจากการศึกษาก่อนหน้านี้โดยใช้ระบบเดียวกันหรือคล้ายกันการศึกษาที่สามารถเผยแพร่ผลงานอย่างเป็นทางการหรือการทดลอง 'เบื้องต้น' ไม่เป็นทางการ


ฉันเห็นด้วยกับสิ่งที่คุณพูด แต่การทดสอบ t มักจะทำ "พิธีกรรม" เป็น Gerd Gigerenzer จะใส่มัน ในทางปฏิบัติผู้คนที่ทำการทดสอบเหล่านี้ไม่มีเวลา / ความโน้มเอียงที่จะเข้าใจความแตกต่างของสิ่งที่พวกเขากำลังทำ ด้วยเหตุนี้ฉันจึงคิดว่าคำคุณศัพท์ "ไม่น่าเชื่อถือ" อาจจะเหมาะสม ฉันรู้ว่านักวิจัยที่เมื่อคุณถามเกี่ยวกับการกระจาย (มีสูงหนึ่งหรือสิ่งที่ทำให้แถบข้อผิดพลาดที่ใหญ่?) ไม่เคยดู
ขวด

1
ทีนี้ค่า P 'ค่าเฉลี่ย' จริงๆแล้วค่อนข้างแตกต่างจากที่คนส่วนใหญ่คิด แม้แต่เอกสารจำนวนมากที่วิพากษ์วิจารณ์ค่านิยม P ว่า 'ไม่สามารถปรองดองกันได้กับหลักฐาน' และสิ่งที่คล้ายกันก็เข้าใจผิด ฉันอัปโหลดกระดาษไปยัง arXiv เมื่อวานนี้เพื่อตรวจสอบคุณสมบัติของค่า P และแสดงให้เห็นว่าเกี่ยวข้องกับประเภทของหลักฐานที่ผู้ทดสอบสามารถใช้ได้อย่างไร ชื่อของมันคือ 'ถึง P หรือไม่ถึง P: ในลักษณะที่เป็นหลักฐานของค่า P และสถานที่ของพวกเขาในการอนุมานทางวิทยาศาสตร์' และหมายเลขส่ง arXiv ของมันคือ 826269 มันควรจะใช้ได้ตั้งแต่วันจันทร์
Michael Lew

คุณลองดูคำถามนี้ที่ไม่มีความรักด้วยเหตุผลใดบ้าง . ฉันยอมรับว่าค่า p เป็นบางสิ่งและกระดาษของคุณอาจช่วยอธิบายได้ แต่ในฐานะนักวิจัยฉันต้องทำให้ชัดเจนว่ารองเท้าบู๊ตบนพื้นดินคือพวกเขาทำให้เราล้มเหลว เนื่องจากการใช้งานในทางที่ผิดหรือความไม่เหมาะสมนี้ไม่ชัดเจน ฉันได้ถามคำถามหลายข้อที่นี่เพื่อพยายามทำให้นักสถิติเห็นด้วย
ขวด

2

ในการวิจัยทางนิเวศวิทยาการมอบหมายการรักษาแบบไม่สุ่มให้กับหน่วยทดลอง (อาสาสมัคร) เป็นการปฏิบัติมาตรฐานเมื่อขนาดตัวอย่างมีขนาดเล็กและมีหลักฐานของตัวแปรรบกวนหนึ่งตัวหรือมากกว่า การมอบหมายแบบ nonrandom นี้ "intersperses" ตัวแบบข้ามสเปกตรัมของตัวแปรที่อาจทำให้สับสนซึ่งเป็นสิ่งที่การมอบหมายแบบสุ่มควรจะทำ แต่ในกลุ่มตัวอย่างขนาดเล็กการสุ่มมีแนวโน้มที่จะทำงานได้ไม่ดีในที่นี้ (ดังที่แสดงไว้ด้านบน) และดังนั้นจึงเป็นความคิดที่ดีที่จะพึ่งพา

เนื่องจากการสุ่มมีการสนับสนุนอย่างมากในสาขาส่วนใหญ่ (และโดยชอบธรรม) ดังนั้นจึงเป็นเรื่องง่ายที่จะลืมว่าเป้าหมายสุดท้ายคือการลดอคติแทนที่จะไปตามการสุ่มอย่างเข้มงวด อย่างไรก็ตามมันเป็นหน้าที่ของนักวิจัย (s) ที่จะอธิบายลักษณะของตัวแปรรบกวนได้อย่างมีประสิทธิภาพและดำเนินการมอบหมายแบบไม่สุ่มในวิธีที่ป้องกันได้ซึ่งเป็นผลการทดลองและใช้ประโยชน์จากข้อมูลและบริบทที่มีอยู่ทั้งหมด

สำหรับบทสรุปดู pp. 192-198 ในHurlbert, Stuart H. 1984 Pseudoreplication และการออกแบบการทดลองภาคสนาม เอกสารเชิงนิเวศวิทยา 54 (2) pp.187-211


ฉันสนุกกับการอ่านสิ่งนี้ แต่กังวลว่าการใช้ "อคติ" ของคุณในย่อหน้าสุดท้ายอาจผิดเนื่องจากคำนั้นมีความหมายทางสถิติเฉพาะซึ่งจะทำให้ข้อความของคุณไม่ถูกต้อง คุณไม่ได้พยายามที่จะพูดว่าการสุ่มมีจุดมุ่งหมายเพื่อป้องกันการรบกวน (รูปแบบของ "อคติ" ในแง่ภาษาพูด) แทนที่จะลดอคติ (เป็นตัวชี้วัดความไม่ถูกต้องของการประมาณ)?
whuber

ฉันหมายถึงอคติในแง่สถิติ ในสถิติ“ อคติ” คือความแตกต่างระหว่างสถิติและพารามิเตอร์ที่ประเมิน ดังที่คุณกล่าวถึงความเอนเอียงของตัวประมาณความแตกต่างระหว่างค่าที่คาดไว้ของตัวประมาณกับค่าที่แท้จริงของพารามิเตอร์ที่กำลังประมาณ ในโพสต์ของฉันโดย“ อคติ” ฉันอ้างถึงความแตกต่างระหว่างสถิติที่คำนวณจากข้อมูลและพารามิเตอร์ที่พวกเขาประมาณตัวอย่างเช่นระหว่างค่าเฉลี่ยตัวอย่าง (x bar) และค่าเฉลี่ยจริง (mu)
Darren James

เท่าที่ฉันทราบการสุ่มตัวอย่างแบบสุ่มไม่ได้ถูกใช้เพื่อลดอคติและในหลาย ๆ กรณีก็สามารถอ้างสิทธิ์ได้อย่างถูกต้องว่าจะลดอคติ
whuber

คุณเข้าใจผิด เป้าหมายหลักของการสุ่มคือการจำลองผลกระทบของความเป็นอิสระ ทำได้โดยกำจัดอคติที่เกิดขึ้นผ่านการมอบหมายการรักษาอย่างเป็นระบบให้กับอาสาสมัคร อคติเหล่านี้สร้างการประมาณที่ไม่ถูกต้องซึ่งสำคัญที่สุดคือการประมาณค่าความแปรปรวนแบบเอนเอียงและการสูญเสียการควบคุมข้อผิดพลาดประเภท I และ II แม้แต่ตัวแปรที่ทำให้สับสน (ซึ่งจริงๆแล้วเป็นจำนวนที่ขาดความเป็นอิสระ) เป็นเพียงแค่กรณีของการละเว้นอคติของตัวแปร แต่คุณไม่จำเป็นต้องใช้คำของฉันนี้ ... หากคุณมีความมั่นใจโดยกระดาษ Hurlburt ข้างต้นนี่คือบางแหล่งข้อมูลอื่น ๆ เพื่อให้คำปรึกษา:
คาร์เรนเจมส์

Cochran, WG และ GM Cox 1957. การออกแบบการทดลอง นิวยอร์ก: ไวลีย์ เฟเดอเรอร์ WT 2498 การออกแบบการทดลอง นิวยอร์ก: มักมิลลัน Hinkelmann, K. , และ Kempthorne, O. 1994. การออกแบบและวิเคราะห์การทดลอง ไวลีย์: นิวยอร์ก Kuehl, RO 2000. การออกแบบการทดลอง: หลักการทางสถิติของการออกแบบการวิจัยและการวิเคราะห์ เบลมอนต์แคลิฟอร์เนีย: บรูคส์ / โคล
Darren James
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.