ในการทดสอบที่แม่นยำของฟิชเชอร์: การทดสอบใดที่เหมาะสมถ้าผู้หญิงไม่ทราบจำนวนถ้วยแรกของนม?


18

ในการทดลองชิมชาของผู้หญิงที่มีชื่อเสียงโดย RA Fisher ผู้หญิงคนนั้นได้รับแจ้งว่ามีนมถ้วยแรก / ถ้วยชาครั้งแรกกี่ตัว (4 ถ้วยต่อ 8 ถ้วย) สิ่งนี้จะเป็นการเคารพสมมติฐานทั้งหมดของการทดสอบที่แน่นอนของ Fisher

ฉันคิดว่าจะทำแบบทดสอบนี้กับเพื่อนของฉัน แต่ความคิดนั้นทำให้ฉัน ถ้าผู้หญิงสามารถบอกความแตกต่างระหว่างนมคนแรกกับถ้วยชาครั้งแรกได้เธอก็ควรจะสามารถหาผลรวมทั้งหมดของถ้วยนมถ้วยแรกและถ้วยแรกได้เช่นกัน

ดังนั้นนี่คือคำถาม: การทดสอบใดที่สามารถนำมาใช้ถ้า RA Fisher ไม่ได้แจ้งให้ผู้หญิงทราบถึงจำนวนถ้วยแรกและถ้วยแรก


4
บางคนอาจโต้แย้งว่าแม้ว่าระยะขอบที่สองจะไม่ได้รับการแก้ไขโดยการออกแบบ แต่ก็มีข้อมูลเพียงเล็กน้อยเกี่ยวกับความสามารถของสุภาพสตรีในการแยกแยะ (เช่นมันประมาณเสริม) และควรจะมีเงื่อนไข การทดสอบที่ไม่มีเงื่อนไขที่แน่นอน (ที่เสนอครั้งแรกโดยบาร์นาร์ดฉันคิดว่า) มีความซับซ้อนมากขึ้นเนื่องจากคุณต้องคำนวณค่า p-max สูงสุดเหนือค่าที่เป็นไปได้ทั้งหมดของพารามิเตอร์ที่สร้างความรำคาญ
Scortchi - Reinstate Monica

4
ในความเป็นจริงการทดสอบของ Barnardมีหน้า Wikipedia
Scortchi - Reinstate Monica

@Scortchi มีอะไรมากกว่าที่จะพูด? ฉันจะไม่เพิ่มอะไรเลย (และฉันจะไม่พูดอย่างชัดเจนและรัดกุม) จากความคิดเห็นทั้งสองของคุณฉันคิดว่าคุณมีคำตอบที่ดี
Glen_b

1
มีการอภิปรายบางอย่างที่ควรค่าแก่การดู (ในทั้งกระดาษและกระดานสนทนา) ใน Yates, F. (1984) "การทดสอบความสำคัญสำหรับตารางฉุกเฉิน 2 × 2", วารสารสมาคมสถิติแห่งราชอาณาจักร ซีรี่ส์ A (ทั่วไป) , Vol. 147, ลำดับที่ 3, หน้า 426-463
Glen_b -Reinstate Monica

1
121212

คำตอบ:


16

บางคนอาจโต้แย้งว่าแม้ว่าระยะขอบที่สองจะไม่ได้รับการแก้ไขโดยการออกแบบ แต่ก็มีข้อมูลเพียงเล็กน้อยเกี่ยวกับความสามารถของสุภาพสตรีในการแยกแยะ (เช่นมันประมาณเสริม) และควรจะมีเงื่อนไข การทดสอบที่ไม่มีเงื่อนไขที่แน่นอน (ที่เสนอครั้งแรกโดยบาร์นาร์ด ) มีความซับซ้อนมากขึ้นเนื่องจากคุณต้องคำนวณค่า p-value สูงสุดเหนือค่าที่เป็นไปได้ทั้งหมดของพารามิเตอร์ที่สร้างความรำคาญ ได้แก่ ความน่าจะเป็นของเบอร์นูลี่ทั่วไปภายใต้สมมติฐานว่าง เมื่อเร็ว ๆ นี้การเพิ่มค่า p-value ในช่วงความเชื่อมั่นสำหรับพารามิเตอร์สร้างความรำคาญ: ดู Berger (1996), "การทดสอบที่มีประสิทธิภาพยิ่งขึ้นจากค่าช่วงความเชื่อมั่น p", สถิติอเมริกัน , 50 , 4; การทดสอบที่แน่นอนที่มีขนาดที่ถูกต้องสามารถสร้างได้โดยใช้แนวคิดนี้

การทดสอบที่แน่นอนของชาวประมงเกิดขึ้นในขณะที่การทดสอบแบบสุ่มในแง่ของ Edgington: การมอบหมายการทดลองแบบสุ่มช่วยให้การกระจายตัวของสถิติการทดสอบมากกว่าการเรียงสับเปลี่ยนของการมอบหมายเหล่านี้จะใช้ในการทดสอบสมมติฐานว่าง ในวิธีการนี้ความมุ่งมั่นของสุภาพสตรีได้รับการพิจารณาว่าคงที่ (& ผลรวมทั้งหมดของนมแรกและถ้วยชาครั้งแรกเป็นหลักสูตรที่เก็บรักษาไว้โดยการเปลี่ยนแปลง)


สามารถBarnard::barnardw.test()ใช้ที่นี่ได้หรือไม่ ความคาดหวังในทางปฏิบัติของความซับซ้อนในการคำนวณแตกต่างกันอย่างไร?
krlmlr

ฉันไม่คุ้นเคยกับแพคเกจนั้น แต่หน้าความช่วยเหลือที่คุณเชื่อมโยงไปยังการอ้างอิงที่แน่นอนว่าเป็นการทดสอบที่ฉันพูดถึง Exactดูเพิ่มเติม สำหรับความซับซ้อนในการคำนวณผมไม่รู้ - มันขึ้นอยู่กับอัลกอริธึมการเพิ่มประสิทธิภาพสูงสุดที่ใช้
Scortchi - Reinstate Monica

2

วันนี้ฉันอ่านบทแรกของ "การออกแบบการทดลอง" โดย RA Fisher และหนึ่งในย่อหน้าทำให้ฉันตระหนักถึงข้อบกพร่องพื้นฐานในคำถามของฉัน

นั่นคือแม้ว่าผู้หญิงจะสามารถบอกความแตกต่างระหว่างนมคนแรกกับถ้วยชาครั้งแรกได้ฉันก็ทำได้ไม่พิสูจน์ได้ว่าเธอมีความสามารถนั้น "ด้วยการทดลองจำนวน จำกัด " ด้วยเหตุผลนี้ในฐานะผู้ทดลองฉันควรเริ่มต้นด้วยสมมติฐานที่ว่าเธอไม่มีความสามารถ (สมมุติฐานว่าง) และพยายามปฏิเสธสิ่งนั้น และการออกแบบการทดลองดั้งเดิม (การทดสอบที่แม่นยำแบบฟิชเชอร์) นั้นเป็นกระบวนการที่มีประสิทธิภาพเพียงพอและสมเหตุสมผล

นี่คือข้อความที่ตัดตอนมาจาก "การออกแบบการทดลอง" โดย RA Fisher:

อาจเป็นที่ถกเถียงกันอยู่ว่าถ้าการทดลองสามารถพิสูจน์สมมติฐานที่ว่าผู้ทดสอบไม่มีการเลือกปฏิบัติทางประสาทสัมผัสระหว่างวัตถุสองประเภทที่แตกต่างกันดังนั้นจึงต้องสามารถพิสูจน์สมมติฐานที่ตรงกันข้ามได้ว่าเธอสามารถทำการแยกแยะได้ แต่สมมติฐานสุดท้ายนี้อย่างไรก็ตามอาจสมเหตุสมผลหรือจริงอาจไม่มีคุณสมบัติเป็นสมมติฐานว่างที่จะทดสอบโดยการทดลองเพราะมันไม่แน่นอน ถ้ามันถูกกล่าวหาว่าเรื่องจะไม่ผิดในการตัดสินของเราเรามีสมมติฐานที่แน่นอนอีกครั้งและมันก็เป็นเรื่องง่ายที่จะเห็นว่าสมมติฐานนี้จะพิสูจน์หักล้างจากความล้มเหลวเพียงครั้งเดียว แต่ไม่สามารถพิสูจน์ได้ด้วยการทดลองจำนวน จำกัด .


1

การทดสอบของบาร์นาร์ดจะใช้เมื่อไม่ทราบพารามิเตอร์ความรำคาญภายใต้สมมติฐานว่าง

อย่างไรก็ตามในการทดสอบการชิมเลดี้คุณสามารถยืนยันได้ว่าพารามิเตอร์ความรำคาญสามารถตั้งค่าที่ 0.5 ภายใต้สมมติฐานว่าง (ผู้หญิงที่ไม่มีข้อมูลมีความน่าจะเป็น 50% ในการเดาถ้วยอย่างถูกต้อง)

จากนั้นจำนวนการเดาที่ถูกต้องภายใต้สมมติฐานว่างจะกลายเป็นการแจกแจงแบบทวินาม: การเดา 8 ถ้วยด้วยความน่าจะเป็น 50% สำหรับแต่ละถ้วย


ในโอกาสอื่นคุณอาจไม่มีความน่าจะเป็น 50% เล็กน้อยสำหรับสมมติฐานว่าง และถ้าไม่มีระยะขอบคงที่คุณอาจไม่รู้ว่าความน่าจะเป็นนั้นควรเป็นเท่าไหร่ ในกรณีนี้คุณต้องผ่านการทดสอบของบาร์นาร์ด


แม้ว่าคุณจะทำการทดสอบของบาร์นาร์ดในการทดสอบชาชิมเลดี้ก็จะกลายเป็น 50% ต่อไป (หากผลที่ได้คือการคาดเดาที่ถูกต้องทั้งหมด) เนื่องจากพารามิเตอร์ความรำคาญที่มีค่า p สูงที่สุดคือ 0.5 และจะส่งผลการทดสอบทวินาม อันที่จริงแล้วเป็นการรวมกันของการทดสอบสองทวินามหนึ่งสำหรับสี่ถ้วยแรกนมและหนึ่งสำหรับสี่ถ้วยแรกถ้วยชา)

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

ด้านล่างเป็นวิธีการที่จะให้ผลลัพธ์ที่ซับซ้อนมากขึ้น (หากไม่เดาทั้งหมดว่าถูกต้องเช่น 2 ต่อ 4) จากนั้นการนับสิ่งที่เป็นและสิ่งที่ไม่รุนแรงกลายเป็นเรื่องยากขึ้นเล็กน้อย

(โปรดทราบว่าการทดสอบของบาร์นาร์ดใช้ในกรณีของ 4-2 ส่งผลให้พารามิเตอร์ที่สร้างความรำคาญ p = 0.686 ซึ่งคุณอาจโต้แย้งไม่ถูกต้องค่า p สำหรับค่าความน่าจะเป็น 50% ของการตอบรับ 'tea first' จะเท่ากับ 0.08203125 สิ่งนี้จะยิ่งเล็กลงเมื่อคุณพิจารณาภูมิภาคอื่นแทนที่จะเป็นภูมิภาคที่อิงจากสถิติของ Wald แม้ว่าการกำหนดภูมิภาคนั้นไม่ใช่เรื่องง่าย )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.