การทดสอบ A / B ที่เพียงทดสอบซ้ำ ๆ บนข้อมูลเดียวกันกับข้อผิดพลาด type-1 ระดับคงที่ ( ) นั้นมีข้อบกพร่องพื้นฐาน มีอย่างน้อยสองเหตุผลว่าทำไมจึงเป็นเช่นนี้ ก่อนการทดสอบซ้ำมีความสัมพันธ์ แต่การทดสอบจะดำเนินการอย่างอิสระ ประการที่สองค่าคงที่αไม่ได้พิจารณาถึงการทดสอบที่ดำเนินการคูณซึ่งนำไปสู่ภาวะเงินเฟ้อผิดพลาดประเภท 1αα
หากต้องการดูครั้งแรกสมมติว่าในการสังเกตใหม่แต่ละครั้งคุณจะทำการทดสอบใหม่ เห็นได้ชัดว่าค่า p ที่ตามมาสองค่าใด ๆ จะมีความสัมพันธ์กันเนื่องจากรายไม่มีการเปลี่ยนแปลงระหว่างการทดสอบสองครั้ง ดังนั้นเราจึงเห็นแนวโน้มในพล็อตของ @ Bernhard ที่แสดงให้เห็นถึงความสัมพันธ์ของค่า pn - 1
หากต้องการดูครั้งที่สองเราทราบว่าแม้ว่าการทดสอบจะขึ้นอยู่กับความน่าจะเป็นที่จะมีค่า p ต่ำกว่าเพิ่มขึ้นตามจำนวนการทดสอบt P ( A ) = 1 - ( 1 - α ) tโดยที่Aเป็นเหตุการณ์ สมมุติฐานว่างที่ปฏิเสธอย่างไม่ถูกต้อง ดังนั้นความน่าจะเป็นที่จะมีผลการทดสอบอย่างน้อยหนึ่งอย่างเทียบกับ1αเสื้อ
P( A ) = 1 - ( 1 - α )เสื้อ,
A1ตามที่คุณทดสอบ a / b ซ้ำ ๆ หากคุณเพียงแค่หยุดหลังจากผลบวกแรกคุณจะได้แสดงความถูกต้องของสูตรนี้เท่านั้น พูดให้แตกต่างแม้ว่าสมมติฐานว่างจะเป็นจริงคุณจะปฏิเสธมันในที่สุด การทดสอบ a / b จึงเป็นวิธีที่ดีที่สุดในการค้นหาเอฟเฟกต์ที่ไม่มี
เนื่องจากในสถานการณ์เช่นนี้ทั้ง correlatedness และหลายระงับการทดสอบในเวลาเดียวกัน, p-value ของการทดสอบขึ้นอยู่กับ p-value ของเสื้อ ดังนั้นหากในที่สุดคุณถึงp < αคุณมีแนวโน้มที่จะอยู่ในภูมิภาคนี้ชั่วระยะเวลาหนึ่ง คุณสามารถเห็นสิ่งนี้ในพล็อตของ @ Bernhard ในภูมิภาคที่มี 2,500 ถึง 3,500 และ 4,000 ถึง 5,000t + 1เสื้อp < α
การทดสอบหลายรายการนั้นถูกต้องตามกฎหมาย แต่การทดสอบกับคงที่นั้นไม่ใช่ มีขั้นตอนมากมายที่เกี่ยวข้องกับทั้งกระบวนการทดสอบหลายรายการและการทดสอบที่สัมพันธ์กัน การแก้ไขการทดสอบตระกูลหนึ่งเรียกว่าการควบคุมอัตราความผิดพลาดอย่างชาญฉลาด สิ่งที่พวกเขาทำคือเพื่อให้มั่นใจว่าP ( ) ≤ อัลฟ่าα
P( ) ≤ อัลฟ่า
การปรับที่มีชื่อเสียงที่สุดในเนื้อหา (เนื่องจากความเรียบง่าย) คือ Bonferroni ที่นี่เราตั้งซึ่งมันสามารถแสดงให้เห็นได้อย่างง่ายดายว่าP ( ) ≈ αถ้าจำนวนของการทดสอบอิสระที่มีขนาดใหญ่ หากการทดสอบมีความสัมพันธ์ก็มีโอกาสที่จะอนุรักษ์, P ( ) < α ดังนั้นการปรับที่ง่ายที่สุดที่คุณสามารถทำได้คือการหารระดับอัลฟ่าของคุณที่0.05ด้วยจำนวนการทดสอบที่คุณได้ทำไปแล้ว
αdJ= α / T ,
P( ) ≈ อัลฟ่าP( A ) < α0.05
( 0 , 0.1 )α = 0.05
เนื่องจากเราสามารถเห็นการปรับที่มีประสิทธิภาพมากและแสดงให้เห็นว่าเราต้องเปลี่ยนค่า p เพื่อควบคุมอัตราความผิดพลาดที่ฉลาด โดยเฉพาะตอนนี้เราไม่พบการทดสอบที่สำคัญอีกต่อไปตามที่ควรจะเป็นเพราะสมมติฐานว่างของ @ Berhard นั้นเป็นจริง
P( ) ≈ อัลฟ่า
นี่คือรหัส:
set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)
p.values <- numeric(n)
for (i in 5:n){
p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")