ทำไมการหยุดการทดสอบ A / B ก่อนที่จะถึงขนาดตัวอย่างที่ดีที่สุด


13

ฉันรับผิดชอบในการนำเสนอผลการทดสอบ A / B (ทำงานกับรูปแบบของเว็บไซต์) ที่ บริษัท ของฉัน เราใช้ทดสอบเป็นเวลาหนึ่งเดือนแล้วตรวจสอบค่า P-ในช่วงเวลาปกติจนกว่าจะถึงอย่างมีนัยสำคัญ (หรือละทิ้งความสำคัญถ้าไม่ถึงหลังจากใช้ทดสอบเป็นเวลานาน) บางสิ่งบางอย่างตอนนี้ผมกำลังหาออกเป็นปฏิบัติเข้าใจผิด

ฉันต้องการที่จะหยุดการปฏิบัตินี้ในขณะนี้ แต่การทำเช่นนั้นฉันต้องการที่จะเข้าใจว่าทำไมมันผิด ฉันเข้าใจว่าขนาดของเอฟเฟกต์ขนาดตัวอย่าง (N) เกณฑ์นัยสำคัญของอัลฟา (α) และกำลังทางสถิติหรือเบต้าที่เลือกหรือโดยนัย (β) มีความสัมพันธ์ทางคณิตศาสตร์ แต่สิ่งที่เปลี่ยนแปลงเมื่อเราหยุดการทดสอบของเราก่อนที่เราจะถึงขนาดตัวอย่างที่ต้องการ?

ฉันได้อ่านโพสต์ไม่กี่ที่นี่ (คือนี้ , นี้และนี้ ) และพวกเขาบอกฉันว่าประมาณการของฉันจะลำเอียงและอัตราการของฉันประเภทที่ 1 การเพิ่มขึ้นของข้อผิดพลาดอย่างมาก แต่มันเกิดขึ้นได้อย่างไร? ฉันกำลังมองหาคำอธิบายทางคณิตศาสตร์บางอย่างที่จะแสดงผลของขนาดตัวอย่างต่อผลลัพธ์อย่างชัดเจน ฉันเดาว่ามันมีบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างปัจจัยที่ฉันกล่าวถึงข้างต้น แต่ฉันไม่สามารถค้นหาสูตรที่แน่นอนและทำงานออกมาได้ด้วยตัวเอง

สำหรับตัวอย่างเช่นการหยุดการทดสอบจะเพิ่มอัตราความผิดพลาด Type 1 ก่อนกำหนด Alright แต่ทำไม เกิดอะไรขึ้นเพื่อเพิ่มอัตราข้อผิดพลาดประเภท 1 ฉันขาดสัญชาตญาณตรงนี้

ช่วยด้วย.


1
อาจมีประโยชน์evanmiller.org/how-not-to-run-an-ab-test.html
seanv507

1
ใช่ฉันไปที่ลิงค์นี้ แต่ฉันไม่เข้าใจตัวอย่างที่ให้มา
sgk

ขอโทษ Gopalakrishnan - ไม่เห็นว่าลิงค์แรกของคุณชี้ไปที่แล้ว
seanv507

1
คุณช่วยอธิบายสิ่งที่คุณไม่เข้าใจได้ไหม คณิตศาสตร์ / สัญชาตญาณค่อนข้างชัดเจน: มันไม่หยุดก่อนขนาดตัวอย่างที่ต้องการ แต่ตรวจสอบซ้ำ ๆ ดังนั้นคุณจึงไม่สามารถใช้การทดสอบที่ออกแบบมาสำหรับการตรวจสอบครั้งเดียวหลายครั้ง P(i1Nxi>θ)P(xN>θ)
seanv507

คำอธิบายทางคณิตศาสตร์ @GopalakrishnanShanker ได้รับในคำตอบของฉัน
Tomka

คำตอบ:


4

การทดสอบ A / B ที่เพียงทดสอบซ้ำ ๆ บนข้อมูลเดียวกันกับข้อผิดพลาด type-1 ระดับคงที่ ( ) นั้นมีข้อบกพร่องพื้นฐาน มีอย่างน้อยสองเหตุผลว่าทำไมจึงเป็นเช่นนี้ ก่อนการทดสอบซ้ำมีความสัมพันธ์ แต่การทดสอบจะดำเนินการอย่างอิสระ ประการที่สองค่าคงที่αไม่ได้พิจารณาถึงการทดสอบที่ดำเนินการคูณซึ่งนำไปสู่ภาวะเงินเฟ้อผิดพลาดประเภท 1αα

หากต้องการดูครั้งแรกสมมติว่าในการสังเกตใหม่แต่ละครั้งคุณจะทำการทดสอบใหม่ เห็นได้ชัดว่าค่า p ที่ตามมาสองค่าใด ๆ จะมีความสัมพันธ์กันเนื่องจากรายไม่มีการเปลี่ยนแปลงระหว่างการทดสอบสองครั้ง ดังนั้นเราจึงเห็นแนวโน้มในพล็อตของ @ Bernhard ที่แสดงให้เห็นถึงความสัมพันธ์ของค่า pn1

หากต้องการดูครั้งที่สองเราทราบว่าแม้ว่าการทดสอบจะขึ้นอยู่กับความน่าจะเป็นที่จะมีค่า p ต่ำกว่าเพิ่มขึ้นตามจำนวนการทดสอบt P ( A ) = 1 - ( 1 - α ) tโดยที่Aเป็นเหตุการณ์ สมมุติฐานว่างที่ปฏิเสธอย่างไม่ถูกต้อง ดังนั้นความน่าจะเป็นที่จะมีผลการทดสอบอย่างน้อยหนึ่งอย่างเทียบกับ1αt

P(A)=1(1α)t,
A1ตามที่คุณทดสอบ a / b ซ้ำ ๆ หากคุณเพียงแค่หยุดหลังจากผลบวกแรกคุณจะได้แสดงความถูกต้องของสูตรนี้เท่านั้น พูดให้แตกต่างแม้ว่าสมมติฐานว่างจะเป็นจริงคุณจะปฏิเสธมันในที่สุด การทดสอบ a / b จึงเป็นวิธีที่ดีที่สุดในการค้นหาเอฟเฟกต์ที่ไม่มี

เนื่องจากในสถานการณ์เช่นนี้ทั้ง correlatedness และหลายระงับการทดสอบในเวลาเดียวกัน, p-value ของการทดสอบขึ้นอยู่กับ p-value ของเสื้อ ดังนั้นหากในที่สุดคุณถึงp < αคุณมีแนวโน้มที่จะอยู่ในภูมิภาคนี้ชั่วระยะเวลาหนึ่ง คุณสามารถเห็นสิ่งนี้ในพล็อตของ @ Bernhard ในภูมิภาคที่มี 2,500 ถึง 3,500 และ 4,000 ถึง 5,000t+1tp<α

การทดสอบหลายรายการนั้นถูกต้องตามกฎหมาย แต่การทดสอบกับคงที่นั้นไม่ใช่ มีขั้นตอนมากมายที่เกี่ยวข้องกับทั้งกระบวนการทดสอบหลายรายการและการทดสอบที่สัมพันธ์กัน การแก้ไขการทดสอบตระกูลหนึ่งเรียกว่าการควบคุมอัตราความผิดพลาดอย่างชาญฉลาด สิ่งที่พวกเขาทำคือเพื่อให้มั่นใจว่าP ( ) อัลฟ่าα

P(A)α.

การปรับที่มีชื่อเสียงที่สุดในเนื้อหา (เนื่องจากความเรียบง่าย) คือ Bonferroni ที่นี่เราตั้งซึ่งมันสามารถแสดงให้เห็นได้อย่างง่ายดายว่าP ( ) αถ้าจำนวนของการทดสอบอิสระที่มีขนาดใหญ่ หากการทดสอบมีความสัมพันธ์ก็มีโอกาสที่จะอนุรักษ์, P ( ) < α ดังนั้นการปรับที่ง่ายที่สุดที่คุณสามารถทำได้คือการหารระดับอัลฟ่าของคุณที่0.05ด้วยจำนวนการทดสอบที่คุณได้ทำไปแล้ว

αadj=α/t,
P(A)αP(A)<α0.05

(0,0.1)α=0.05

ป้อนคำอธิบายรูปภาพที่นี่

เนื่องจากเราสามารถเห็นการปรับที่มีประสิทธิภาพมากและแสดงให้เห็นว่าเราต้องเปลี่ยนค่า p เพื่อควบคุมอัตราความผิดพลาดที่ฉลาด โดยเฉพาะตอนนี้เราไม่พบการทดสอบที่สำคัญอีกต่อไปตามที่ควรจะเป็นเพราะสมมติฐานว่างของ @ Berhard นั้นเป็นจริง

P(A)α


นี่คือรหัส:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

p.values <- numeric(n)
for (i in 5:n){
  p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")

2
มันใช้งานได้สำหรับฉัน ฉันจะต้องแปลสิ่งนี้เป็นการพูดเพื่อธุรกิจเพื่อให้ได้จุดของฉันไปยังรุ่นพี่ตอนนี้ แต่นั่นเป็นปัญหาของฉันเอง ขอบคุณมาก
sgk

8

หากสมมุติฐานว่างเป็นจริงผู้คนมักคาดหวังว่าค่า p จะสูงมาก นี่ไม่เป็นความจริง. หากสมมติฐานว่างเป็นจริงแล้ว p เป็นตัวแปรสุ่มกระจายอย่างสม่ำเสมอ ความหมายว่าเป็นครั้งคราวจะต่ำกว่า 0.05 เพียงแค่สุ่ม หากคุณดูตัวอย่างย่อยที่แตกต่างกันจำนวนมากบางครั้งค่า p จะต่ำกว่า 0.05

เพื่อให้ง่ายต่อการเข้าใจนี่คือการจำลองขนาดเล็กในR:

สิ่งนี้จะโยนเหรียญ 10,000 ครั้งและเรารู้ว่ามันเป็นเหรียญที่ยุติธรรม:

set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)

เริ่มต้นจากการโยนครั้งที่ 5 สิ่งนี้จะทำการทดสอบแบบทวินามเพื่อความเป็นธรรมหลังจากการโยนทุกครั้งและบันทึกค่า p:

p.values <- numeric(n)
for (i in 5:n){
     p.values[i] <- binom.test(table(toss[1:i]))$p.value
}

และนี่จะพล็อตค่า p หลังจากนั้นอีกหนึ่ง:

plot(p.values, type="l")
abline(h=0.05)

ป้อนคำอธิบายรูปภาพที่นี่

H0H0

(เพื่อเปิดอย่างสมบูรณ์แบบฉันได้ลองมากกว่าหนึ่งเมล็ดสำหรับตัวสร้างตัวเลขก่อนที่จะชัดเจนเหมือนตัวอย่างนี้ แต่นั่นยุติธรรมสำหรับวัตถุประสงค์ทางการศึกษาหากคุณRติดตั้งและใช้งานคุณสามารถเล่นกับตัวเลขได้อย่างง่ายดาย .)


ขอบคุณสำหรับการทดสอบอย่างง่าย แต่บอกว่าฉันหยุดการทดสอบในช่วงเวลาดังกล่าว (เมื่อ p-value <0.05) ผลลัพธ์ของฉันจะหมายถึงอะไร (นอกเหนือจากข้อเท็จจริงที่ว่ามันผิด) เป็นไปได้ไหมที่ฉันจะชดเชยด้วยการลดค่า p-value
sgk

+1 หมายเหตุการทดสอบที่เกี่ยวข้องและปัญหาการทดสอบหลายรายการที่เกี่ยวข้อง ดูคำตอบเพิ่มเติมของฉันพร้อมตัวเลือกการปรับด้านล่างตามตัวอย่าง (ดีมาก) ของคุณ
tomka

αα

ประเด็นหลักของฉันคือการควบคุมอัตราข้อผิดพลาดที่ฉลาดสำหรับครอบครัว (FWER) หรืออัตราการค้นพบที่ผิดพลาด (FDR) ทั้งข้อผิดพลาดการกำหนดเป้าหมายประเภท 1 การควบคุมข้อผิดพลาดประเภท 2 นั้นมีปัญหาน้อยกว่าในการทดสอบ a / b เนื่องจากตัวอย่างมักมีขนาดใหญ่มาก
tomka

พี=0.05
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.