ฉันศึกษาสถิติเมื่อหลายปีก่อนและลืมไปหมดดังนั้นสิ่งเหล่านี้อาจดูเหมือนคำถามเชิงแนวคิดทั่วไปมากกว่าสิ่งใดโดยเฉพาะ แต่นี่คือปัญหาของฉัน
ฉันทำงานให้กับเว็บไซต์อีคอมเมิร์ซในฐานะนักออกแบบ UX เรามีกรอบการทดสอบ A / B ที่สร้างขึ้นเมื่อหลายปีก่อนซึ่งฉันเริ่มสงสัย
การวัดที่เราทำการตัดสินใจทั้งหมดของเรานั้นเรียกว่าการแปลงและขึ้นอยู่กับเปอร์เซ็นต์ของผู้ใช้ที่เข้าชมเว็บไซต์และซื้อสิ่งต่างๆ
ดังนั้นเราต้องการทดสอบการเปลี่ยนสีของปุ่มซื้อจากสีเขียวเป็นสีน้ำเงิน
การควบคุมคือสิ่งที่เรามีอยู่แล้วปุ่มสีเขียวที่เรารู้ว่าอัตราการแปลงโดยเฉลี่ยของเราคืออะไร การทดลองกำลังแทนที่ปุ่มสีเขียวด้วยปุ่มสีฟ้า
เราเห็นด้วยอย่างมีนัยสำคัญ 95% คือระดับความมั่นใจที่เรามีความสุขและเราเปิดการทดสอบปล่อยให้มันทำงาน
เมื่อผู้ใช้เยี่ยมชมเว็บไซต์เบื้องหลังมีโอกาส 50/50 พวกเขาจะถูกส่งไปยังรุ่นควบคุม (ปุ่มสีเขียว) เทียบกับรุ่นทดสอบ (ปุ่มสีน้ำเงิน)
หลังจากดูการทดสอบหลังจาก 7 วันฉันเห็นการแปลงเพิ่มขึ้น 10.2% ตามการทดลองด้วยขนาดตัวอย่าง 3000 (1500 ไปสู่การควบคุม 1500 การทดลอง 1500 และนัยสำคัญทางสถิติที่ 99.2% ยอดเยี่ยมฉันคิดว่า
การทดสอบดำเนินต่อไปขนาดของตัวอย่างเพิ่มขึ้นจากนั้นฉันเห็นการแปลงเพิ่มขึ้น + 9% โดยมีนัยสำคัญที่ 98.1% ตกลงให้การทดสอบทำงานต่อไปนานขึ้นและตอนนี้การทดลองแสดงให้เห็นว่าการแปลงเพิ่มขึ้น 5% โดยมีนัยสำคัญทางสถิติเพียง 92% โดยกรอบการทำงานบอกฉันว่าฉันต้องการตัวอย่างเพิ่ม 4600 ก่อนที่จะถึงนัยสำคัญ 95%?
การทดสอบสรุปได้ในจุดใด?
ถ้าฉันคิดว่ากระบวนการทดลองทางคลินิกที่คุณเห็นด้วยกับขนาดตัวอย่างล่วงหน้าและเมื่อเสร็จสิ้นการทดสอบคุณจะเห็นการปรับปรุง 10% ของค่าใดก็ตามที่มีนัยสำคัญถึง 99% การตัดสินใจจะทำให้ยานั้นออกสู่ตลาด แต่ถ้าพวกเขาทำการทดลองกับคน 4,000 คนและพวกเขาเห็นว่าการปรับปรุง 5% ของสิ่งใดก็ตามที่มีค่านัยสำคัญเพียง 92% ก็จะไม่อนุญาตให้ยาเสพติดออกสู่ตลาด
เราควรเห็นด้วยกับขนาดตัวอย่างล่วงหน้าและหยุดทันทีเมื่อถึงขนาดของตัวอย่างและมีความสุขกับผลลัพธ์หากความสำคัญคือ 99% ณ จุดที่ปิดการทดลองหรือไม่