ตรวจสอบความถูกต้องของการทดสอบเว็บ / b ด้วยการเรียกใช้การทดสอบอีกครั้ง - สิ่งนี้ถูกต้องหรือไม่


11

การสัมมนาทางเว็บในวันอื่น ๆ โดย บริษัท ทดสอบ a / b มีผู้อยู่อาศัย "นักวิทยาศาสตร์ข้อมูล" ของพวกเขาอธิบายว่าคุณควรตรวจสอบความถูกต้องของผลลัพธ์ของคุณโดยทำการทดสอบอีกครั้ง สถานที่ตั้งคือถ้าคุณเลือกความมั่นใจ 95% มีโอกาส 5% (1/20) ของการบวกผิด หากคุณเรียกใช้การทดสอบอีกครั้งด้วยข้อ จำกัด เดียวกันตอนนี้มี 1/400 (ฉันสมมติว่าพวกเขาระบุว่าเป็น 0.05 ^ 2 = 1/400)

นี่เป็นคำสั่งที่ถูกต้องหรือไม่? (กล่าวคือ "รันสองครั้งความสำคัญทางสถิติทั้งสองชนะ = ความน่าจะเป็นที่ผิดพลาด 1/400 บวก")? เป็นวิธีที่ดีกว่าหรือไม่ที่จะเพิ่มระดับนัยสำคัญของคุณ?

จากมุมมองทางธุรกิจสิ่งที่ฉันกังวลคือการเรียกใช้การทดสอบอีกครั้งคุณกำลังเปิดเผยผู้ใช้มากขึ้นไปยังหน้าเว็บที่ด้อยกว่า (การรักษา) และทำให้ยอดขายที่อาจเกิดขึ้นลดลง


2
สวัสดีจอห์นยินดีต้อนรับสู่ Stats.SE! หากคุณพอใจกับคำตอบอย่างใดอย่างหนึ่งคุณควรยอมรับหนึ่งในนั้นหรือให้คำถามที่ชัดเจนยิ่งขึ้นเกี่ยวกับสิ่งที่คุณกำลังมองหา
Christopher Aden

จอห์นฉันสงสัยว่าปัญหาจริงเกี่ยวข้องกับบริบท ยากที่ผู้คนจะอุทิศทรัพยากรเพื่อการเรียนรู้เพียงครั้งเดียว: พวกเขาต้องการใช้ประโยชน์จากข้อมูลให้มากที่สุดด้วยเหตุผลที่ดี นั่นหมายความว่าแต่ละชุดข้อมูลจะใช้สำหรับการทดสอบหลายชุด ยิ่งกว่านั้นบางครั้งการทดสอบนั้นเป็นแบบโพสต์เฉพาะกิจ : พวกเขาได้รับแรงบันดาลใจจากรูปแบบที่เห็นในข้อมูล ในกรณีเช่นนี้การทดสอบไม่มีความมั่นใจ 95% (หรืออะไรก็ตาม) ที่ต้องการและการจำลองแบบเป็นสิ่งจำเป็น ดังนั้น: คุณหมายถึงอะไรโดย "การทดลอง" คำตอบขึ้นอยู่กับรายละเอียดเล็ก ๆ น้อย ๆ !
whuber

เกี่ยวกับการทำซ้ำการทดสอบและค่านัยสำคัญตรวจสอบการ์ตูน XKCD นี้: xkcd.com/882 หลังจากอ่านแล้ว
Lucas Gallindo

whuber: ขออภัยที่ไม่มีรายละเอียดฉันกำลังอ้างอิงการเพิ่มประสิทธิภาพเว็บไซต์ดังนั้นการทดสอบตัวอย่างจะเป็นการทดลองหน้าแรกของฉันสองเวอร์ชันโดยแบ่งผู้ใช้ 50/50 ออกจากกัน
John

คำตอบ:


3

การเพิกเฉยต่อความน่าจะเป็นของการบวกผิดในขณะนี้ฉันจะดูดังนี้:

  1. หากคุณเรียกใช้การทดสอบสองครั้งและได้รับผลลัพธ์เดียวกันคุณไม่ทราบว่ามีผลบวกจริงสองรายการหรือผลลัพธ์บวกปลอมสองรายการติดต่อกัน
  2. หากคุณเรียกใช้การทดสอบสองครั้งและรับผลลัพธ์ที่แตกต่างกันสองรายการคุณไม่ทราบว่าสิ่งใดเป็นค่าบวกจริงและผลลัพธ์ใดเป็นค่าบวกเท็จ

ไม่ว่าในกรณีใดคุณควรทำการทดสอบครั้งที่สามเพื่อให้แน่ใจ นี่อาจเป็นเรื่องดีสำหรับการทดลองที่ค่อนข้างไม่แพง แต่ราคาสูงมาก (เช่นสูญเสียลูกค้า) คุณต้องพิจารณาถึงประโยชน์

ดูความน่าจะเป็นเป็นครั้งแรกที่คุณเรียกใช้การทดสอบมีโอกาส 1/20 ของการบวกผิด ครั้งที่สองที่คุณเรียกใช้การทดสอบยังคงมีโอกาสเป็นบวกที่ผิดพลาด 1/20 (คิดว่าเป็นการหมุนแม่พิมพ์โดยที่แต่ละม้วนมีโอกาส 1/6 ที่จะได้หมายเลขที่แน่นอน) มีโอกาสเพียง 1/400 ที่จะมีผลบวกปลอมสองตัวติดต่อกัน

ปัญหาที่แท้จริงคือการมีสมมติฐานที่กำหนดไว้อย่างดีด้วยขั้นตอนที่เข้มงวดและเพื่อให้มีขนาดตัวอย่างระดับของข้อผิดพลาดและช่วงความมั่นใจที่คุณสามารถมีชีวิตอยู่หรือซื้อได้ การทดลองซ้ำควรทิ้งไว้เพื่อการสำรวจ

  1. ลูกค้าเมื่อเวลาผ่านไป
  2. การเปลี่ยนแปลงที่ทำโดยองค์กร
  3. การเปลี่ยนแปลงที่เกิดขึ้นจากการแข่งขัน

มากกว่าที่จะคาดเดาผลลัพธ์ที่สอง แม้ว่าการอธิบายสิ่งนี้กับผู้จัดการจะพูดง่ายกว่าทำ


mjc ขอบคุณมากสำหรับความคิดเห็น - นี่คือสิ่งที่ฉันกำลังมองหา
John

2

ใช่คำพูดนั้นถูกต้องสมมติว่าการทดลองของคุณเหมาะ แต่การได้รับการทดสอบในอุดมคตินั้นยากกว่าความเชื่อมั่นนี้ ข้อมูล "โลกแห่งความจริง" นั้นยุ่งยากซับซ้อนและยากที่จะตีความในตอนแรก มีช่องว่างมากมายสำหรับการวิเคราะห์ข้อบกพร่องตัวแปรที่ซ่อนอยู่ (ไม่ค่อยมี "ข้อ จำกัด เดียวกัน") หรือการสื่อสารที่ผิดพลาดระหว่างนักวิทยาศาสตร์ข้อมูลที่ทำงานของพวกเขา

จากมุมมองทางธุรกิจให้แน่ใจว่าวิธีการที่ดีและไม่มั่นใจในผลลัพธ์ ความท้าทายที่ยากกว่าที่คุณคิด เมื่อคุณทำสิ่งเหล่านั้นลงให้ทำ 5% นั้น


ขอบคุณที่ตอบคำถามแรก สิ่งที่เกี่ยวกับคำถามที่สอง: "มันจะเป็นวิธีที่ดีกว่าเพื่อเพิ่มระดับความสำคัญของคุณหรือไม่" เพียงทำการจำลองอย่างรวดเร็วใน R (รักษาขนาดเอฟเฟกต์และพลังงานเท่าเดิมเปลี่ยนค่านัยสำคัญเท่านั้น) ฉันสามารถรวบรวมข้อมูลได้น้อยลง 4.8% โดยเพียงเลือกนัยสำคัญ 97.5% แทนที่จะใช้การทดลอง 2X ที่นัยสำคัญ 95% ฉันควรชี้แจง - เมื่อฉันถามว่า "จะดีกว่านี้หรือไม่" ฉันหมายถึงฉันสามารถบรรลุผลลัพธ์เดียวกันโดยการรวบรวมข้อมูลน้อยลง
John
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.