กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B


22

ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา

ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง

เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ

ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ

Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80%

คำถาม:

  1. เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร?
  2. มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่?
  3. เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

คำตอบ:


12

วิธีที่ใช้กันมากที่สุดสำหรับการทดสอบประเภทนี้คือช่วงความเชื่อมั่นของสัดส่วนทวินาม (ดูhttp://bit.ly/fa2K7B )

คุณจะไม่สามารถรู้อัตราการแปลง "ของจริง" ของทั้งสองเส้นทางได้ แต่สิ่งนี้จะทำให้คุณสามารถพูดอะไรบางอย่างกับผลกระทบ "ด้วยความมั่นใจ 99% A จะมีประสิทธิภาพในการแปลงมากกว่า B"

ตัวอย่างเช่นให้สมมติว่าคุณได้ทดสอบ 1,000 ครั้งเส้นทาง A ในการทดลอง 1,000 ครั้ง 121 ครั้งเป็น Conversion ที่ประสบความสำเร็จ (อัตราการแปลง 0.121) และเราต้องการช่วงความมั่นใจ 99% รอบ ๆ ผลลัพธ์ 0.121 นี้ Z-คะแนนสำหรับช่วงความเชื่อมั่น 99% เป็น 2.576 (คุณเพียงแค่มองขึ้นนี้ในตาราง) ดังนั้นด้วยความเชื่อมั่น 99% เราสามารถพูดได้ว่า0.094 P0.148ที่หน้าเป็น "ของจริง" อัตราการแปลงของกระบวนการ A.

พี^±2.576(0.121* * * *(1-0.121)1000)พี^±0.027
0.094พี^0.148พี^

ถ้าเราสร้างช่วงเวลาที่คล้ายกันสำหรับกระบวนการ B เราสามารถเปรียบเทียบช่วงเวลา หากช่วงเวลาไม่ทับซ้อนกันเราสามารถพูดด้วยความมั่นใจ 98% ว่าช่วงเวลาหนึ่งดีกว่าอีกช่วงหนึ่ง (โปรดจำไว้ว่าเรามั่นใจเพียง 99% ในแต่ละช่วงดังนั้นความเชื่อมั่นโดยรวมของเราเกี่ยวกับการเปรียบเทียบคือ 0.99 * 0.99)

ยังไม่มีข้อความยังไม่มีข้อความ

ขอให้คุณโชคดี (ฉันรูทสำหรับกระบวนการ B โดยวิธี)


2
LATEXพี^แต่ผมทราบคุณบอกว่ามันเป็นอัตราที่ "จริง" ในขณะที่ P-หมวกมักจะถูกใช้ในการแสดงพีที่ประมาณจากข้อมูลของคุณ ดังนั้นเราแค่ต้องการให้แน่ใจว่าคำตอบของคุณพูดในสิ่งที่คุณต้องการให้พูด
gung - Reinstate Monica

พี^0.094พี^0.148sยูอีssอีsเสื้อRผมaล.sพี^พี

คำตอบนี้ไม่ถูกต้อง โดยเฉพาะ: "ถ้าช่วงเวลาไม่ทับซ้อนกันเราสามารถพูดด้วยความมั่นใจ 98% ว่าอันใดอันหนึ่งดีกว่าอีก" นั้นผิด เมื่อกำหนดช่วงความเชื่อมั่น 99% แบบไม่ทับซ้อนสองครั้งความมั่นใจว่าความแตกต่างจะแยก 0 เป็นอย่างน้อย 99% หากช่วงเวลามีขนาดเท่ากันความแตกต่างจะมีนัยสำคัญที่ระดับ 99.97%stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan ความคิดเห็นของคุณมีค่าอื่นหรือไม่ เช่นถูกต้องหรือไม่ที่จะบอกว่า (ตามที่คุณยกย่อง) ความแตกต่างของค่าเฉลี่ยคืออย่างน้อย 30% หากเรามีช่วงความเชื่อมั่นที่ไม่ซ้อนกันสองช่วง 30% ที่มีขนาดเท่ากันหรือไม่
Felipe Almeida

1
@Felipe ใช่ความคิดเห็นเก็บไว้สำหรับค่าทั้งหมดและช่วงความเชื่อมั่น 30% ที่ไม่ทับซ้อนกันแสดงถึงความเชื่อมั่นว่าความแตกต่างที่ยกเว้น 0 คืออย่างน้อย 30% อย่างไรก็ตามนี่ไม่ได้หมายความว่ามีความแตกต่างในค่าเฉลี่ย 30% วิธีการที่แท้จริงอาจคล้ายกันมาก เราแค่พยายามพิสูจน์ว่ามันไม่เหมือนกัน
Bscan

8

IMHO เท่าที่โพสต์ไปในทิศทางที่ถูกต้อง อย่างไรก็ตาม:

  • วิธีการที่นำเสนอโดยนัยทำให้สมมติฐานสองประการคืออัตราการแปลงพื้นฐานและจำนวนการเปลี่ยนแปลงที่คาดหวัง ขนาดของกลุ่มตัวอย่างขึ้นอยู่กับว่าคุณทำตามสมมติฐานเหล่านี้ได้ดีแค่ไหน ฉันขอแนะนำให้คุณคำนวณขนาดตัวอย่างที่ต้องการสำหรับชุดค่าผสม p1 และ p2 หลายชุดที่คุณคิดว่าเป็นจริง ที่จะให้ความรู้สึกเกี่ยวกับความน่าเชื่อถือในการคำนวณขนาดตัวอย่างจริง ๆ

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    ดังนั้นหากอัตราการแปลงจริงคือ 9% แทน 10% คุณต้องมีอีก 2,000 รายสำหรับแต่ละสถานการณ์เพื่อตรวจจับอัตราการแปลง 10% มากกว่าที่เป็นพื้นฐานของรูปแบบใหม่

หลังจากการทดสอบเสร็จสิ้นคุณสามารถคำนวณช่วงความมั่นใจสำหรับสัดส่วนตามการสังเกตจริงของคุณ

  • n
    nเคสสำหรับแต่ละสถานการณ์จากนั้นความน่าจะเป็นที่จะเปลี่ยนจาก A คือ (1 - α) ²≈ 10% (α: ความน่าจะเป็นที่ยอมรับของข้อผิดพลาดประเภท I ; sig.levelด้านบน) กล่าวอีกนัยหนึ่งใหญ่เกือบสองเท่าตามที่ระบุไว้ในตอนแรก ปัญหาที่สองของวิธีการนี้คือ: คุณสามารถทำได้โดยไม่ต้องเปรียบเทียบ B ./ C? คุณจะทำอย่างไรถ้าคุณพบว่าทั้ง B และ C ดีกว่า A

สวัสดีขอบคุณมากที่สละเวลาวิจารณ์วิธีการเหล่านี้ ในการคำนวณ (1 - α) ²≈ 10% "α" หมายถึงอะไร เนื่องจากการเก็บข้อมูลการทดสอบใช้เวลานานคุณจะเสนออย่างไรควรสร้างการทดสอบนี้หากต้องการทดสอบสามสัดส่วน มีวิธีที่ปลอดภัยหรือไม่ที่ไม่เกี่ยวข้องกับการทดสอบหลายครั้ง? ด้วยสามทางเลือกการทดสอบสามแบบไม่ใช่ภาระหนักมาก แต่มีสี่ทางเลือกจำนวนชุดค่าผสมถึงหก
jkndrkn

1
@jkndrkn: αเป็นความน่าจะเป็นที่จะเปลี่ยนไปจากรูปแบบเดิมหรือที่รู้จักกันในชื่อα-error หรือ type I error ดูคำตอบที่อัปเดต
cbeleites รองรับโมนิก้า

1
@ jkndrkn: การทดสอบหลายรายการ: ฉันจะดูที่Fleiss และอื่น ๆ : วิธีการทางสถิติสำหรับอัตราและสัดส่วนเกี่ยวกับขั้นตอนสำหรับการทดสอบดังกล่าว อย่างไรก็ตามประเด็นสำคัญสำหรับการทดสอบหลาย ๆ ครั้งนั้นคือการใช้ความรู้จากผู้เชี่ยวชาญในการลดจำนวนตัวเลือกให้มากที่สุดก่อนที่จะทำการทดสอบเนื่องจากขนาดตัวอย่างที่ต้องการจะระเบิดด้วยจำนวนของตัวเลือก (ตามที่คุณได้รับรู้แล้ว)
cbeleites รองรับโมนิก้า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.