เมื่อใดที่จะยุติการทดสอบ A / B แบบเบย์?


10

ฉันพยายามที่จะทำ A / B การทดสอบด้วยวิธีแบบเบย์เช่นเดียวกับในการเขียนโปรแกรมสำหรับความน่าจะเป็นแฮกเกอร์และคชกรรมการทดสอบ A / B บทความทั้งสองอนุมานว่าผู้มีอำนาจตัดสินใจตัดสินใจว่าตัวแปรใดดีกว่าโดยขึ้นอยู่กับความน่าจะเป็นของเกณฑ์บางอย่างเช่นดังนั้นจึงดีกว่า ความน่าจะเป็นนี้ไม่ได้ให้ข้อมูลใด ๆ ว่ามีข้อมูลเพียงพอที่จะสรุปได้หรือไม่ ดังนั้นจึงไม่ชัดเจนสำหรับฉันเมื่อต้องหยุดการทดสอบAP(pA>pB)=0.97A

สมมติว่ามีสอง RVs ไบนารีและBและฉันต้องการที่จะประเมินว่าเป็นไปได้ที่p_A> p_Bและ\ frac {p_A - p_B} {} p_A> 5 \%ตามข้อสังเกตของและB นอกจากนี้สมมติว่าผู้ออกแบบโปสเตอร์ p_Aและp_Bนั้นเป็นรุ่นเบต้าABpA>pBpApBpA>5%ABpApB

เนื่องจากฉันสามารถหาพารามิเตอร์α,βสำหรับpA|dataและpB|dataฉันสามารถเก็บตัวอย่าง posteriors และประมาณP(pA>pB | data){ข้อมูล}) ตัวอย่างในไพ ธ อน:

import numpy as np

samples = {'A': np.random.beta(alpha1, beta1, 1000),
           'B': np.random.beta(alpha2, beta2, 1000)}
p = np.mean(samples['A'] > samples['B'])

ฉันจะได้รับตัวอย่างเช่น0.95 ตอนนี้ผมต้องการที่จะมีบางอย่างเช่น0.03P(pA>pB)=0.95P(pA>pB | data)=0.95±0.03

ฉันได้วิจัยเกี่ยวกับช่วงเวลาที่น่าเชื่อถือและปัจจัย Bayes แต่ไม่สามารถเข้าใจวิธีการคำนวณพวกเขาสำหรับกรณีนี้หากพวกเขาสามารถใช้งานได้เลย ฉันจะคำนวณสถิติเพิ่มเติมเหล่านี้ได้อย่างไรเพื่อให้ฉันมีเกณฑ์การเลิกจ้างที่ดี


1
บทความที่ดีเกี่ยวกับเรื่องนี้ตรวจสอบภาคผนวกเพื่อดูตัวอย่างพร้อมการคำนวณ ... support.google.com/analytics/answer/2844870?hl=th
Fabio Beltramini

คำตอบ:


10

ฉันดีใจที่คุณพูดถึงตัวอย่างนี้เนื่องจากโครงการหนึ่งที่ฉันกำลังทำอยู่กำลังเขียนบททั้งหมดเกี่ยวกับการทดสอบ A / B แบบเบย์

เราสนใจสองปริมาณ:และการวัด "เพิ่มขึ้น" ฉันจะหารือเกี่ยวกับปริมาณปริมาณก่อนP(pA>pB|data)P(pA>pB|data)

ไม่มีขอบเขตข้อผิดพลาดในเป็นปริมาณจริง นี่คล้ายกับการพูดว่า "คนหลังคืออะไร" มีเพียง 1 ค่าเฉลี่ยและเราสามารถคำนวณได้โดยการหาค่าเฉลี่ยของตัวอย่างทั้งหมด (ฉันไม่สนใจข้อผิดพลาดของ Monte Carlo เนื่องจากสามารถลดลงได้ เพื่อความไม่สำคัญโดยการสุ่มตัวอย่างเพิ่มเติม) ฉันคิดว่าคุณกำลังผสมปริมาณที่ไม่รู้จักซึ่งเราสามารถพูดบางอย่างเช่น "+ - 3%" และปริมาณที่คำนวณหลังP(pA>pB|data)

สิ่งที่ฉันพูดคือแน่นอน: จากข้อมูลที่ได้รับและนักบวชของคุณนี่คือข้อสรุปของคุณP(pA>pB|data)=0.95

โปรดทราบว่าเราจะได้รู้ว่าได้อย่างรวดเร็ว: มันต้องมีเพียงปริมาณปานกลางของการสังเกตสำหรับพอที่แตกต่างกันและp_Bมันยากกว่ามากและน่าสนใจมากขึ้นในการวัดว่าการเพิ่มขึ้นของ A มีมากกว่า B (และบ่อยครั้งที่นี่คือเป้าหมายของการทดสอบ A / B: เราเพิ่มการแปลงเป็นจำนวนเท่าใด) คุณพูดถึงว่า 5% - คุณแน่ใจเรื่องนี้อย่างไรpA>pBpApBpApBpB>

โปรดทราบว่าในขณะที่เป็นบูลีนและด้วยเหตุนี้ง่ายต่อการวัดแน่นอนไม่ใช่บูลีน เป็นการกระจายตัวของความเป็นไปได้:pA>pBpApBpB

ป้อนคำอธิบายรูปภาพที่นี่

เมื่อมีการรับข้อมูลมากขึ้นการกระจายนี้จะรวมไปถึงการเพิ่มความสัมพันธ์ที่แท้จริงซึ่งใคร ๆ ก็สามารถบอกได้ว่าการกระจายมีเสถียรภาพ ที่นี่ฉันแนะนำให้คิดเกี่ยวกับการยุติการทดสอบ เมื่อการกระจายนี้ดูเหมือนจะ "สงบลง" และเราสามารถรู้สึกมั่นใจเกี่ยวกับการเพิ่มขึ้นจากนั้นยกเลิกการทดสอบ


ขอบคุณสำหรับการตอบกลับ! หวังว่าจะได้เห็นบทใหม่เร็ว ๆ นี้ สำหรับตอนนี้ฉันกำลังพิจารณาความแปรปรวนตัวอย่างของและยุติการทดสอบเมื่อใกล้ถึงศูนย์ pApBpA
Bogdan Kulynych

เฮ้ @ Cam.Davidson.Pilon ขอบคุณสำหรับการตอบกลับของคุณ ฉันยังสับสนเกี่ยวกับการให้ความน่าจะเป็นเช่น: "ความน่าจะเป็นคือ A คือ 10% ดีกว่า B คือ X%" ฉันสร้างการแจกแจง 2 แบบ; ตัวหนึ่งดีกว่าอีก 10% และใช้ค่า N มากดังนั้นค่า diff (A / B-1) จึงมีการแจกแจงแบบปกติที่มีค่าเฉลี่ย 10% ดังนั้น (ต่าง> .10) .mean () ส่งคืน ~ 50% แต่ไม่ควรเป็น 100% หรือ
CanCeylan

@CanCeylan คุณมีรหัสที่จะแบ่งปันหรือไม่? ฉันไม่แน่ใจว่าคุณสร้างการแจกแจงอย่างไร ...
Cam.Davidson.Pilon

0

ฉันกำลังทดลองกับวิธีที่จะหยุดการทดสอบ A / B แบบเบย์และคุณพูดถูก - ไม่มีวิธีที่ชัดเจนมากมายในการทำ Google Googling วิธีการที่ผมชอบมากที่สุดคือวิธีการตามความแม่นยำบนพื้นฐานนี้: http://doingbayesiandataanalysis.blogspot.com/2013/11/optional-stopping-in-data-collection-p.html อย่างไรก็ตามฉันไม่ได้พบวรรณกรรมทางคณิตศาสตร์มากมายเกี่ยวกับเรื่องนี้ดังนั้นตอนนี้มันเป็นเพียงการแก้ปัญหาที่ดี

ฉันพบว่าในขณะที่การทดสอบของฉันต้องทำงานนานขึ้นเพื่อให้ได้ความแม่นยำที่ต้องการ แต่ก็ใช้งานได้ง่ายขึ้นและคุณมีเวลาสำหรับการแจกจ่ายเพื่อ "สงบลง" ในวัตถุประสงค์ วิธีคือแทนที่จะตามันP(A>B|data)


0

ดูเหมือนจะมีสองวิธีหลักสำหรับการตัดสินใจในการทดสอบ A / B แบบเบย์ คนแรกขึ้นอยู่กับกระดาษโดย John Kruschke จาก Indiana University (K. Kruschke, การประมาณแบบเบย์แทนที่การทดสอบ t, วารสารจิตวิทยาการทดลอง: ทั่วไป, 142, 573 (2013) กฎการตัดสินใจที่ใช้ในบทความนี้ขึ้นอยู่กับแนวคิดของภูมิภาคของการปฏิบัติที่เท่าเทียมกัน (ROPE)

ความเป็นไปได้อีกอย่างหนึ่งคือการใช้แนวคิดของการสูญเสียที่คาดหวัง มันได้รับการเสนอโดย Chris Stucchio (C. Stucchio, การทดสอบ A / B แบบเบย์ที่ VWO) เป็นอีกแนวทางหนึ่งที่ฉันจะพิจารณา

วิธีการที่แนะนำโดย Cam.Davidson.Pilon ในการดูการกระจายหลังของทำให้มีความรู้สึกมากและจะพอดีกับวิธี ROPE การใช้วิธี ROPE มีข้อได้เปรียบเพิ่มเติมในการให้กฎเมื่อการทดสอบไม่สามารถสรุปได้ (ไม่ใช่เฉพาะเมื่อตัวแปร "A" หรือ "B" สามารถประกาศให้ผู้ชนะได้) (pApB)/pA

ท่านสามารถหาข้อมูลเพิ่มเติมในบล็อกโพสต์นี้: คชกรรมทดสอบ A / B: คู่มือขั้นตอนโดยขั้นตอน นอกจากนี้ยังรวมถึงบางส่วนโค้ดงูใหญ่ที่อยู่บนพื้นฐานโครงการหลามส่วนใหญ่โฮสต์บน Github

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.