ฉันพยายามที่จะเข้าใจเหตุผลโดยเลือกวิธีการทดสอบที่เฉพาะเจาะจงเมื่อจัดการกับการทดสอบ A / B แบบง่าย - (เช่นสองรูปแบบ / กลุ่มที่มีการตอบกลับแบบไบนารี (แปลงหรือไม่) ตัวอย่างเช่นฉันจะใช้ข้อมูลด้านล่าง
Version Visits Conversions
A 2069 188
B 1826 220
คำตอบยอดนิยมที่นี่ดีมากและพูดคุยเกี่ยวกับข้อสมมติฐานพื้นฐานสำหรับการทดสอบ z, t และ chi square แต่สิ่งที่ฉันสับสนคือแหล่งข้อมูลออนไลน์ที่แตกต่างกันจะอ้างอิงแนวทางที่แตกต่างกันและคุณจะคิดว่าสมมติฐานสำหรับการทดสอบ A / B พื้นฐานควรเหมือนกันหรือไม่
- ตัวอย่างเช่นบทความนี้ใช้คะแนน z :
- บทความนี้ใช้สูตรต่อไปนี้ (ซึ่งฉันไม่แน่ใจว่าแตกต่างจากการคำนวณ zscore หรือไม่):
- บทความนี้อ้างอิงการทดสอบ t (p 152):
ดังนั้น arguemnts อะไรที่สามารถทำให้เป็นที่นิยมในแนวทางที่แตกต่างกันเหล่านี้? ทำไมหนึ่งจะมีการตั้งค่า?
หากต้องการโยนผู้สมัครอีกหนึ่งคนตารางด้านบนสามารถเขียนใหม่เป็นตารางฉุกเฉิน 2x2 ซึ่งสามารถใช้การทดสอบฟิชเชอร์ (p5) ที่แน่นอน
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
แต่จากการทดสอบที่แม่นยำของฟิชเชอร์เธรดนี้ควรใช้กับขนาดตัวอย่างที่เล็กกว่าเท่านั้น (สิ่งที่ถูกตัดออก)
และจากนั้นก็มีการทดสอบ t และ z จับคู่, f test (และการถดถอยโลจิสติกส์ แต่ตอนนี้ฉันอยากจะออกไปก่อน) .... ฉันรู้สึกว่าฉันจมน้ำในวิธีการทดสอบที่แตกต่างกันและฉันแค่ต้องการที่จะ ทำอาร์กิวเมนต์บางอย่างสำหรับวิธีการที่แตกต่างกันในกรณีทดสอบ A / B ง่าย ๆ นี้
การใช้ข้อมูลตัวอย่างฉันได้รับค่า p ต่อไปนี้
https://vwo.com/ab-split-test-significance-calculator/ให้ค่า p เท่ากับ 0.001 (คะแนน z)
http://www.evanmiller.org/ab-testing/chi-squared.html (โดยใช้การทดสอบไคสแควร์) ให้ค่า p-0.00259
และใน R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
ให้ค่า p เป็น 0.002785305
ซึ่งฉันเดาว่าทั้งหมดอยู่ใกล้ ...
อย่างไรก็ตาม - เพียงแค่หวังว่าจะมีการสนทนาที่ดีต่อสุขภาพเกี่ยวกับวิธีการที่จะใช้ในการทดสอบออนไลน์โดยขนาดตัวอย่างมักจะเป็นหลักพัน ความกล้าของฉันบอกให้ฉันใช้ไคสแควร์ แต่ฉันต้องการที่จะตอบได้อย่างชัดเจนว่าทำไมฉันถึงเลือกใช้วิธีอื่น ๆ อีกมากมาย