การทดสอบ A / B: z-test กับ t-test เทียบกับไคสแควร์เทียบกับการทดสอบที่แม่นยำของฟิชเชอร์


38

ฉันพยายามที่จะเข้าใจเหตุผลโดยเลือกวิธีการทดสอบที่เฉพาะเจาะจงเมื่อจัดการกับการทดสอบ A / B แบบง่าย - (เช่นสองรูปแบบ / กลุ่มที่มีการตอบกลับแบบไบนารี (แปลงหรือไม่) ตัวอย่างเช่นฉันจะใช้ข้อมูลด้านล่าง

Version  Visits  Conversions
A        2069     188
B        1826     220

คำตอบยอดนิยมที่นี่ดีมากและพูดคุยเกี่ยวกับข้อสมมติฐานพื้นฐานสำหรับการทดสอบ z, t และ chi square แต่สิ่งที่ฉันสับสนคือแหล่งข้อมูลออนไลน์ที่แตกต่างกันจะอ้างอิงแนวทางที่แตกต่างกันและคุณจะคิดว่าสมมติฐานสำหรับการทดสอบ A / B พื้นฐานควรเหมือนกันหรือไม่

  1. ตัวอย่างเช่นบทความนี้ใช้คะแนน z :ป้อนคำอธิบายรูปภาพที่นี่
  2. บทความนี้ใช้สูตรต่อไปนี้ (ซึ่งฉันไม่แน่ใจว่าแตกต่างจากการคำนวณ zscore หรือไม่):

ป้อนคำอธิบายรูปภาพที่นี่

  1. บทความนี้อ้างอิงการทดสอบ t (p 152):

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้น arguemnts อะไรที่สามารถทำให้เป็นที่นิยมในแนวทางที่แตกต่างกันเหล่านี้? ทำไมหนึ่งจะมีการตั้งค่า?

หากต้องการโยนผู้สมัครอีกหนึ่งคนตารางด้านบนสามารถเขียนใหม่เป็นตารางฉุกเฉิน 2x2 ซึ่งสามารถใช้การทดสอบฟิชเชอร์ (p5) ที่แน่นอน

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

แต่จากการทดสอบที่แม่นยำของฟิชเชอร์เธรดนี้ควรใช้กับขนาดตัวอย่างที่เล็กกว่าเท่านั้น (สิ่งที่ถูกตัดออก)

และจากนั้นก็มีการทดสอบ t และ z จับคู่, f test (และการถดถอยโลจิสติกส์ แต่ตอนนี้ฉันอยากจะออกไปก่อน) .... ฉันรู้สึกว่าฉันจมน้ำในวิธีการทดสอบที่แตกต่างกันและฉันแค่ต้องการที่จะ ทำอาร์กิวเมนต์บางอย่างสำหรับวิธีการที่แตกต่างกันในกรณีทดสอบ A / B ง่าย ๆ นี้

การใช้ข้อมูลตัวอย่างฉันได้รับค่า p ต่อไปนี้

  1. https://vwo.com/ab-split-test-significance-calculator/ให้ค่า p เท่ากับ 0.001 (คะแนน z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (โดยใช้การทดสอบไคสแควร์) ให้ค่า p-0.00259

  3. และใน R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valueให้ค่า p เป็น 0.002785305

ซึ่งฉันเดาว่าทั้งหมดอยู่ใกล้ ...

อย่างไรก็ตาม - เพียงแค่หวังว่าจะมีการสนทนาที่ดีต่อสุขภาพเกี่ยวกับวิธีการที่จะใช้ในการทดสอบออนไลน์โดยขนาดตัวอย่างมักจะเป็นหลักพัน ความกล้าของฉันบอกให้ฉันใช้ไคสแควร์ แต่ฉันต้องการที่จะตอบได้อย่างชัดเจนว่าทำไมฉันถึงเลือกใช้วิธีอื่น ๆ อีกมากมาย


เกี่ยวกับ - and -tests คำถามของคุณได้รับคำตอบแล้วที่นี่: stats.stackexchange.com/questions/85804/…tzt
ทิม

ฉันพบว่าการสาธิตนี้มีประโยชน์ทีเดียว ซึ่งแสดงให้เห็นว่าการทดสอบ z สำหรับสัดส่วนนั้นเทียบเท่ากับการทดสอบไคสแควร์ของความเป็นเนื้อเดียวกันบนตารางฉุกเฉิน 2x2 rinterested.github.io/statistics/chi_square_same_as_z_test.html
yueyanw

คำตอบ:


24

เราใช้การทดสอบเหล่านี้ด้วยเหตุผลที่แตกต่างกันและภายใต้สถานการณ์ที่แตกต่างกัน

  1. z z zzทดสอบการทดสอบถือว่าการสังเกตของเราถูกดึงออกมาอย่างอิสระจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยไม่ทราบและความแปรปรวนที่เป็นที่รู้จัก การทดสอบจะใช้เป็นหลักเมื่อเรามีข้อมูลเชิงปริมาณ (เช่นน้ำหนักของหนูอายุของบุคคลความดันโลหิตซิสโตลิก ฯลฯ ) อย่างไรก็ตามการทดสอบสามารถใช้เมื่อสนใจสัดส่วน (เช่นสัดส่วนของคนที่นอนหลับอย่างน้อยแปดชั่วโมงเป็นต้น)zzz

  2. t t t zt -test -test อนุมานว่าการสังเกตของเราจะมีการวาดเป็นอิสระจากการกระจายปกติกับที่ไม่รู้จักค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก โปรดทราบว่าด้วย -test เราไม่ทราบความแปรปรวนของประชากร นี่เป็นเรื่องธรรมดามากกว่าการรู้ถึงความแปรปรวนของประชากรดังนั้นการทดสอบแบบจึงเหมาะสมกว่าการทดสอบแบบแต่จริง ๆ แล้วจะมีความแตกต่างเล็กน้อยระหว่างสองตัวอย่างถ้าขนาดตัวอย่างมีขนาดใหญ่tttz

ด้วยการทดสอบ - and test สมมติฐานทางเลือกของคุณคือค่าเฉลี่ยประชากรของคุณ (หรือสัดส่วนประชากร) ของกลุ่มใดกลุ่มหนึ่งไม่เท่ากันน้อยกว่าหรือมากกว่าค่าเฉลี่ยประชากร (หรือสัดส่วน) หรือกลุ่มอื่น ๆ สิ่งนี้จะขึ้นอยู่กับประเภทของการวิเคราะห์ที่คุณต้องการทำ แต่สมมติฐานว่างเปล่าและสมมติฐานทางเลือกของคุณเปรียบเทียบค่าเฉลี่ย / สัดส่วนจากทั้งสองกลุ่มโดยตรงtzt

  1. การทดสอบแบบไคสแควร์ ในขณะที่การทดสอบและเกี่ยวข้องกับข้อมูลเชิงปริมาณ (หรือสัดส่วนในกรณีของ ) การทดสอบไคสแควร์มีความเหมาะสมสำหรับข้อมูลเชิงคุณภาพ อีกครั้งสมมติฐานก็คือการสังเกตเป็นอิสระจากกัน ในกรณีนี้คุณไม่ได้ค้นหาความสัมพันธ์ที่เฉพาะเจาะจง สมมติฐานว่างของคุณคือไม่มีความสัมพันธ์ระหว่างตัวแปรหนึ่งกับตัวแปรสอง สมมติฐานทางเลือกของคุณคือว่าความสัมพันธ์มีอยู่จริง สิ่งนี้ไม่ได้ให้รายละเอียดเกี่ยวกับความสัมพันธ์นี้ (เช่นในทิศทางที่ความสัมพันธ์ไป) แต่จะให้หลักฐานว่ามีความสัมพันธ์ (หรือไม่มี) ระหว่างตัวแปรอิสระและกลุ่มของคุณt zztz

  2. การทดสอบที่แน่นอนของฟิชเชอร์ ข้อเสียอย่างหนึ่งของการทดสอบแบบไคสแควร์คือมันไม่แสดงอาการ ซึ่งหมายความว่าค่าถูกต้องสำหรับตัวอย่างขนาดใหญ่มาก อย่างไรก็ตามหากขนาดตัวอย่างของคุณมีขนาดเล็กค่าอาจไม่แม่นยำนัก ดังนั้นการทดสอบที่แม่นยำของฟิชเชอร์ทำให้คุณสามารถคำนวณค่าของข้อมูลได้อย่างแม่นยำและไม่พึ่งพาการประมาณค่าที่จะไม่ดีถ้าขนาดตัวอย่างของคุณมีขนาดเล็กพีพีppp

ฉันพูดคุยเกี่ยวกับขนาดตัวอย่าง - การอ้างอิงที่แตกต่างกันจะให้ตัวชี้วัดที่แตกต่างกันไปเมื่อตัวอย่างของคุณมีขนาดใหญ่พอ ฉันแค่จะหาแหล่งที่มีชื่อเสียงดูกฎของพวกเขาและใช้กฎของพวกเขาเพื่อค้นหาการทดสอบที่คุณต้องการ ฉันจะไม่ "ช็อปไปรอบ ๆ " เพื่อที่จะพูดจนกว่าคุณจะพบกฎที่คุณ "ชอบ"

ในที่สุดการทดสอบที่คุณเลือกควรขึ้นอยู่กับก) ขนาดตัวอย่างและ b) รูปแบบที่คุณต้องการให้ตั้งสมมติฐานของคุณ หากคุณกำลังมองหาผลกระทบที่เฉพาะเจาะจงจากการทดสอบ A / B ของคุณ (ตัวอย่างเช่นกลุ่ม B ของฉันมีคะแนนการทดสอบที่สูงกว่า) จากนั้นฉันจะเลือกใช้ -test หรือ -test, ขนาดตัวอย่างที่รออนุมัติและความรู้ของประชากร ความแปรปรวน หากคุณต้องการแสดงให้เห็นว่าความสัมพันธ์นั้นมีอยู่เพียงอย่างเดียว (ตัวอย่างเช่นกลุ่ม A และกลุ่ม B ของฉันแตกต่างกันไปตามตัวแปรอิสระ แต่ฉันไม่สนใจว่ากลุ่มใดที่มีคะแนนสูงกว่า) ดังนั้นการทดสอบไคสแควร์หรือฟิชเชอร์ เหมาะสมขึ้นอยู่กับขนาดตัวอย่างtzt

มันสมเหตุสมผลหรือไม่ หวังว่านี่จะช่วยได้!


ขอบคุณสำหรับคำตอบอย่างละเอียด! ฉันจะผ่านมันไปอย่างละเอียด - ฉันแน่ใจว่าฉันจะมีคำถามสองสามข้อ!
L Xandor

คุณช่วยอธิบายเพิ่มเติมได้อย่างไรว่าการทดสอบไคสแควร์และฟิชเชอร์ที่แน่นอนไม่ได้บอกทิศทางของเอฟเฟกต์อย่างไร หากการทดสอบสถิติเชิงอนุมานทั้งหมดให้ระดับความมั่นใจว่าชุดตัวอย่างสองชุดนั้นดึงมาจากประชากรที่แตกต่างกันหรือประชากรเดียวกันแล้วมันเกี่ยวกับทฤษฎีทางคณิตศาสตร์ที่จะไม่ยอมให้คุณบอกว่าความแตกต่างของทิศทางในค่าเฉลี่ยจะเป็นอย่างไร มีคะแนนสูงกว่า)?
Chris F

เพื่อความชัดเจนการทดสอบไคสแควร์และการทดสอบที่แน่นอนของฟิชเชอร์กำลังทำสิ่งเดียวกัน แต่ค่า p ถูกคำนวณแตกต่างกันเล็กน้อย (มันเป็นการประมาณภายใต้ไค - สแควร์และการคำนวณที่แน่นอนภายใต้ฟิชเชอร์แน่นอน) ฉันจะพูดไคสแควร์และมันจะพูดคุยกับฟิชเชอร์ส ปัญหานี่คือหลักฐาน "หากการทดสอบสถิติเชิงอนุมานให้ระดับความมั่นใจว่ามีตัวอย่างสองตัวอย่างมาจาก ... " - นั่นไม่ใช่สิ่งที่การทดสอบแบบไคสแควร์ทำ สมมติฐานว่างสำหรับการทดสอบไคสแควร์คือไม่มีการเชื่อมโยงและสมมุติฐานทางเลือก ...
Matt Brems

... คือมีความสัมพันธ์ระหว่างตัวแปรเด็ดขาดสองอัน คุณแค่ทดสอบความมีอยู่ของสมาคมและไม่ได้ระบุทิศทางที่แน่นอนไว้ล่วงหน้า (มีสถิติที่รู้จักกันน้อยกว่านั้นที่ DO ระบุความสัมพันธ์บางอย่างดังนั้นจึงเป็นไปได้อย่างไรก็ตามนี่ไม่ใช่สิ่งที่การทดสอบไคสแควร์ถูกออกแบบมาให้ทำ) เพื่อสรุปหลังจากนั้นมีความสัมพันธ์ทิศทางเฉพาะตาม p-value ที่คำนวณภายใต้ชุดสมมติฐานที่แตกต่างกันซึ่งออกแบบมาเพื่อทดสอบการมีอยู่ของสมาคมจะเป็นความผิดพลาด
Matt Brems

ลองพิจารณาสมมติฐานเมื่อเทียบกับและบอกว่าคุณทำการทดสอบ -test แล้วรับค่าเท่ากับ 0.04 คุณจะปฏิเสธสมมติฐานว่างและสรุปว่ามีความแตกต่าง หากค่าประมาณของคุณสำหรับสูงกว่า 0 คุณอาจถูกล่อลวงให้สรุปว่าค่าเฉลี่ยจริงนั้นสูงกว่า 0 อย่างไรก็ตามหากคุณพิจารณาสมมติฐานกับมี ข้อมูลเดียวกันค่าของคุณคือ 0.08 และคุณจะไม่ปฏิเสธค่าว่างสมมติว่าซึ่งหมายความว่าคุณไม่สามารถสรุปได้ว่ามากกว่า 0H : μ 0 ทีพีμ μ H 0 : μ 0 H : μ > 0 P α = 0.05 μH0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ
Matt Brems

-3

สำหรับการทดสอบ 3 ทางคุณมักจะใช้ ANOVA มากกว่า 3 การทดสอบแยกกัน โปรดตรวจสอบการแก้ไข Bonferroni ก่อนการทดสอบหลายครั้ง โปรดใช้ https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&-8&&&&&&&&&&&&& ผู้จัดเตรียมอีกครั้ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.