การทดสอบทางสถิติใดที่จะใช้สำหรับการทดสอบ A / B


12

เรามีสองกลุ่มตัวอย่าง 1,000 ตัวอย่าง เราวัดปริมาณ 2 หน่วยในแต่ละรุ่น คนแรกคือตัวแปรไบนารี ที่สองคือจำนวนจริงที่ตามหลังการกระจายหางหนา เราต้องการประเมินว่ากลุ่มใดมีประสิทธิภาพดีที่สุดสำหรับแต่ละเมตริก มีการทดสอบทางสถิติให้เลือกมากมาย: ผู้คนแนะนำให้ z-test, คนอื่น ๆ ใช้ t-test, และคนอื่น ๆ Mann – Whitney U

  • เราควรเลือกการทดสอบหรือการทดสอบใดสำหรับแต่ละเมตริกสำหรับกรณีของเรา
  • จะเกิดอะไรขึ้นหากการทดสอบหนึ่งบ่งบอกถึงความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่มและการทดสอบอื่น ๆ ที่ชี้ให้เห็นถึงความแตกต่างที่ไม่สำคัญ

คำตอบ:


12

เนื่องจากตัวชี้วัดสองตัวของคุณคือ 1) เลขฐานสองและ 2) กลุ่มที่มีหางหนาคุณควรหลีกเลี่ยงการทดสอบทีซึ่งถือว่าการแจกแจงแบบปกติ

ฉันคิดว่า Mann-Whitney U เป็นตัวเลือกที่ดีที่สุดของคุณและควรมีประสิทธิภาพเพียงพอแม้ว่าการแจกแจงของคุณจะใกล้เคียงปกติ

เกี่ยวกับคำถามที่สองของคุณ:

จะเกิดอะไรขึ้นหากการทดสอบหนึ่งบ่งบอกถึงความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่มและการทดสอบอื่น ๆ ที่ชี้ให้เห็นถึงความแตกต่างที่ไม่สำคัญ

นี่ไม่ใช่เรื่องแปลกถ้าความแตกต่างทางสถิติคือเส้นเขตแดนและข้อมูลมีการแจกแจงตัวอย่าง "ยุ่งเหยิง" สถานการณ์นี้ต้องการให้นักวิเคราะห์พิจารณาข้อสันนิษฐานและข้อ จำกัด ทั้งหมดของการทดสอบทางสถิติอย่างรอบคอบและให้น้ำหนักมากที่สุดในการทดสอบทางสถิติซึ่งมีจำนวนการละเมิดสมมติฐานน้อยที่สุด

ใช้สมมติฐานของการแจกแจงแบบปกติ มีการทดสอบต่าง ๆ สำหรับบรรทัดฐาน แต่นั่นไม่ใช่จุดจบของเรื่อง การทดสอบบางอย่างใช้งานได้ดีกับการกระจายแบบสมมาตรแม้ว่าจะมีการเบี่ยงเบนจากค่าปกติ แต่ก็ใช้งานไม่ได้ดีกับการแจกแจงแบบเบ้

ตามกฎทั่วไปแล้วผมขอแนะนำให้คุณไม่ควรทำการทดสอบใด ๆ ที่มีการละเมิดสมมติฐานอย่างชัดเจน

แก้ไข:สำหรับตัวแปรที่สองมันอาจเป็นไปได้ในการแปลงตัวแปรเป็นหนึ่งที่กระจายตามปกติ (หรืออย่างน้อยปิด) ตราบใดที่การแปลงจะรักษาลำดับ คุณจำเป็นต้องมีความมั่นใจที่ดีว่าการแปลงรูปจะให้การแจกแจงแบบปกติสำหรับทั้งสองกลุ่ม หากคุณพอดีกับตัวแปรตัวที่สองเพื่อการแจกแจงแบบล็อก - ปกติแล้วฟังก์ชั่นการบันทึกจะแปลงเป็นการแจกแจงแบบปกติ แต่ถ้าการกระจายตัวเป็นพาเรโต (กฎกำลัง) นั่นก็จะไม่มีการแปลงเป็นการแจกแจงแบบปกติ

แก้ไข:ตามที่แนะนำในความคิดเห็นนี้คุณควรพิจารณาการประมาณแบบเบย์เป็นทางเลือกแทนการทดสอบ t และการทดสอบนัยสำคัญของ Null Hypothesis Significance (NHST)


ขอบคุณสำหรับข้อมูล. ฉันยังไม่ชัดเจนพอฉันมีสองปริมาณหนึ่งในนั้นคือไบนารีและอีกอันหนึ่งซึ่งเป็นจำนวนจริงหลังจากการกระจายหางหนา ฉันแก้ไขคำถามเพื่อชี้แจง
iliasfl

ใช่ฉันคิดว่าฉันเข้าใจ คุณต้องการรันการทดสอบสองครั้งหนึ่งครั้งในตัวแปรไบนารีและอีกครั้งที่ตัวแปรจริง (การแจกแจงแบบเทลด์หนา) ฉันแนะนำให้เรียกใช้ Mann-Whitney U ทั้งคู่

ทำไม Mann-Whitney ถึงจะเหมาะกับข้อมูลไบนารี
Glen_b -Reinstate Monica

Mann-Whitney U มีประสิทธิภาพสำหรับการแจกแจงแบบไม่ปกติรวมถึงการแจกแจงแบบแยกโดยมีสองค่า (เช่นไบนารี) ถ้าข้อมูลทั้งหมดเป็นเลขฐานสองบางทีการทดสอบอื่นอาจใช้งานได้ดีกว่า
MrMeritology

มีคนยืนยันได้ไหมว่านี่เป็นเรื่องจริงหรือไม่ ...

7

สำหรับข้อมูลที่มีค่าจริงคุณอาจต้องการพิจารณาสร้างสถิติทดสอบของคุณเองโดยใช้ข้อมูลการบูตของข้อมูลของคุณ วิธีนี้มีแนวโน้มที่จะให้ผลลัพธ์ที่แม่นยำเมื่อคุณจัดการกับการแจกแจงของประชากรที่ไม่ปกติหรือพยายามที่จะพัฒนาช่วงความเชื่อมั่นรอบพารามิเตอร์ที่ไม่มีวิธีการวิเคราะห์ที่สะดวก (อดีตเป็นจริงในกรณีของคุณฉันพูดถึงบริบทหลังเท่านั้น)

สำหรับข้อมูลที่มีค่าจริงของคุณคุณจะทำสิ่งต่อไปนี้:

  1. พูลสองผองเพื่อนของคุณ
  2. จากกลุ่มตัวอย่างกลุ่ม 1000 องค์ประกอบสองกลุ่มที่มีการเปลี่ยน
  3. คำนวณความแตกต่างของค่าเฉลี่ยตัวอย่างระหว่างสองกลุ่ม
  4. ทำซ้ำขั้นตอนที่ 2 และ 3 สองสามพันครั้งเพื่อพัฒนาการกระจายความแตกต่างเหล่านี้

เมื่อคุณมีการแจกแจงแล้วให้คำนวณความแตกต่างของค่าเฉลี่ยสำหรับตัวอย่างจริงของคุณและคำนวณค่า p


ขอบคุณดังนั้นคุณต้องจบลงด้วยการแจกแจงซึ่งน่าจะเป็นเรื่องปกติด้วยค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน คุณจะคำนวณค่า p จากนั้นและอาจเป็นช่วงความมั่นใจในการตัดสินใจผู้ชนะ (ถ้ามี)
iliasfl

การกระจายไม่จำเป็นต้องเป็นปกติ มันจะมีการกระจายตัวแบบคร่าวๆ นั่นคือความงามของการใช้ bootstrap ไม่ว่าในกรณีใดคุณจะได้รับค่า p โดยการคำนวณสถิติการทดสอบของคุณจากผลลัพธ์ที่แท้จริง คือความแตกต่างของวิธีการของแต่ละกลุ่ม จากนั้นเปรียบเทียบจำนวนนั้นกับการแจกแจง เปอร์เซ็นไทล์ที่คุณได้รับคือค่า p สำหรับการทดสอบด้านเดียวสำหรับความแตกต่างของค่าเฉลี่ย
นาธานโกลด์

4
สิ่งที่นาธานอธิบายก็เป็นพื้นฐานสำหรับวิธีการทดสอบแบบเบย์อย่างมีนัยสำคัญ ฉันได้ใช้ (และปัจจุบันใช้) การประมาณแบบเบย์แทนที่การทดสอบแบบ T-Test (ดีที่สุด) คุณควรดูที่กรอบถ้าคุณตั้งใจที่จะใช้วิธีการรวมกำไรกัน
cwharland

0

ฉันตอบ @Meritology เป็นครั้งที่สอง อันที่จริงฉันสงสัยว่าการทดสอบ MWU นั้นจะมีประสิทธิภาพน้อยกว่าการทดสอบสัดส่วนอิสระหรือไม่เนื่องจากตำราที่ฉันเรียนรู้และใช้ในการสอนกล่าวว่า MWU สามารถนำไปใช้กับข้อมูลลำดับ (หรือช่วง / อัตราส่วน) เท่านั้น

แต่ผลการจำลองของฉันพล็อตด้านล่างระบุว่าการทดสอบ MWU นั้นมีประสิทธิภาพมากกว่าการทดสอบสัดส่วนเล็กน้อยในขณะที่การควบคุมข้อผิดพลาดประเภทที่ 1 ได้ดี (ที่สัดส่วนประชากรของกลุ่ม 1 = 0.50)

ป้อนคำอธิบายรูปภาพที่นี่

สัดส่วนประชากรของกลุ่ม 2 ถูกเก็บไว้ที่ 0.50 จำนวนการทำซ้ำคือ 10,000 ในแต่ละจุด ฉันทำซ้ำการจำลองโดยไม่ต้องแก้ไขของ Yate แต่ผลลัพธ์ก็เหมือนกัน

library(reshape)

MakeBinaryData <- function(n1, n2, p1){
  y <- c(rbinom(n1, 1, p1), 
        rbinom(n2, 1, 0.5))
  g_f <- factor(c(rep("g1", n1), rep("g2", n2)))
  d <- data.frame(y, g_f)
  return(d)
}

GetPower <- function(n_iter, n1, n2, p1, alpha=0.05, type="proportion", ...){
  if(type=="proportion") {
    p_v <- replicate(n_iter, prop.test(table(MakeBinaryData(n1, n1, p1)), ...)$p.value)
  }

  if(type=="MWU") {
    p_v <- replicate(n_iter, wilcox.test(y~g_f, data=MakeBinaryData(n1, n1, p1))$p.value)
  }

  empirical_power <- sum(p_v<alpha)/n_iter
  return(empirical_power)
}

p1_v <- seq(0.5, 0.6, 0.01)
set.seed(1)
power_proptest <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x))
power_mwu <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x, type="MWU"))

รูปผลลัพธ์ของคุณเป็นสีดำทั้งหมด
Ooker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.