คำถามติดแท็ก ab-test

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
กำหนดขนาดตัวอย่างอย่างปลอดภัยสำหรับการทดสอบ A / B
ฉันเป็นวิศวกรซอฟต์แวร์ที่ต้องการสร้างเครื่องมือทดสอบ A / B ฉันไม่มีพื้นหลังสถิติที่มั่นคง แต่ได้อ่านบ้างเล็กน้อยในช่วงสองสามวันที่ผ่านมา ฉันกำลังทำตามวิธีการที่อธิบายไว้ที่นี่และจะสรุปประเด็นที่เกี่ยวข้องด้านล่าง เครื่องมือนี้จะช่วยให้นักออกแบบและผู้เชี่ยวชาญด้านโดเมนสามารถกำหนดค่าเว็บไซต์เพื่อแยกทราฟฟิกที่ได้รับที่ URL เฉพาะระหว่างสอง URL ขึ้นไป ยกตัวอย่างเช่นการจราจรมาถึงที่http://example.com/hello1อาจจะแยกระหว่างhttp://example.com/hello1และhttp://example.com/hello2 ปริมาณการใช้ข้อมูลจะถูกแบ่งเท่า ๆ กันระหว่าง URL เป้าหมายและประสิทธิภาพของกระบวนการทางการตลาดในแต่ละ URL เป้าหมายจะถูกเปรียบเทียบ ในการทดลองนี้ขนาดของกลุ่มตัวอย่างNจะสอดคล้องกับผู้เข้าชม การทดสอบจะวัด "การแปลง" ซึ่งเป็นคำที่อธิบายเมื่อผู้เข้าชมยอมรับการกระทำเฉพาะในกระบวนการทางการตลาด การแปลงจะแสดงเป็นเปอร์เซ็นต์และต้องการอัตราการแปลงที่สูงขึ้น สิ่งนี้ทำให้การทดสอบเป็นการเปรียบเทียบสัดส่วนอิสระ เครื่องมือนี้จะต้องสามารถใช้งานได้ง่ายเพื่อสร้างการทดสอบที่มีผลลัพธ์ที่ปลอดภัย การเลือกค่าที่เหมาะสมของNเป็นสิ่งสำคัญ Nในบทความที่เชื่อมโยงข้างต้นการวิเคราะห์พลังงานของทั้งสองสัดส่วนอิสระเป็นลูกจ้างที่จะหา วิธีนี้ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้ารวมทั้งระบุเป้าหมายการปรับปรุงการแปลงที่ต้องการ นอกจากนี้ยังระบุระดับนัยสำคัญ 95% และพลังทางสถิติ 80% คำถาม: เป็นวิธีการกำหนดNเสียงนี้หรือไม่ ถ้าอย่างนั้นวิธีที่ปลอดภัยที่สุดในการกำหนดอัตราการแปลงของการควบคุมก่อนที่จะเริ่มการทดสอบคืออะไร? มีวิธีที่ดีในการพิจารณาNว่าไม่ต้องการให้ใครรู้อัตราการแปลงของการควบคุมล่วงหน้าหรือไม่? เป็นวิธีการในบทความเสียงที่เชื่อมโยง ? ถ้าไม่มีวิธีใดที่สามารถเข้าถึงได้และย่อยง่ายที่คุณสามารถเชื่อมโยงฉันได้หรือไม่

4
เราจะพัฒนากฎการหยุดในการวิเคราะห์พลังงานของสองสัดส่วนอิสระได้อย่างไร
ฉันเป็นนักพัฒนาซอฟต์แวร์ที่ทำงานกับระบบทดสอบ A / B ฉันไม่มีภูมิหลังที่มั่นคง แต่ได้รับความรู้ในช่วงไม่กี่เดือนที่ผ่านมา สถานการณ์จำลองการทดสอบทั่วไปเกี่ยวข้องกับการเปรียบเทียบ URL สองรายการบนเว็บไซต์ เข้าชมผู้เข้าชมLANDING_URLแล้วจะถูกส่งต่อไปยังสุ่มอย่างใดอย่างหนึ่งหรือURL_CONTROL URL_EXPERIMENTALผู้เข้าชมเป็นตัวอย่างและเงื่อนไขแห่งชัยชนะจะเกิดขึ้นเมื่อผู้เข้าชมดำเนินการที่ต้องการบนไซต์นั้น นี่ถือเป็นการแปลงและอัตราของอัตราการแปลงคืออัตราการแปลง (โดยทั่วไปจะแสดงเป็นเปอร์เซ็นต์) อัตราการแปลงทั่วไปสำหรับ URL ที่ระบุคือบางสิ่งในขอบเขต 0.01% ถึง 0.08% เราทำการทดสอบเพื่อกำหนดว่า URL ใหม่เปรียบเทียบกับ URL เก่าอย่างไร ถ้าURL_EXPERIMENTALแสดงให้เห็นว่าดีกว่าURL_CONTROLเราแทนด้วยURL_CONTROLURL_EXPERIMENTAL เราได้พัฒนาระบบโดยใช้เทคนิคการทดสอบสมมติฐานอย่างง่าย ฉันใช้คำตอบของคำถาม CrossValidated อื่นที่นี่เพื่อพัฒนาระบบนี้ มีการตั้งค่าการทดสอบดังนี้: การประมาณการอัตราการแปลงCRE_CONTROLของURL_CONTROLถูกคำนวณโดยใช้ข้อมูลประวัติ อัตราการแปลงเป้าหมายที่ต้องการCRE_EXPERIMENTALของURL_EXPERIMENTALการตั้งค่า โดยทั่วไปจะใช้ระดับนัยสำคัญ 0.95 โดยทั่วไปจะใช้พลังงาน 0.8 เมื่อรวมกันค่าเหล่านี้ทั้งหมดจะถูกใช้เพื่อคำนวณขนาดตัวอย่างที่ต้องการ ฉันใช้ฟังก์ชัน R power.prop.testเพื่อให้ได้ขนาดตัวอย่างนี้ การทดสอบจะทำงานจนกว่าจะมีการเก็บตัวอย่างทั้งหมด ณ จุดนี้ช่วงความเชื่อมั่นสำหรับ CR_CONTROLและCR_EXPERIMENTALถูกคำนวณ หากพวกเขาไม่ทับซ้อนกันผู้ชนะสามารถประกาศได้ที่ระดับนัยสำคัญ 0.95 และพลังของ 0.8 ผู้ใช้การทดสอบของเรามีข้อกังวลหลักสองประการ: 1. …

2
ทำไมการหยุดการทดสอบ A / B ก่อนที่จะถึงขนาดตัวอย่างที่ดีที่สุด
ฉันรับผิดชอบในการนำเสนอผลการทดสอบ A / B (ทำงานกับรูปแบบของเว็บไซต์) ที่ บริษัท ของฉัน เราใช้ทดสอบเป็นเวลาหนึ่งเดือนแล้วตรวจสอบค่า P-ในช่วงเวลาปกติจนกว่าจะถึงอย่างมีนัยสำคัญ (หรือละทิ้งความสำคัญถ้าไม่ถึงหลังจากใช้ทดสอบเป็นเวลานาน) บางสิ่งบางอย่างตอนนี้ผมกำลังหาออกเป็นปฏิบัติเข้าใจผิด ฉันต้องการที่จะหยุดการปฏิบัตินี้ในขณะนี้ แต่การทำเช่นนั้นฉันต้องการที่จะเข้าใจว่าทำไมมันผิด ฉันเข้าใจว่าขนาดของเอฟเฟกต์ขนาดตัวอย่าง (N) เกณฑ์นัยสำคัญของอัลฟา (α) และกำลังทางสถิติหรือเบต้าที่เลือกหรือโดยนัย (β) มีความสัมพันธ์ทางคณิตศาสตร์ แต่สิ่งที่เปลี่ยนแปลงเมื่อเราหยุดการทดสอบของเราก่อนที่เราจะถึงขนาดตัวอย่างที่ต้องการ? ฉันได้อ่านโพสต์ไม่กี่ที่นี่ (คือนี้ , นี้และนี้ ) และพวกเขาบอกฉันว่าประมาณการของฉันจะลำเอียงและอัตราการของฉันประเภทที่ 1 การเพิ่มขึ้นของข้อผิดพลาดอย่างมาก แต่มันเกิดขึ้นได้อย่างไร? ฉันกำลังมองหาคำอธิบายทางคณิตศาสตร์บางอย่างที่จะแสดงผลของขนาดตัวอย่างต่อผลลัพธ์อย่างชัดเจน ฉันเดาว่ามันมีบางอย่างเกี่ยวกับความสัมพันธ์ระหว่างปัจจัยที่ฉันกล่าวถึงข้างต้น แต่ฉันไม่สามารถค้นหาสูตรที่แน่นอนและทำงานออกมาได้ด้วยตัวเอง สำหรับตัวอย่างเช่นการหยุดการทดสอบจะเพิ่มอัตราความผิดพลาด Type 1 ก่อนกำหนด Alright แต่ทำไม เกิดอะไรขึ้นเพื่อเพิ่มอัตราข้อผิดพลาดประเภท 1 ฉันขาดสัญชาตญาณตรงนี้ ช่วยด้วย.

3
การทดสอบทางสถิติใดที่จะใช้สำหรับการทดสอบ A / B
เรามีสองกลุ่มตัวอย่าง 1,000 ตัวอย่าง เราวัดปริมาณ 2 หน่วยในแต่ละรุ่น คนแรกคือตัวแปรไบนารี ที่สองคือจำนวนจริงที่ตามหลังการกระจายหางหนา เราต้องการประเมินว่ากลุ่มใดมีประสิทธิภาพดีที่สุดสำหรับแต่ละเมตริก มีการทดสอบทางสถิติให้เลือกมากมาย: ผู้คนแนะนำให้ z-test, คนอื่น ๆ ใช้ t-test, และคนอื่น ๆ Mann – Whitney U เราควรเลือกการทดสอบหรือการทดสอบใดสำหรับแต่ละเมตริกสำหรับกรณีของเรา จะเกิดอะไรขึ้นหากการทดสอบหนึ่งบ่งบอกถึงความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่มและการทดสอบอื่น ๆ ที่ชี้ให้เห็นถึงความแตกต่างที่ไม่สำคัญ
12 ab-test 

2
ตรวจสอบความถูกต้องของการทดสอบเว็บ / b ด้วยการเรียกใช้การทดสอบอีกครั้ง - สิ่งนี้ถูกต้องหรือไม่
การสัมมนาทางเว็บในวันอื่น ๆ โดย บริษัท ทดสอบ a / b มีผู้อยู่อาศัย "นักวิทยาศาสตร์ข้อมูล" ของพวกเขาอธิบายว่าคุณควรตรวจสอบความถูกต้องของผลลัพธ์ของคุณโดยทำการทดสอบอีกครั้ง สถานที่ตั้งคือถ้าคุณเลือกความมั่นใจ 95% มีโอกาส 5% (1/20) ของการบวกผิด หากคุณเรียกใช้การทดสอบอีกครั้งด้วยข้อ จำกัด เดียวกันตอนนี้มี 1/400 (ฉันสมมติว่าพวกเขาระบุว่าเป็น 0.05 ^ 2 = 1/400) นี่เป็นคำสั่งที่ถูกต้องหรือไม่? (กล่าวคือ "รันสองครั้งความสำคัญทางสถิติทั้งสองชนะ = ความน่าจะเป็นที่ผิดพลาด 1/400 บวก")? เป็นวิธีที่ดีกว่าหรือไม่ที่จะเพิ่มระดับนัยสำคัญของคุณ? จากมุมมองทางธุรกิจสิ่งที่ฉันกังวลคือการเรียกใช้การทดสอบอีกครั้งคุณกำลังเปิดเผยผู้ใช้มากขึ้นไปยังหน้าเว็บที่ด้อยกว่า (การรักษา) และทำให้ยอดขายที่อาจเกิดขึ้นลดลง

1
สูตรสำหรับการทดสอบ A / B แบบเบย์ไม่มีเหตุผลใด ๆ
ฉันใช้สูตรจากการทดสอบ AB แบบเบย์เพื่อคำนวณผลลัพธ์ของการทดสอบ AB โดยใช้วิธีการแบบเบย์ Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA)Pr(pB>pA)=∑i=0αB−1B(αA+i,βB+βA)(βB+i)B(1+i,βB)B(αA,βA) \Pr(p_B > p_A) = \sum^{\alpha_B-1}_{i=0} \frac{B(\alpha_A+i,\beta_B+\beta_A)}{(\beta_B+i)B(1+i,\beta_B)B(\alpha_A, \beta_A)} ที่ไหน αAαA\alpha_Aในหนึ่งบวกกับจำนวนความสำเร็จสำหรับ A βAβA\beta_Aในหนึ่งบวกกับจำนวนความล้มเหลวสำหรับ A αBαB\alpha_Bในหนึ่งบวกกับจำนวนความสำเร็จสำหรับ B βBβB\beta_Bในหนึ่งบวกกับจำนวนความล้มเหลวสำหรับ B BBBคือฟังก์ชั่นเบต้า ข้อมูลตัวอย่าง: control: 1000 trials with 78 successes test: 1000 trials with 100 successes การทดสอบแบบ prop ที่ไม่ใช่แบบเบย์มาตรฐานให้ผลลัพธ์ที่สำคัญกับฉัน (p <10%): prop.test(n=c(1000,1000), x=c(100,78), correct=F) # 2-sample test for equality of …
10 r  bayesian  ab-test 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.