เราจะพัฒนากฎการหยุดในการวิเคราะห์พลังงานของสองสัดส่วนอิสระได้อย่างไร


18

ฉันเป็นนักพัฒนาซอฟต์แวร์ที่ทำงานกับระบบทดสอบ A / B ฉันไม่มีภูมิหลังที่มั่นคง แต่ได้รับความรู้ในช่วงไม่กี่เดือนที่ผ่านมา

สถานการณ์จำลองการทดสอบทั่วไปเกี่ยวข้องกับการเปรียบเทียบ URL สองรายการบนเว็บไซต์ เข้าชมผู้เข้าชมLANDING_URLแล้วจะถูกส่งต่อไปยังสุ่มอย่างใดอย่างหนึ่งหรือURL_CONTROL URL_EXPERIMENTALผู้เข้าชมเป็นตัวอย่างและเงื่อนไขแห่งชัยชนะจะเกิดขึ้นเมื่อผู้เข้าชมดำเนินการที่ต้องการบนไซต์นั้น นี่ถือเป็นการแปลงและอัตราของอัตราการแปลงคืออัตราการแปลง (โดยทั่วไปจะแสดงเป็นเปอร์เซ็นต์) อัตราการแปลงทั่วไปสำหรับ URL ที่ระบุคือบางสิ่งในขอบเขต 0.01% ถึง 0.08% เราทำการทดสอบเพื่อกำหนดว่า URL ใหม่เปรียบเทียบกับ URL เก่าอย่างไร ถ้าURL_EXPERIMENTALแสดงให้เห็นว่าดีกว่าURL_CONTROLเราแทนด้วยURL_CONTROLURL_EXPERIMENTAL

เราได้พัฒนาระบบโดยใช้เทคนิคการทดสอบสมมติฐานอย่างง่าย ฉันใช้คำตอบของคำถาม CrossValidated อื่นที่นี่เพื่อพัฒนาระบบนี้

มีการตั้งค่าการทดสอบดังนี้:

  • การประมาณการอัตราการแปลงCRE_CONTROLของURL_CONTROLถูกคำนวณโดยใช้ข้อมูลประวัติ
  • อัตราการแปลงเป้าหมายที่ต้องการCRE_EXPERIMENTALของURL_EXPERIMENTALการตั้งค่า
  • โดยทั่วไปจะใช้ระดับนัยสำคัญ 0.95
  • โดยทั่วไปจะใช้พลังงาน 0.8

เมื่อรวมกันค่าเหล่านี้ทั้งหมดจะถูกใช้เพื่อคำนวณขนาดตัวอย่างที่ต้องการ ฉันใช้ฟังก์ชัน R power.prop.testเพื่อให้ได้ขนาดตัวอย่างนี้

การทดสอบจะทำงานจนกว่าจะมีการเก็บตัวอย่างทั้งหมด ณ จุดนี้ช่วงความเชื่อมั่นสำหรับ CR_CONTROLและCR_EXPERIMENTALถูกคำนวณ หากพวกเขาไม่ทับซ้อนกันผู้ชนะสามารถประกาศได้ที่ระดับนัยสำคัญ 0.95 และพลังของ 0.8

ผู้ใช้การทดสอบของเรามีข้อกังวลหลักสองประการ:

1. ในบางช่วงของการทดสอบมีการเก็บตัวอย่างเพียงพอที่จะแสดงผู้ชนะที่ชัดเจนไม่สามารถหยุดการทดสอบได้

2. หากไม่มีการประกาศผู้ชนะในตอนท้ายของการทดสอบเราสามารถเรียกใช้การทดสอบนานขึ้นเพื่อดูว่าเราสามารถรวบรวมตัวอย่างเพียงพอที่จะหาผู้ชนะได้หรือไม่

ควรสังเกตว่ามีเครื่องมือเชิงพาณิชย์มากมายที่ช่วยให้ผู้ใช้ทำสิ่งที่ผู้ใช้ของเราต้องการ ฉันได้อ่านมาแล้วว่ามีข้อผิดพลาดหลายอย่างที่กล่าวมาข้างต้น แต่ฉันก็ได้พบกับความคิดเกี่ยวกับกฎการหยุดและต้องการสำรวจความเป็นไปได้ในการใช้กฎดังกล่าวในระบบของเราเอง

นี่คือสองวิธีที่เราต้องการพิจารณา:

1. ใช้power.prop.testเปรียบเทียบอัตราการแปลงที่วัดได้ในปัจจุบันกับจำนวนตัวอย่างปัจจุบันและดูว่ามีการเก็บตัวอย่างเพียงพอที่จะประกาศผู้ชนะหรือไม่

ตัวอย่าง: มีการตั้งค่าการทดสอบเพื่อดูว่ามีลักษณะการทำงานต่อไปนี้ในระบบของเราหรือไม่:

  • CRE_CONTROL: 0.1
  • CRE_EXPERIMENTAL: 0.1 * 1.3
  • ด้วยพารามิเตอร์เหล่านี้ขนาดตัวอย่างNคือ 1774

อย่างไรก็ตามเนื่องจากความก้าวหน้าในการทดสอบและไปถึง 325 ตัวอย่างCRM_CONTROL(อัตราการแปลงที่วัดได้สำหรับการควบคุม) คือ 0.08 และCRM_EXPERIMENTAL0.15 power.prop.testทำงานในอัตราการแปลงเหล่านี้และNพบว่าเป็น 325 จำนวนตัวอย่างที่ต้องการเพื่อประกาศCRM_EXPERIMENTALให้เป็นผู้ชนะอย่างแน่นอน! ณ จุดนี้เราหวังว่าการทดสอบจะสิ้นสุดลง ในทำนองเดียวกันหากการทดสอบถึง 1774 ตัวอย่าง แต่ไม่พบผู้ชนะ แต่ถึง 2122 ตัวอย่างซึ่งเพียงพอที่จะแสดงว่าCRM_CONTROL0.1 และCRM_EXPERIMENTAL0.128 เป็นผลลัพธ์ที่สามารถประกาศผู้ชนะได้

ในคำถามที่เกี่ยวข้องผู้ใช้แนะนำว่าการทดสอบดังกล่าวมีความน่าเชื่อถือน้อยลงเนื่องจากการส่งเสริมให้หยุดก่อนมีตัวอย่างน้อยลงและยังมีความเสี่ยงต่อการประมาณค่าอคติและข้อผิดพลาด Type I และ Type II เพิ่มขึ้น มีวิธีที่จะทำให้กฎการหยุดนี้ทำงานได้หรือไม่? นี่เป็นวิธีการที่เราชอบเพราะมันหมายถึงเวลาในการเขียนโปรแกรมที่น้อยลงสำหรับเรา บางทีกฎการหยุดนี้อาจทำงานได้โดยเสนอคะแนนหรือคะแนนบางประเภทที่วัดความน่าเชื่อถือของแบบทดสอบที่ควรหยุดก่อน

2. ใช้การวิเคราะห์ลำดับหรือSPRT

วิธีการทดสอบเหล่านี้ได้รับการออกแบบมาให้ตรงกับสถานการณ์ที่เราพบเจอ: ผู้ใช้ของเราจะเริ่มการทดสอบได้อย่างไรและสิ้นสุดในแบบที่พวกเขาไม่ต้องเสียเวลามากเกินไปในการทดสอบ อาจรันการทดสอบนานเกินไปหรือต้องเริ่มการทดสอบใหม่ด้วยพารามิเตอร์อื่น

จากวิธีการสองข้อข้างต้นฉันชอบ SPRT เพราะคณิตศาสตร์เป็นเรื่องง่ายสำหรับฉันที่จะเข้าใจและเพราะดูเหมือนว่าโปรแกรมอาจจะง่ายกว่า อย่างไรก็ตามฉันไม่เข้าใจวิธีใช้ฟังก์ชันความน่าจะเป็นในบริบทนี้ หากใครบางคนสามารถสร้างตัวอย่างของวิธีการคำนวณอัตราส่วนความน่าจะเป็น, ผลรวมสะสมของความน่าจะเป็น - อัตราส่วนและดำเนินการต่อผ่านตัวอย่างที่แสดงสถานการณ์เมื่อเราจะติดตามต่อไปเมื่อใครจะยอมรับสมมติฐานว่างและสมมติฐานทางเลือก ที่จะช่วยเราพิจารณาว่า SPRT เป็นวิธีที่เหมาะสมหรือไม่


2
ฉันขอชมเชยคุณไม่หันไปใช้วูดู เมื่อคุณใช้เครื่องมือและคุณไม่เข้าใจอย่างชัดเจนว่ามันกำลังทำอะไรหรือมันทำงานอย่างไรคุณก็ไม่มีคุณสมบัติที่จะตีความผลลัพธ์ของเครื่องมือ เมื่อการวิเคราะห์ขับเคลื่อนการตัดสินใจทางธุรกิจและคุณกำลังเอาเวลาและเงินไปสู่ผลลัพธ์มันจะแสดงความเป็นเจ้าของถ้าคุณใช้เวลาทำความเข้าใจกับแหล่งข้อมูล มันเป็นงานหนักที่ให้โอกาสคุณมากกว่าที่จะเป็น "อยู่ในฝูง"
EngrStudent - Reinstate Monica

คำตอบ:


7

นี่คือปัญหาที่น่าสนใจและเทคนิคที่เกี่ยวข้องจะมีจำนวนมากของการใช้งาน พวกเขามักจะเรียกว่ากลยุทธ์ "การตรวจสอบระหว่างกาล" หรือ "การออกแบบการทดลองตามลำดับ" (บทความวิกิพีเดียซึ่งคุณเชื่อมโยงกับนั้นค่อนข้างกระจัดกระจายเล็กน้อย) แต่มีหลายวิธีที่จะทำสิ่งนี้ ฉันคิดว่า @ user27564 มีข้อผิดพลาดในการบอกว่าการวิเคราะห์เหล่านี้จะต้องเป็นแบบเบย์ - มีวิธีการบ่อยสำหรับการตรวจสอบระหว่างกาลเช่นกัน

AsBsABP(A)=P(B)=0.558x ดังนั้น 1-F(x;100;0.5)<αF

ตรรกะที่คล้ายกันช่วยให้คุณค้นหา "จุดที่หลีกเลี่ยงไม่ได้" สำหรับการทดสอบอื่น ๆ ที่:

  1. ขนาดตัวอย่างทั้งหมด * ได้รับการแก้ไขและ
  2. การสังเกตแต่ละครั้งมีส่วนร่วมในปริมาณตัวอย่าง

นี่อาจเป็นเรื่องง่ายสำหรับคุณที่จะนำไปใช้ - คำนวณเกณฑ์การหยุดออฟไลน์แล้วเพียงแค่เสียบเข้ากับรหัสของเว็บไซต์ของคุณ - แต่คุณมักจะทำได้ดีกว่านี้ถ้าคุณยินดีที่จะยุติการทดสอบไม่เพียง แต่เมื่อมันยังเป็นไปได้ยากที่จะเปลี่ยนแปลง

ABA

มีวิธีอื่นอีกมากมายเช่นกัน วิธีการเรียงตามลำดับกลุ่มได้รับการออกแบบมาสำหรับสถานการณ์ที่คุณอาจไม่สามารถรับจำนวนที่ตั้งไว้ของวิชาและวิชาที่หยดในอัตราตัวแปร ขึ้นอยู่กับการเข้าชมเว็บไซต์ของคุณคุณอาจต้องการหรือไม่ต้องการดู

มีแพ็คเกจ R จำนวนมากที่ลอยอยู่รอบ ๆ CRAN ถ้านั่นคือสิ่งที่คุณใช้ในการวิเคราะห์ของคุณ จุดเริ่มต้นที่ดีอาจเป็นมุมมองภารกิจการทดสอบทางคลินิกเนื่องจากงานนี้ออกมามากมายจากสาขานั้น


[*] คำแนะนำที่เป็นมิตร: โปรดระวังเมื่อดูค่านัยสำคัญที่คำนวณจากจุดข้อมูลจำนวนมาก เมื่อคุณรวบรวมข้อมูลมากขึ้นเรื่อย ๆในที่สุดคุณจะพบผลลัพธ์ที่สำคัญ แต่ผลกระทบอาจมีขนาดเล็กมาก ตัวอย่างเช่นหากคุณถามดาวเคราะห์ทั้งโลกว่าพวกเขาชอบ A หรือ B หรือไม่มันเป็นไปได้ยากมากที่คุณจะเห็นการแบ่ง 50:50 แน่นอน แต่อาจไม่คุ้มค่าที่จะทำการปรับปรุงผลิตภัณฑ์ของคุณถ้าการแบ่งเป็น 50.001: 49.999 ตรวจสอบขนาดเอฟเฟกต์ (เช่นความแตกต่างของอัตราการแปลง) เช่นกัน!


1
ในการแก้ไขข้อกังวลของผู้ใช้ของคุณอย่างชัดเจน: ใช่คุณสามารถสิ้นสุดการวิเคราะห์ได้เร็ว สิ่งนี้เกิดขึ้นตลอดเวลาสำหรับการทดลองทางคลินิก - ยาเสพติดนั้นเป็นความสำเร็จที่ยอดเยี่ยมที่พวกเขามีข้อมูลเพียงพอสำหรับการรับรู้ความสามารถและต้องการให้มันแก่คนที่ติดอยู่ในกลุ่มควบคุม (หรือมีแนวโน้มมากขึ้น หน้าอก / ทำให้สิ่งต่าง ๆ แย่ลง) อย่างไรก็ตามการขยายการทดสอบนั้นเป็นที่ถกเถียงกันมากขึ้น - มีวิธีการแก้ไข "รูปลักษณ์" หลายรายการ แต่คุณควรจะแก้ไข N สูงสุดล่วงหน้า - คุณสามารถหยุดได้เร็วขึ้น!
Matt Krause

2
ขอบคุณสำหรับสิ่งนี้ฉันเห็นด้วยอย่างยิ่งกับการหยุดถ้าการทดลองนั้นหลีกเลี่ยงไม่ได้นั่นทำให้เข้าใจได้จริง! ด้วยการที่ 'หยุดถ้ามันไม่น่าเป็นไปได้จริง ๆ ' ฉันก็จะสงสัยว่านักประพันธ์ที่แท้จริงจะเห็นด้วย มันไม่มีอะไรจะพูดแล้ว: เฮ้ 95%? ฉันจะบอกว่า 93% ก็ดีเหมือนกัน! ฉันหมายความว่ามันจะเป็นการดีที่จะพึงพอใจกับความมั่นใจ 90% แต่ในฐานะผู้ใช้บ่อย ๆ ก่อนที่จะดูข้อมูล!
SebastianNeubauer

1
ฉันไม่ได้เป็นนักธนูบ่อยนักหรือฉันจะเล่นในทีวี แต่ฉันคิดว่าคุณยังคงสามารถตีความกฎการหยุดก่อนกำหนดได้อย่างเหมาะสม - ถ้าฉันใช้การทดลองนี้ 100 ครั้งฉันจะได้รับ คำตอบที่แตกต่างกันถ้าฉันหยุดตอนนี้และถ้าฉันวิ่งไปจนครบ? ความคิดเห็นที่ฉันเชื่อมโยงจุดที่เห็นว่าเรื่องนี้เป็นหนึ่งในบรรดากรณีที่ดีที่มันเป็นไปได้ที่จะตอบสนอง Bayesians และ Frequentists ในเวลาเดียวกัน แต่ ...
แมตต์กรอส

α

1
@ RussellS.Pierce: ฉันคิดว่ามันขึ้นอยู่กับ เห็นได้ชัดว่าการลดทอนไม่ได้ แต่วิธีการอื่นทำ ตัวอย่างเช่นการทดสอบ O'Brein และ Flemming สามารถใช้ข้อมูลได้มากขึ้น แต่ยังสามารถปฏิเสธได้ก่อนหน้านี้และการทดสอบของ Pocock ก็ยิ่งมากขึ้นเช่นกัน เห็นได้ชัดว่ามันขึ้นอยู่กับข้อมูลเฉพาะ: หนังสือที่ลิงก์ด้านบนมีตัวอย่างที่มีค่าพอสมควร (ขนาดเอฟเฟกต์: 0.25, alpha = 0.05, กำลัง = 0.9, 5 ลุค) เวอร์ชั่น N ที่แน่นอนต้องมี 170 วิชาที่จะปฏิเสธ รุ่น OBF ต้องการได้สูงสุด 180 และ Pocock ต้องการมากที่สุด 205 แต่จำนวนวิชาที่คาดหวังคือ 130 และ 117 ตามลำดับ
Matt Krause

1

คุณสามารถหยุด แต่เนิ่น ๆ แต่ถ้าคุณทำค่า p ของคุณจะไม่ถูกตีความอย่างง่ายดาย หากคุณไม่สนใจเกี่ยวกับการตีความค่า p ของคุณดังนั้นวิธีที่คำตอบสำหรับคำถามสองข้อแรกของคุณคือ 'ไม่' ไม่สำคัญ (มากเกินไป) ดูเหมือนว่าลูกค้าของคุณจะใช้งานได้จริงดังนั้นการตีความที่แท้จริงของค่า p อาจไม่ใช่จุดที่คุณสนใจ

ฉันไม่สามารถพูดกับวิธีที่สองที่คุณเสนอ

อย่างไรก็ตามวิธีแรกไม่ได้อยู่บนพื้นแข็ง การประมาณแบบปกติของการแจกแจงทวินามไม่ถูกต้องสำหรับสัดส่วนที่ต่ำ (ซึ่งเป็นวิธีการที่ power.prop.test ใช้รวมถึงวิธีการที่โคเฮนใช้ในหนังสือคลาสสิกของเขาเกี่ยวกับพลังงาน) ยิ่งไปกว่านั้นเท่าที่ฉันทราบไม่มีวิธีการวิเคราะห์พลังงานแบบปิดสำหรับการทดสอบสัดส่วนแบบสองตัวอย่าง (cf. เราจะทำการวิเคราะห์กำลังสองแบบสองกลุ่มโดยไม่ใช้การประมาณแบบปกติได้อย่างไร ) อย่างไรก็ตามมีวิธีการที่ดีกว่าในการประมาณช่วงความเชื่อมั่นของสัดส่วน (เปรียบเทียบกับแพคเกจbinom) คุณสามารถใช้ช่วงเวลาความเชื่อมั่นที่ไม่ทับซ้อนกันเป็นวิธีแก้ปัญหาบางส่วน ... แต่นี่ไม่เหมือนกับการประมาณค่า p ดังนั้นจึงไม่ได้ให้เส้นทางสู่พลังงานโดยตรง ฉันหวังว่าบางคนมีวิธีแก้ปัญหาแบบปิดที่ดีที่พวกเขาจะแบ่งปันกับพวกเราที่เหลือ หากฉันสะดุดที่หนึ่งฉันจะอัปเดตคำถามที่อ้างถึงข้างต้น โชคดี.

แก้ไข: ในขณะที่ฉันกำลังคิดเกี่ยวกับเรื่องนี้ขอให้ฉันใช้งานจริงที่นี่สักครู่ ลูกค้าของคุณต้องการให้การทดสอบนี้สิ้นสุดลงเมื่อพวกเขาแน่ใจว่าเว็บไซต์ทดลองทำงานได้ดีกว่าไซต์ควบคุม หลังจากที่คุณได้รับตัวอย่างที่ดีถ้าคุณยังไม่พร้อมที่จะตัดสินใจเพียงแค่เริ่มปรับอัตราส่วนของการมอบหมายแบบสุ่มของคุณกับด้านใดก็ตามที่ 'ชนะ' หากเป็นเพียงการลดลงการถดถอยไปสู่ค่าเฉลี่ยจะลดลงคุณจะมั่นใจน้อยลงและลดอัตราส่วนลง เมื่อคุณแน่ใจพอสมควรให้โทรออกแล้วประกาศผู้ชนะ วิธีที่เหมาะสมที่สุดอาจเกี่ยวข้องกับการอัปเดตแบบเบย์ แต่ฉันไม่รู้มากพอเกี่ยวกับหัวข้อนั้นที่อยู่ด้านบนของหัวเพื่อชี้แนะคุณ อย่างไรก็ตามฉันรับรองกับคุณได้ว่าในขณะที่มันอาจจะดูขัดกับสัญชาตญาณบางครั้งตัวคณิตศาสตร์เองก็ไม่ได้ยากอะไรเลย


0

คำถามที่คุณมีเป็นคำถามทั่วไปที่เกิดขึ้นในการทดสอบทางสถิติ สถิติ 'รสนิยม' มีอยู่สองประการด้วยกันคือผู้ประจำและชาวเบย์ คำตอบสำหรับคำถามของคุณทั้งสองเป็นเรื่องง่าย:

  • NO
  • ไม่คุณไม่สามารถหยุด แต่เช้าได้
  • ไม่คุณไม่สามารถวัดได้อีกต่อไป

เมื่อคุณกำหนดการตั้งค่าของคุณคุณจะไม่ได้รับข้อมูลแม้กระทั่งการวิเคราะห์ข้อมูล จากมุมมองของผู้ใช้บ่อยไม่มีทางอยู่รอบ ๆ ไม่มีการโกงใด ๆ ! (แก้ไข: แน่นอนมีความพยายามที่จะทำเช่นนั้นและพวกเขาจะทำงานหากใช้อย่างถูกต้อง แต่ส่วนใหญ่รู้จักที่จะแนะนำอคติ)

แต่มีมุมมองแบบเบย์ซึ่งแตกต่างกันมาก วิธีการแบบเบย์นั้นตรงกันข้ามกับผู้ใช้บ่อยครั้งที่มีการป้อนข้อมูลเพิ่มเติม เราสามารถเรียกมันได้ว่าเป็นความรู้หรืออคติก่อนหน้านี้ การมีสิ่งนี้เราสามารถใช้ข้อมูล / การวัดเพื่ออัปเดตความรู้ของเราให้น่าจะเป็น a-posteriori ประเด็นคือเราสามารถใช้ข้อมูลและยิ่งกว่านั้นเราสามารถใช้ข้อมูลที่จุดกึ่งกลางของการวัดทุกครั้ง ในการอัปเดตแต่ละครั้งผู้โพสต์หลังสุดท้ายเป็นคนใหม่ของเราก่อนและเราสามารถอัปเดตด้วยการวัดใหม่เพื่อความรู้ที่ทันสมัย ไม่มีปัญหาการหยุด แต่เนิ่น ๆ !

ฉันพบการพูดคุยที่คล้ายกันมากเช่นปัญหาที่คุณมีและฉันอธิบายไว้ข้างต้น: http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JoAnnAlvarez/BayesianAdaptivePres.pdf

แต่ข้างนี้คุณแน่ใจจริง ๆ ว่าคุณต้องการสิ่งนี้หรือไม่? ดูเหมือนว่าคุณมีบางระบบที่กำลังตัดสินใจว่าจะเชื่อมโยงคำขอไปยังที่ใด สำหรับสิ่งนี้คุณไม่จำเป็นต้องพิสูจน์ว่าการตัดสินใจของคุณถูกต้องในแง่สถิติด้วยการทดสอบสมมติฐาน คุณเคยซื้อโค้กหรือไม่เพราะคุณสามารถแยกว่า pepsi นั้น 'ถูกต้อง' ตอนนี้ด้วยความน่าจะเป็น 95% หรือไม่? ก็เพียงพอแล้วที่จะเลือกอันที่ดีกว่าโดยไม่รวมสมมติฐาน นั่นจะเป็นอัลกอริธึมเล็กน้อย: คำนวณความไม่แน่นอนของอัตรา A, คำนวณความไม่แน่นอนของ B นำความแตกต่างของอัตราทั้งสองมาคำนวณค่าความไม่แน่นอนของความแตกต่าง ผลที่ได้คือความสำคัญของความแตกต่างในซิกมา จากนั้นใช้ลิงก์ทั้งหมดที่มีความแตกต่างซิกมามากกว่าสองหรือสามครั้ง ข้อเสียเปรียบ


1
ฉันคิดว่าสี่ย่อหน้าแรกของคุณเป็นปลาเฮอริ่งแดง - มีวิธีการติดตามผลเป็นประจำ มันเป็นความจริงที่การปรับปรุงด้านหลัง (Bayesian) ยืมตัวเองอย่างนี้ แต่คุณสามารถแก้ไขปัญหานี้ได้หลายวิธี ขอบคุณสำหรับตัวชี้ไปยังสไลด์!
Matt Krause

+1 ต่อไป - วิธีการแบบเบย์นั้นอาจจะชัดเจนกว่าการแก้ไขแบบประจำ
russellpierce

2
เอ๊ะมันมี ... meme ... วิธีการแบบเบย์ช่วยให้คนดูข้อมูลได้อย่างไม่มีที่สิ้นสุด อย่างไรก็ตามอัตราความผิดพลาด Type I โดยรวมนั้นไม่ได้ถูกควบคุมจริง ๆ (ทำไมต้องเป็นเช่นนั้น) และอาจมีขนาดใหญ่ตามอำเภอใจได้หากหลังจากที่ "ดู" หลายครั้ง คุณสามารถแก้ไขสิ่งนี้ได้ด้วยวิธีที่เหมาะสมก่อนหน้านี้หรือคุณสามารถยืนยันว่าการควบคุมความผิดพลาดประเภทที่ 1 นั้นเป็นเรื่องง่อย แต่ก็ไม่ใช่ว่าเทคนิคแบบเบย์ทั้งหมดเป็นยาครอบจักรวาล
Matt Krause

0

อาจใช้วิธีการบางอย่างที่นั่นเช่น

  • คอร์ก
  • โอไบรอันและเฟลมมิ่ง
  • Peto

สิ่งนี้จะปรับ P cutoff ตามผลลัพธ์และจะช่วยให้คุณหยุดรวบรวมข้อมูลและประหยัดทรัพยากรและเวลา

อาจมีการเพิ่มงานอื่นที่นี่


คุณสามารถให้ลิงค์หรือข้อมูลเพิ่มเติมสำหรับสัญลักษณ์แสดงหัวข้อย่อยของคุณ?
แอนทอน

ฉันไม่ได้มีบทความที่แน่นอนเพราะฉันใช้บทความทบทวนที่อ้างถึงเหล่านี้ฉันหมายถึงวิธีการที่แตกต่างกัน แต่ฉันอาจแนะนำให้คุณบทความที่จัดการกับคำถามในด้านการแพทย์: การปรับเปลี่ยนขนาดตัวอย่างในการทดลองทางคลินิก: เริ่มเล็ก ขออีกไหม Christopher Jennisona * †และ BruceW Turnbullb
HappyMan
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.