การกำหนดขนาดตัวอย่างก่อนเริ่มการทดสอบหรือเรียกใช้การทดสอบอย่างไม่มีกำหนด


12

ฉันศึกษาสถิติเมื่อหลายปีก่อนและลืมไปหมดดังนั้นสิ่งเหล่านี้อาจดูเหมือนคำถามเชิงแนวคิดทั่วไปมากกว่าสิ่งใดโดยเฉพาะ แต่นี่คือปัญหาของฉัน

ฉันทำงานให้กับเว็บไซต์อีคอมเมิร์ซในฐานะนักออกแบบ UX เรามีกรอบการทดสอบ A / B ที่สร้างขึ้นเมื่อหลายปีก่อนซึ่งฉันเริ่มสงสัย

การวัดที่เราทำการตัดสินใจทั้งหมดของเรานั้นเรียกว่าการแปลงและขึ้นอยู่กับเปอร์เซ็นต์ของผู้ใช้ที่เข้าชมเว็บไซต์และซื้อสิ่งต่างๆ

ดังนั้นเราต้องการทดสอบการเปลี่ยนสีของปุ่มซื้อจากสีเขียวเป็นสีน้ำเงิน

การควบคุมคือสิ่งที่เรามีอยู่แล้วปุ่มสีเขียวที่เรารู้ว่าอัตราการแปลงโดยเฉลี่ยของเราคืออะไร การทดลองกำลังแทนที่ปุ่มสีเขียวด้วยปุ่มสีฟ้า

เราเห็นด้วยอย่างมีนัยสำคัญ 95% คือระดับความมั่นใจที่เรามีความสุขและเราเปิดการทดสอบปล่อยให้มันทำงาน

เมื่อผู้ใช้เยี่ยมชมเว็บไซต์เบื้องหลังมีโอกาส 50/50 พวกเขาจะถูกส่งไปยังรุ่นควบคุม (ปุ่มสีเขียว) เทียบกับรุ่นทดสอบ (ปุ่มสีน้ำเงิน)

หลังจากดูการทดสอบหลังจาก 7 วันฉันเห็นการแปลงเพิ่มขึ้น 10.2% ตามการทดลองด้วยขนาดตัวอย่าง 3000 (1500 ไปสู่การควบคุม 1500 การทดลอง 1500 และนัยสำคัญทางสถิติที่ 99.2% ยอดเยี่ยมฉันคิดว่า

การทดสอบดำเนินต่อไปขนาดของตัวอย่างเพิ่มขึ้นจากนั้นฉันเห็นการแปลงเพิ่มขึ้น + 9% โดยมีนัยสำคัญที่ 98.1% ตกลงให้การทดสอบทำงานต่อไปนานขึ้นและตอนนี้การทดลองแสดงให้เห็นว่าการแปลงเพิ่มขึ้น 5% โดยมีนัยสำคัญทางสถิติเพียง 92% โดยกรอบการทำงานบอกฉันว่าฉันต้องการตัวอย่างเพิ่ม 4600 ก่อนที่จะถึงนัยสำคัญ 95%?

การทดสอบสรุปได้ในจุดใด?

ถ้าฉันคิดว่ากระบวนการทดลองทางคลินิกที่คุณเห็นด้วยกับขนาดตัวอย่างล่วงหน้าและเมื่อเสร็จสิ้นการทดสอบคุณจะเห็นการปรับปรุง 10% ของค่าใดก็ตามที่มีนัยสำคัญถึง 99% การตัดสินใจจะทำให้ยานั้นออกสู่ตลาด แต่ถ้าพวกเขาทำการทดลองกับคน 4,000 คนและพวกเขาเห็นว่าการปรับปรุง 5% ของสิ่งใดก็ตามที่มีค่านัยสำคัญเพียง 92% ก็จะไม่อนุญาตให้ยาเสพติดออกสู่ตลาด

เราควรเห็นด้วยกับขนาดตัวอย่างล่วงหน้าและหยุดทันทีเมื่อถึงขนาดของตัวอย่างและมีความสุขกับผลลัพธ์หากความสำคัญคือ 99% ณ จุดที่ปิดการทดลองหรือไม่


1
คุณอาจพิจารณาใช้วิธีการที่แตกต่างกันขึ้นอยู่กับการจัดอันดับและการเลือก
pjs

ฉันเจอหนังเรื่องนี้ ( youtube.com/watch?v=fl9V0U2SGeI ) ฟังดูฉันชอบมันตอบคำถามคุณอย่างแน่นอน
นาธาน

สิ่งที่ควรค่าแก่การสังเกตคือการสะท้อนกลับสูงเคลื่อนไหวเร็วและต้องมีการทดสอบซ้ำอย่างต่อเนื่อง เลย์เอาต์, สี, ปุ่ม ฯลฯ เคลื่อนไหวอย่างรวดเร็วเมื่อมีไซต์ใหม่มาตรฐานและสไตล์ปรากฏ นอกจากนี้ยังมีปัญหาการรวมตัวกันในระดับสูง (ปุ่มนั้นอาจให้ผลลัพธ์ที่แตกต่างกันด้วยการปรับแต่งเล็กน้อยเพื่อสีพื้นหลัง ฯลฯ ) ด้วยเหตุนี้ไม่ว่าคุณจะมีระดับความสำคัญสูงเท่าใดคุณก็จะไม่มั่นใจในระดับ 'จริง' ที่สูงมาก (และไม่แน่นอนเป็นเวลานาน) แม้ว่าผลลัพธ์จะดูแข็งแกร่งก็ตาม
ฟิลิป

คำตอบ:


11

ฉันคิดว่าแนวคิดที่คุณกำลังค้นหาคือการวิเคราะห์ตามลำดับ มีคำถามจำนวนหนึ่งในไซต์นี้ที่ติดแท็กด้วยคำศัพท์ที่คุณอาจพบว่ามีประโยชน์หรืออาจเป็นการปรับค่า p สำหรับการวิเคราะห์ตามลำดับแบบปรับตัว (สำหรับการทดสอบไคสแควร์) จะเป็นจุดเริ่มต้น นอกจากนี้คุณยังสามารถปรึกษาบทความวิกิพีเดียที่นี่ ข้อความค้นหาที่มีประโยชน์อีกคำหนึ่งคือการใช้จ่ายอัลฟ่าซึ่งมาจากข้อเท็จจริงที่ว่าเมื่อคุณดูแต่ละครั้งคุณควรพิจารณาว่าเป็นการใช้อัลฟ่าของคุณ (ระดับนัยสำคัญ) หากคุณแอบดูข้อมูลของคุณโดยไม่คำนึงถึงการเปรียบเทียบหลาย ๆ อย่างคุณจะพบกับปัญหาที่คุณนึกถึงในคำถาม


ขอบคุณนั่นคือคำแนะนำการอ่านที่ดี ฉันไม่รู้ด้วยซ้ำว่าจะต้องค้นหาอะไรเป็นอย่างอื่น จะกินสิ่งนี้
เทคโนโลยี 75

5

การทดสอบสรุปได้ในจุดใด?

ฉันคิดว่านี่เป็นข้อผิดพลาดในการคิด ไม่มีประเด็นใดที่การทดลองจะเป็น "ข้อสรุป" หากคุณทำเช่นนั้นเพื่อหมายถึง เมื่อคุณทำการทดสอบที่เกี่ยวข้องกับการทดสอบทางสถิติคุณต้องให้คำมั่นสัญญาว่าหลักฐานใดที่คุณคิดว่าดีพอ

ขั้นตอนการทดลองทางสถิติเชิงเสียงให้ผลลัพธ์ที่มีอัตราเป็นบวกที่เป็นเท็จและเชิงลบที่เป็นที่รู้จัก หากคุณเลือกขั้นตอนที่ใช้ 0.05 เป็นเกณฑ์สำหรับความสำคัญคุณกำลังบอกว่าคุณยินดีที่จะยอมรับว่าใน 5% ของกรณีที่ไม่มีความแตกต่างจริงการทดสอบของคุณจะบอกคุณว่ามีความแตกต่าง

หากคุณเบี่ยงเบนจากขั้นตอนตามวิธีที่คุณอธิบาย (ไม่เลือกจุดหยุดก่อนเวลาเพียงแค่รันการทดสอบจนกว่าค่า p ที่คำนวณของคุณจะลดลงต่ำกว่า 0.05 หรือทำการทดสอบทั้งหมดหลายครั้งจนกว่าคุณจะได้รับผลบวก ฯลฯ ) คุณทำให้มีโอกาสมากขึ้นที่การทดสอบของคุณจะบอกคุณว่ามีความแตกต่างอยู่เมื่อในความเป็นจริงไม่มีความแตกต่าง คุณกำลังทำให้มีแนวโน้มว่าคุณจะถูกหลอกว่าการเปลี่ยนแปลงของคุณมีประสิทธิภาพ อย่าปล่อยให้ตัวเองหลงกล

อ่านบทความนี้: จิตวิทยาเชิงบวกที่ไม่เปิดเผยความยืดหยุ่นในการรวบรวมและวิเคราะห์ข้อมูลช่วยให้การนำเสนอสิ่งใดมีความสำคัญ

มันเน้นหลายวิธีที่คุณสามารถเข้าไปแทรกแซงกระบวนการทดสอบที่ทำให้คุณถูกหลอกได้ง่ายขึ้นรวมถึงสถานการณ์ที่แน่นอนที่คุณอธิบาย (ไม่ทราบว่าจะหยุดการทดสอบเมื่อใด)

คำตอบอื่น ๆ ให้แนวทางแก้ไขปัญหากับคุณ (การวิเคราะห์ตามลำดับการแก้ไข Bonferroni สำหรับการเปรียบเทียบหลาย ๆ แบบ) แต่การแก้ปัญหาเหล่านั้นในขณะที่ความสามารถในการควบคุมอัตราการบวกเท็จซึ่งโดยปกติจะลดการใช้พลังงานของการทดลองทำให้มีโอกาสน้อยที่จะตรวจสอบความแตกต่างเมื่อพวกเขาทำมีอยู่


มีข้อผิดพลาดอื่นที่คุณกำลังทำอยู่ คุณพูดถึง "การปรับปรุง 10% ของค่าใด ๆ ก็ตามที่มีนัยสำคัญถึง 99%" การทดสอบความสำคัญเท่านั้นสามารถบอกคุณได้ว่าความแตกต่างที่สังเกตในตัวอย่างของคุณน่าจะเป็นเพราะความแตกต่างพื้นฐานจริงหรือเพียงแค่เสียงรบกวนแบบสุ่ม; พวกเขาไม่ได้ให้ช่วงความมั่นใจแก่คุณเกี่ยวกับขนาดที่แท้จริงของความแตกต่าง


3

ฉันคิดว่าคุณกำลังถามคำถามผิดที่นี่ คำถามที่คุณถามนั้นเกี่ยวกับการทดสอบทางสถิติ ฉันคิดว่าคำถามที่ถูกต้องคือ "ทำไมเอฟเฟกต์ถึงเปลี่ยนแปลงตลอดเวลา"

หากคุณกำลังวัดตัวแปร 0/1 สำหรับการแปลง (พวกเขาซื้อเลยหรือไม่) ผู้ที่ไม่ได้ซื้อในช่วงเริ่มต้นอาจกลับมาซื้อในภายหลัง ซึ่งหมายความว่าอัตราการแปลงจะเพิ่มขึ้นเมื่อเวลาผ่านไปและผลกระทบใด ๆ ของการมีลูกค้าที่ซื้อในครั้งแรกเมื่อเทียบกับการเข้าชมในภายหลังจะหายไป

กล่าวอีกนัยหนึ่งก่อนให้ถูกสิ่งที่คุณวัดแล้วกังวลว่าคุณวัดอย่างไร


3

นี่คือสาเหตุที่ต้องมีการกำหนดเกณฑ์ที่ชัดเจนก่อนการทดลอง ในฐานะที่เป็น @mdewey บ่งชี้ว่ามีวิธีการที่กำหนดไว้สำหรับการประเมินผลการทดลองเป็นระยะ แต่สิ่งเหล่านี้ต้องมีเกณฑ์การหยุดที่ชัดเจนเพื่อป้องกันไม่ให้เกิดความเหลวไหลในการตัดสินใจ ปัญหาที่สำคัญสองประการคือคุณต้องแก้ไขให้ถูกต้องสำหรับการเปรียบเทียบหลาย ๆ ครั้งและแต่ละการวิเคราะห์นั้นไม่ขึ้นอยู่กับความเป็นอิสระ แต่ผลลัพธ์นั้นได้รับอิทธิพลอย่างมากจากผลลัพธ์ของการวิเคราะห์ก่อนหน้าของคุณ

อาจเป็นแนวทางปฏิบัติที่ดีที่สุดในการกำหนดขนาดตัวอย่างที่กำหนดตามอาร์กิวเมนต์ที่เกี่ยวข้องในเชิงพาณิชย์

ก่อนอื่น บริษัท ควรเห็นด้วยว่าการเปลี่ยนแปลงอัตราการแปลงที่เกี่ยวข้องเชิงพาณิชย์คืออะไร (เช่นขนาดที่แตกต่างกันคือสิ่งที่จำเป็นในการรับประกันว่าจะเป็นคดีพาณิชย์สำหรับการเปลี่ยนแปลงที่จะนำไปใช้อย่างถาวร) หากไม่ยอมรับสิ่งนี้ไม่มีมาตรฐานที่เหมาะสม

เมื่อกำหนดขนาดของเอฟเฟกต์ที่เกี่ยวข้องขั้นต่ำในเชิงพาณิชย์แล้ว (โปรดทราบว่าสิ่งนี้อาจเปลี่ยนแปลงได้ในแต่ละกรณีขึ้นอยู่กับความสำคัญของการทดสอบขั้นตอน) คุณยอมรับระดับความเสี่ยงที่ บริษัท ยินดียอมรับสำหรับผลที่แท้จริง ( เบต้า) และสำหรับการยอมรับผลผิดพลาด (อัลฟา)

เมื่อคุณมีตัวเลขเหล่านี้เสียบเข้ากับเครื่องคิดเลขขนาดตัวอย่างและ voila คุณจะมีขนาดตัวอย่างที่ตั้งไว้เพื่อการตัดสินใจ


แก้ไข

การใช้กลุ่มตัวอย่างขนาดเล็กและหวังว่าพวกเขาจะแสดงผลมากพอเป็นเศรษฐกิจที่ผิดพลาด (เนื่องจากเป้าหมายของคุณคือผลลัพธ์ที่เชื่อถือได้ซึ่งสามารถดำเนินการได้แทนที่จะสร้างสมมติฐานที่ขัดแย้งสำหรับการตีพิมพ์เชิงวิชาการ) สมมติว่าการสุ่มตัวอย่างแบบไม่เอนเอียงในขนาดตัวอย่างที่ต่ำความน่าจะเป็นในการเลือกตัวอย่างแบบสุ่มที่เกิดขึ้นในช่วงสุดขั้วตรงข้ามจะสูงกว่าในขนาดตัวอย่างที่สูง สิ่งนี้นำไปสู่ความเป็นไปได้สูงที่จะปฏิเสธสมมติฐานว่างเมื่ออันที่จริงไม่มีความแตกต่าง ดังนั้นนี่หมายถึงการผลักดันผ่านการเปลี่ยนแปลงที่ไม่ได้สร้างผลกระทบที่แท้จริงหรือแย่ลงไปอีกเมื่อมีผลกระทบด้านลบเล็กน้อย นี่เป็นวิธีที่แตกต่างกันในการอธิบายสิ่งที่วิทยาศาสตร์กำลังพูดถึงเมื่อพวกเขาระบุ

"คุณกำลังทำให้มีโอกาสมากขึ้นที่การทดสอบของคุณจะบอกคุณว่ามีความแตกต่างอยู่เมื่อในความเป็นจริงไม่มีความแตกต่าง"

จุดของการระบุการวิเคราะห์ทางสถิติของคุณล่วงหน้า (ไม่ว่าจะเป็นขนาดตัวอย่างแบบคงที่ตามที่ฉันอธิบายหรือกลยุทธ์การประเมินหลายอย่าง) คือคุณสมดุลความต้องการของข้อผิดพลาดทั้งประเภท I และ II อย่างเหมาะสม กลยุทธ์ปัจจุบันของคุณดูเหมือนจะมุ่งเน้นไปที่ข้อผิดพลาดประเภทที่ 1 และไม่สนใจประเภท II อย่างสมบูรณ์

เนื่องจากผู้ตอบคนอื่น ๆ ระบุว่าผลลัพธ์ไม่ได้ข้อสรุป แต่ถ้าคุณพิจารณาข้อผิดพลาดทั้งประเภท I และ II และผลกระทบต่อธุรกิจของคุณคุณจะมีความมั่นใจมากที่สุดที่คุณสามารถหวังได้ว่าจะใช้การเปลี่ยนแปลงตามผลลัพธ์หรือไม่ ในการตัดสินใจขั้นสุดท้ายคือการรู้สึกสบายใจกับระดับความเสี่ยงของคุณและไม่เคยปฏิบัติต่อ 'ข้อเท็จจริง' ของคุณว่าไม่เปลี่ยน

ฉันรู้สึกทึ่งกับแง่มุมอื่น ๆ ของการออกแบบการศึกษาของคุณที่อาจส่งผลต่อผลลัพธ์ที่คุณเห็น พวกเขาอาจเปิดเผยปัจจัยบางอย่างที่ไม่ใช่สิ่งที่คุณต้องการ

คนที่ถูกเลือกสำหรับตัวอย่างผู้เข้าชมใหม่ทั้งหมดผู้เข้าชมที่กลับมาทั้งหมดหรือไม่ได้แตกต่างกันหรือไม่ ลูกค้าที่ก่อตั้งแล้วอาจมีแนวโน้มเพิ่มขึ้นที่จะไปหาอะไรแปลกใหม่ (ดังนั้นความเอนเอียงต่อการเปลี่ยนแปลงไม่ใช่สีที่เฉพาะเจาะจง) แต่สำหรับลูกค้าใหม่ทุกอย่างใหม่

คนจริงคลิกที่เกิดขึ้นอีกครั้งภายในระยะเวลาของการศึกษาหรือไม่?

หากผู้คนเข้าชมหลายครั้งในช่วงเวลาของการศึกษาพวกเขาจะได้รับการนำเสนอด้วยรุ่นเดียวกันหรือมีการจัดสรรแบบสุ่มหรือไม่

หากรวมผู้เยี่ยมชมที่เกิดขึ้นประจำจะมีอันตรายจากความเมื่อยล้าจากการสัมผัส (จะไม่ทำให้เสียสมาธิอีกต่อไปเพราะไม่ใช่เรื่องใหม่อีกต่อไป)


ขอบคุณสำหรับสิ่งนี้. คุณเป็นจุดที่ดีเกี่ยวกับการยอมรับการเปลี่ยนแปลงที่เกี่ยวข้องในเชิงพาณิชย์ในการแปลงล่วงหน้า แต่เมื่อเห็นด้วย e-Commerce การเปลี่ยนแปลงเล็กน้อยในการแปลงอาจส่งผลกระทบต่อยอดขายมันจะค่อนข้างคุ้มค่า
เทคโนโลยี 75

ความแตกต่างขั้นต่ำที่จำเป็นในการมีขนาดเล็กนั้นไม่ใช่ปัญหามันจะทำให้แน่ใจว่าคุณใช้พลังงานอย่างเหมาะสม
ReneBt

0

การปฏิบัติทั่วไปมักจะบอกให้คุณตัดสินใจขนาดตัวอย่างก่อน (เพื่อควบคุมพลังทางสถิติของการทดสอบสมมติฐานของคุณ) จากนั้นทำการทดสอบ

ในการตอบสนองต่อตำแหน่งปัจจุบันของคุณดูเหมือนว่าคุณจะได้ทำการทดสอบสมมติฐานต่อเนื่องหลายครั้ง ฉันแนะนำให้คุณดูวิธีการของฟิชเชอร์ นอกจากนี้คุณอาจต้องการดูวิธีการของ Brown's หรือ Kost เพื่อรองรับวิธี Fisher กับสถิติการทดสอบที่ขึ้นต่อกัน ดังที่ผู้ตอบคนอื่นได้กล่าวถึงการแปลงของลูกค้า (หรือไม่แปลง) จะส่งผลกระทบไม่ว่าพวกเขาจะทำการซื้อ (หรือไม่) ในการเข้าชมครั้งต่อไป - ไม่ว่าปุ่มจะเป็นสีใดก็ตาม

afterthoughts:

  1. ข้อมูลและแหล่งข้อมูลเพิ่มเติมเกี่ยวกับวิธีการของฟิชเชอร์และส่วนขยายสามารถดูได้ในบทความ Wikipedia สำหรับวิธีการของฟิชเชอร์
  2. ผมรู้สึกว่ามันเป็นสิ่งสำคัญที่จะพูดถึงว่าการทดลองไม่เคยจริงๆข้อสรุป ค่า p ขนาดเล็กไม่ได้ระบุว่าผลลัพธ์ของคุณเป็นข้อสรุป - เพียงว่าสมมติฐานว่างไม่น่าจะขึ้นอยู่กับข้อมูลที่คุณได้รับ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.