ทำไมอคติจึงได้รับผลกระทบเมื่อการทดลองทางคลินิกสิ้นสุดลงตั้งแต่แรก?


24

การวิเคราะห์ชั่วคราวเป็นการวิเคราะห์ข้อมูลที่จุดเวลาหนึ่งหรือหลายจุดก่อนปิดการศึกษาอย่างเป็นทางการโดยมีเจตนาเช่นอาจยุติการศึกษาก่อนเวลา

อ้างอิงจากส Piantadosi, S. ( การทดลองทางคลินิก - มุมมองระเบียบวิธี ): " การประเมินผลการรักษาจะลำเอียงเมื่อการทดลองสิ้นสุดลงในระยะแรกการตัดสินใจก่อนหน้านี้มีอคติที่มากขึ้น "

คุณช่วยอธิบายเรื่องนี้ให้ฉันฟังได้ไหม ฉันสามารถเข้าใจได้อย่างง่ายดายว่าความแม่นยำจะได้รับผลกระทบ แต่การเรียกร้องเกี่ยวกับอคตินั้นไม่ชัดเจนสำหรับฉัน ...


ฉันคิดว่านี่เป็นคำถามที่สมบูรณ์แบบในการ "แยกออก" ความแตกต่างระหว่างวิธีการแบบเบย์และวิธีการเป็นประจำ
ความน่าจะ

คำตอบ:


13

ก่อนอื่นคุณต้องทราบบริบท: สิ่งนี้ใช้ได้เฉพาะเมื่อการทดลองถูกหยุดก่อนเนื่องจากการตรวจสอบระหว่างกาลแสดงให้เห็นว่ามีประสิทธิภาพ / ไม่ได้ผลสำหรับเหตุผลภายนอกบางอย่าง ในกรณีดังกล่าวการประเมินขนาดของเอฟเฟกต์จะมีอคติในแง่สถิติอย่างสมบูรณ์ หากคุณหยุดรับรู้ความสามารถผลที่คาดการณ์ไว้จะสูงเกินไป (สมมติว่าเป็นบวก) ถ้าคุณหยุดเพื่อความไร้ประโยชน์มันจะต่ำเกินไป

Piantodosi ก็ให้คำอธิบายที่เข้าใจง่ายเช่นกัน (ตอนที่ 10.5.4 ในรุ่นของฉัน) สมมติว่าความแตกต่างที่แท้จริงในสองวิธีคือ 1 หน่วย เมื่อคุณทำการทดลองจำนวนมากและมองไปที่การวิเคราะห์ชั่วคราวของคุณบางส่วนจะสังเกตเห็นขนาดของเอฟเฟกต์ที่สูงกว่า 1 บางอันต่ำกว่าหนึ่งและต่ำกว่า 1 และส่วนใหญ่ประมาณ 1 - การกระจายจะกว้าง แต่สมมาตร ขนาดของเอฟเฟกต์โดยประมาณ ณ จุดนี้จะไม่แม่นยำมาก แต่จะไม่เอนเอียง อย่างไรก็ตามคุณจะหยุดและรายงานขนาดของเอฟเฟกต์ถ้าความแตกต่างนั้นสำคัญ (ปรับสำหรับการทดสอบหลายครั้ง) นั่นคือค่าประมาณนั้นอยู่ในระดับสูง ในกรณีอื่น ๆ ทั้งหมดคุณจะไปเรื่อย ๆ และไม่รายงานการประมาณ นั่นหมายความว่าเงื่อนไขในการหยุดก่อนการกระจายของขนาดผลไม่สมมาตรและค่าที่คาดหวังสูงกว่าค่าที่แท้จริงของการประมาณ

ความจริงที่ว่าเอฟเฟ็กต์นี้รุนแรงมากขึ้นในช่วงต้นมาจากอุปสรรค์ที่ใหญ่กว่าสำหรับการหยุดการทดลองดังนั้นส่วนใหญ่ของการกระจายที่ถูกโยนทิ้งไประหว่างการปรับสภาพ


1
ตอนแรกฉันก็คิดแบบนี้เหมือนกัน แต่เมื่อฉันนั่งลงเพื่อพิสูจน์มันฉันก็ทำไม่ได้: ฉันทำได้แค่แสดงให้เห็นว่าการประเมินที่เกิดขึ้นจริงนั้นไม่เอนเอียง (สัญชาตญาณใหม่: อคติเชิงบวกจากการหยุดแบบมีเงื่อนไขทำให้สมดุลอคติเชิงลบจากการดำเนินการทดสอบจนแล้วเสร็จ) ดังนั้น: คุณสามารถนำเสนอการสาธิตที่เข้มงวดมากขึ้นได้ไหม?
whuber

@whuber ฉันจะพยายามที่จะเขียนมันขึ้น แต่ประเด็นก็คือว่าคำสั่ง Piantodosi เป็นเพียงเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อคุณทำหยุดต้น ยังไม่เสร็จสมบูรณ์เพื่อความสมดุล
Aniko

2
@whuber ใช่นั่นคือสิ่งที่คำสั่งเดิมอ้างเช่นกัน ประเด็นของคุณที่ว่าจะมีอคติตรงข้ามกับเงื่อนไขในการศึกษาให้เสร็จสมบูรณ์นั้นก็มีผลเช่นกัน ข้อความทั้งหมดควรเป็นเมื่อคุณเริ่มทำการตรวจสอบระหว่างกาลสิ่งที่ตลกเริ่มเกิดขึ้นกับความสามารถของคุณในการประมาณขนาดเอฟเฟกต์
Aniko

3
@Aniko มันเป็นไปได้ที่จะทำการปรับค่าอคติเมื่อมีการเลิกจ้างก่อนกำหนด ดังนั้นเราจึงดูเหมือนจะคุยกันเรื่องการใช้เครื่องมือประเมินมาตรฐานที่ไร้เดียงสาซึ่งมีไว้สำหรับกลุ่มตัวอย่างที่มีขนาดคงที่ในการทดลองที่ถูกยกเลิกแบบมีเงื่อนไขซึ่งผู้ประเมินดังกล่าวไม่มีคุณสมบัติที่ต้องการ (+1 ตามวิธี)
whuber

2
@whuber แน่นอนคุณสามารถปรับความลำเอียงนี้ได้ แต่ก่อนอื่นคุณต้องตระหนักว่ามันมีอยู่จริง จากนั้นคุณต้องขายให้กับผู้ตรวจสอบแม้ว่าผู้ป่วย 5 ใน 10 คนตอบอย่างชัดเจน แต่อัตราการตอบสนองโดยประมาณคือ 40% (ตัวเลขที่ทำขึ้น) หลังจากปรับค่าไบอัสเนื่องจากหยุดก่อน
Aniko

3

นี่คือตัวอย่างของการมีอคติเกิดขึ้นในบทสรุปได้อย่างไรและทำไมมันจึงไม่ใช่เรื่องเต็ม สมมติว่าคุณมีการทดลองใช้ยาตามลำดับซึ่งคาดว่าจะมีผลในเชิงบวก (+1) แต่อาจมีผลเสีย (-1) ห้าหนูตะเภามีการทดสอบหนึ่งหลังจากที่อื่น ความน่าจะเป็นที่รู้จักของผลบวกในกรณีเดียวคือในความเป็นจริงและผลเชิงลบ{4} 13414

ดังนั้นหลังจากห้าการทดลองความน่าจะเป็นของผลลัพธ์ที่แตกต่างกันคือ

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

ดังนั้นความน่าจะเป็นของผลบวกโดยรวมคือ 918/1024 = 0.896 และค่าเฉลี่ยคือ +2.5 หารด้วย 5 การทดลองนี่เป็นค่าเฉลี่ยของ +0.5 ผลต่อการทดลอง

มันเป็นตัวเลขที่เป็นกลางขณะที่มันยังเป็น{4}+1×341×14

สมมติว่าเพื่อป้องกันหนูตะเภาการศึกษาจะยุติลงหากผลการทดลองเป็นลบ จากนั้นความน่าจะเป็น

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

ดังนั้นความน่าจะเป็นของผลบวกโดยรวมคือ 702/1024 = 0.6855 และค่าเฉลี่ยคือ +1.953 หากเราดูค่าเฉลี่ยของผลลัพธ์ต่อการทดลองในการคำนวณครั้งก่อนนั่นคือใช้ , , , ,และจากนั้นเราจะได้ +0.184 +3+55 +1+35 -1+15 -115 -11311

นี่คือความรู้สึกที่มีอคติโดยหยุดในช่วงแรกของแผนการที่สองและอคติอยู่ในทิศทางที่ทำนายไว้ แต่มันไม่ใช่เรื่องเต็ม

เหตุใดคนผิวขาวและความน่าจะเป็นคิดว่าการหยุดเร็วควรให้ผลลัพธ์ที่เป็นกลาง เรารู้ว่าผลลัพธ์ที่คาดหวังจากการทดลองในรูปแบบที่สองคือ +1.953 จำนวนการทดลองที่คาดหวังจะกลายเป็น 3.906 ดังนั้นการหารทีละอันเราจะได้ +0.5 ตรงตามก่อน


คุณกำลังมองมุมมองของโลก "ข้อมูลล่วงหน้า" สิ่งที่คุณพูดเป็นความจริงว่าการหยุดเรื่องกฎแต่ก่อนที่จะพิจารณาข้อมูล นี่เป็นเพราะกฎการหยุดให้ข้อมูลเกี่ยวกับข้อมูล แต่ไม่เกี่ยวกับความน่าจะเป็นที่แท้จริง ดังนั้นเมื่อข้อมูลอยู่ในกฎการหยุดจะไม่สำคัญอีกต่อไป โปรดทราบว่าความน่าจะเป็นที่แท้จริงนั้นไม่เป็นที่รู้จักในการทดสอบจริง ดังนั้นคุณต้องพิจารณาสถานการณ์เมื่อความน่าจะเป็นพูดและเช่นเดียวกับชุดค่าผสมอื่น ๆ ที่เป็นไปได้ P(-)=3P(+)=14P()=34
ความน่าจะเป็นทางการ

ดังนั้นผมจึงนำตัวอย่างของคุณเป็นที่ระบุว่าI) นี่เป็นเรื่องจริงอย่างแน่นอน! คำตอบของฉันยังมีเงื่อนไขในแม้ว่า นี่เป็นเพราะถ้าคุณบอกกฎการหยุด แต่ไม่ว่าคุณจะหยุดจริงหรือไม่ฉันสามารถคิดออกจากชุดข้อมูลที่ฉันมีอยู่จริง ที่จริงแล้วฉันสามารถทราบได้ว่ากฎการหยุดใด ๆจะหยุดจริง ๆ หรือไม่เมื่อฉันรู้ข้อมูล DP(H|S,I)P(H|I)D
ความน่าจะเป็นทางการ

1

ดีความรู้ของฉันเกี่ยวกับเรื่องนี้มาจากคำปราศรัย Harveian ในปี 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 เป็น หลักเพื่อที่ดีที่สุดของความทรงจำของฉันผลลัพธ์จะลำเอียงเป็น 1) หยุดก่อน มักจะหมายถึงว่าการรักษานั้นมีประสิทธิภาพมากกว่าหรือน้อยกว่าที่คาดหวังไว้และถ้าสิ่งนี้เป็นผลบวกคุณอาจกำลังลงทุนในโอกาสนั้น ฉันเชื่อว่าค่า p ถูกคำนวณตามขนาดตัวอย่างที่วางแผนไว้ (แต่ฉันอาจผิดกับเรื่องนี้) และหากคุณตรวจสอบผลลัพธ์อย่างต่อเนื่องเพื่อดูว่ามีการแสดงผลใด ๆ คุณต้องแก้ไขให้ถูกต้องสำหรับการเปรียบเทียบหลายรายการ เพื่อประกันว่าคุณจะไม่เพียง แต่ค้นหาโอกาสที่จะเกิดผล ตัวอย่างเช่นหากคุณตรวจสอบ 20 ครั้งสำหรับค่า p ด้านล่าง. 05 ดังนั้นการพูดเชิงสถิติคุณเกือบจะแน่ใจว่าจะพบผลลัพธ์ที่สำคัญหนึ่งรายการ


ตอนที่ 1ก่อนอื่นขอขอบคุณสำหรับคำตอบของคุณ อันที่จริงวิธีการบ่อยถูกต้องสำหรับการทดสอบหลาย ๆ ดังนั้นปัญหาของการประเมินผลการบำบัดแบบลำเอียงจึงไม่สามารถเกิดขึ้นได้ ในการวิเคราะห์ชั่วคราวการทดสอบจะขึ้นอยู่กับข้อมูลปัจจุบันโดยใช้ขนาดตัวอย่างปัจจุบันไม่ใช่ขนาดตัวอย่างโดยรวมที่วางแผนไว้ ดังนั้นปัญหาไม่ได้มาจากที่นั่นเช่นกัน
ocram

PART2ผมเห็นว่าการหยุดในช่วงต้นอาจหมายถึงว่าการรักษาคือ "มีประสิทธิภาพมากกว่าหนึ่งกระโดด" ในแง่ที่ว่าผลการรักษาโดยประมาณจะมีขนาดใหญ่กว่าที่คาดไว้ แต่ตามฉันแล้วนี่ไม่ได้ทำให้มันลำเอียง ... ตามที่ฉันพูดในบางแง่มุม "ความหวังของเราคือลำเอียง"
ocram

1

ฉันจะไม่เห็นด้วยกับการเรียกร้องนั้นเว้นแต่โดย "อคติ" Piantadosi หมายความว่าส่วนหนึ่งของความถูกต้องซึ่งมักเรียกว่าอคติ การอนุมานจะไม่เป็น "ลำเอียง" เพราะคุณเลือกที่จะหยุดต่อ se: มันจะเป็น "ลำเอียง" เพราะคุณมีข้อมูลน้อยลง "หลักการความน่าจะเป็น" ที่เรียกว่าระบุว่าการอนุมานควรขึ้นอยู่กับข้อมูลที่ถูกสังเกตเท่านั้นและไม่ใช่ข้อมูลที่อาจสังเกตได้ แต่ไม่ใช่ LP พูดว่า

P(H|D,S,I)=P(H|D,I)

HDSIDIS=g(D,I)AA=ADS=g(D,I)DID,S,I=D,g(D,I),I=D,IDI


@probabilityislogic: ขอบคุณ! หากฉันเข้าใจเป็นอย่างดีไม่ควรใช้อคติ "ในเชิงสถิติ" ฉันคิดว่ามันสมเหตุสมผลเพราะ Piantadosi พูดเกี่ยวกับ "อคติ" ของการประมาณและไม่ใช่ตัวประมาณ ...
ocram

E(μμ^)2=var(μ^)+Bias(μ^)μμ^คือ "ตัวประมาณ" หากคำที่สอง (ความลำเอียง) ขึ้นอยู่กับขนาดตัวอย่างคุณจะคาดหวังว่าการหยุดก่อนจะเพิ่มความลำเอียงเพราะมันลดขนาดตัวอย่างเมื่อเทียบกับหากการทดสอบดำเนินต่อไป แต่จากสิ่งที่คุณพูดดูเหมือนว่า "อคติ" ควรตีความว่าเป็น "ข้อผิดพลาด" จากมุมมองของ Piantadosi
ความน่าจะเป็นทาง

1
อาร์กิวเมนต์นี้ไม่ได้บอกอะไรเกี่ยวกับความเอนเอียงเพียงการทดสอบสมมติฐานของปัญหาซึ่งไม่มีใครถาม
Aniko

@Prob ฉันต้องเห็นด้วยกับ @Aniko: เห็นได้ชัดว่าเมื่อโมฆะเป็นจริงมีความเป็นไปได้ในเชิงบวกของการเลิกจ้างก่อนหน้านี้ซึ่งในกรณีนี้การประเมินผลกระทบจะเป็นศูนย์ ดังนั้นความคาดหวังของผลกระทบโดยประมาณซึ่งมีเงื่อนไขในการยกเลิกก่อนกำหนดเป็นบวกในขณะที่ความคาดหวังที่ไม่มีเงื่อนไขเป็นศูนย์ (ขอให้สังเกตว่า OP กำลังจัดการกับการประมาณไม่ใช่การทดสอบสมมติฐาน)
whuber

Hμ(a,a+da)SDISSSDIμ
ความน่าจะเป็นทางการที่

0

มีจะเป็นอคติ (ใน "ความรู้สึกทางสถิติ") ถ้าการเลิกจ้างของการศึกษาไม่ได้เป็นแบบสุ่ม

ในชุดการทดลองวิ่งไปสู่ข้อสรุปผลลัพธ์ "เริ่มต้น" ของ (a) การทดลองบางอย่างที่ท้ายที่สุดพบว่า "ไม่มีผล" จะแสดงผลบางอย่าง (จากโอกาส) และ (b) การทดลองบางอย่างที่หา ผลจะแสดง "ไม่มีผล" (น่าจะเป็นผลมาจากการขาดพลังงาน) ในโลกที่คุณยุติการทดลองถ้าคุณหยุด (ก) บ่อยกว่า (ข) คุณจะต้องจบการศึกษาด้วยอคติเพื่อหาผลกระทบ (ตรรกะเดียวกันนี้ใช้กับขนาดของเอฟเฟกต์; การยกเลิกการศึกษาที่แสดงผล "ใหญ่กว่าที่คาดไว้" ในช่วงต้นมักจะมากกว่าที่แสดง "ตามที่คาดไว้หรือต่ำกว่า" จะทำให้จำนวนการค้นพบของ

หากในความเป็นจริงการทดลองทางการแพทย์สิ้นสุดลงเมื่อผลลัพธ์เริ่มต้นแสดงผลในเชิงบวก - เพื่อให้การรักษาผู้ป่วยที่ได้รับยาหลอกหรืออื่น ๆ - แต่ไม่ใช่เมื่อผลการทดสอบเบื้องต้นไม่สามารถสรุปได้ดังนั้นจะมีข้อผิดพลาดประเภท 1 มากกว่าในการทดสอบดังกล่าว จะมีหากการทดลองทั้งหมดถูกสรุป แต่นั่นไม่ได้หมายความว่าการฝึกฝนนั้นผิด ค่าใช้จ่ายของความผิดพลาดประเภทที่ 1 การพูดอย่างมีคุณธรรมอาจต่ำกว่าการปฏิเสธการรักษาอย่างเร็วเท่ากับการรักษาแบบอื่นที่แสดงให้เห็นว่าใช้งานได้จริงเมื่อสิ้นสุดการทดลองเต็มรูปแบบ


โปรดดูความคิดเห็นของฉันที่มีต่อคำตอบของ Aniko เพราะฉันจะถามคำถามเดียวกันกับคุณ: คุณช่วยสาธิตที่เข้มงวดกว่านี้ได้ไหม?
whuber

ฉันเลื่อนเวลาไปที่ Aniko - เขาทำงานได้ดีกว่าที่ฉันสามารถทำได้ แต่ถ้าคุณยอมรับว่า "เอฟเฟกต์ลิ้นชักโต๊ะทำงาน" ส่งผลให้มีอคติตรรกะที่นี่จะเหมือนกัน มีอคติในการสนับสนุนข้อมูลของสมมติฐาน - ในกรณี b / c ในอดีตข้อมูลที่ไม่ได้รับการสนับสนุนจะไม่ถูกรายงานใน b / c หลังบางส่วนของข้อมูลที่ไม่สนับสนุนไม่จำเป็นต้องถูกรวบรวม: การสิ้นสุดการทดลอง ต้นเมื่อผลการมองไม่รวมที่ดีที่เป็นส่วนหนึ่งของการจัดจำหน่าย "ผลดี" ประชากรโดยการทดลองที่จะให้ผลลัพธ์ที่ดีของพวกเขาในช่วงปลาย บางทีอคตินี้สามารถปรับได้ - แต่มีอคติที่ต้องการการปรับ
dmk38

@dmk ฉันแค่พยายามกระตุ้นคุณทั้งคู่ให้มีการถกเถียงกับ @Probability ซึ่งคุณดูเหมือนจะไม่เห็นด้วยอย่างมาก ;-)
whuber

1
P(D|H,S,I)

1
@ ความน่าจะเป็นนั่นเป็นวิธีหนึ่งในการดู อีกข้อหนึ่งคือหลบสมมติฐานไปพร้อม ๆ กันและตอบคำถามที่ถูกถามจริง เพื่อปัญญาขนาดของผลการรักษาคืออะไร? จากจุดสิ้นสุดของมุมมองนี้สามารถเกิดขึ้นได้เมื่อการประมาณการเป็นที่รู้จักด้วยความแม่นยำเพียงพอที่จะสนับสนุนการตัดสินใจ ตัวอย่างเช่นเราอาจต้องการมีความมั่นใจสูงว่าการได้รับสุขภาพจากการสั่งจ่ายยามีแนวโน้มที่จะเกินต้นทุน (และผลข้างเคียง) ของการรักษา
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.