เมื่อเราเปรียบเทียบกลุ่มกับตัวแปรควบคุมเราควรใช้การทดสอบความเท่ากันหรือไม่


13

ในเอกสารจำนวนมากที่พิจารณาถึงการรักษาและผลลัพธ์ฉันเห็นตาราง (โดยปกติคือ "ตารางที่ 1") ของสิ่งที่อาจเรียกว่าตัวแปรที่สร้างความรำคาญ (มักเป็นประชากร, เงื่อนไขทางการแพทย์บางครั้ง) พร้อมการทดสอบความสำคัญและข้อความเช่น "กลุ่มต่างๆ ไม่มีความแตกต่างอย่างมีนัยสำคัญใน XXXXX ดูที่ตาราง " ดังนั้นเป้าหมายที่ชัดเจนคือการแสดงให้เห็นว่ากลุ่มที่ได้รับมอบหมายให้รักษาที่แตกต่างกันมีความคล้ายคลึงกัน

อย่างไรก็ตามนี่ดูเหมือนว่าฉันจะชอบ "ยอมรับโมฆะ" และสิ่งที่เราควรจะทำ (หรือเรียกร้องให้ทำ) คือการทดสอบความเท่าเทียมกัน

สิ่งนี้สามารถนำไปใช้กับการทดลองแบบสุ่มหรือการศึกษาเชิงสังเกตการณ์ ฉันทำอะไรบางอย่างหายไปหรือเปล่า


1
ฉันรวบรวมคุณหมายถึง 'ตาราง 1' คุณกำลังถามเกี่ยวกับ RCTs ต่อ se หรือยังศึกษาเชิงสังเกตการณ์?
gung - Reinstate Monica

@ gung ใช่มันมักจะตารางที่ 1 มันอาจจะเป็นการศึกษาเชิงสังเกตการณ์หรือ RCT ฉันแก้ไขคำถามเพื่อสะท้อนความคิดเห็นของคุณ
Peter Flom - Reinstate Monica

1
แม้ว่าฉันจะเสี่ยงต่อการระบุที่ชัดเจน: มีเอกสารบางฉบับที่จัดการปัญหานี้ (เช่นde Boer et al. (2015) ) ฉันคิดว่า consesus คือการทดสอบสมมติฐานควรจะถูกทิ้งในตารางพื้นฐาน คำสั่งCONSORTสำหรับการทดลองทางคลินิกรวมถึงคำสั่ง STROBEสำหรับการศึกษาเชิงสังเกตการณ์แนะนำให้หลีกเลี่ยงการทดสอบสมมติฐานในตารางพื้นฐาน หากการทดสอบความเท่าเทียมดีกว่าฉันก็ไม่รู้
COOLSerdash

ไม่ว่าคุณจะทดสอบกับโมฆะหรือการทดสอบความเท่ากันนั้นขึ้นอยู่กับแรงจูงใจและมีผลต่อการอภิปรายที่สามารถดึงออกมาจากตารางได้ การยืนยันความเท่าเทียมกันเป็นเงื่อนไขที่แข็งแกร่งมากและฉันสงสัยว่าไม่จำเป็นสำหรับกรณีส่วนใหญ่ยกเว้นกรณีที่ผู้เขียนต้องการที่จะสรุปข้อสรุปเกี่ยวกับประชากรและอื่น ๆ มันจะดีกว่าและเหมาะสมกว่าที่จะมีขั้นตอน ประชากร ฉันไม่ได้มองเข้าไปในนั้น แต่จะสนใจในความคิดเห็นของผู้อื่นว่าเป็นอย่างไร
ReneBt

คำตอบ:


10

นี่เป็นปัญหาที่ซับซ้อนที่นำเสนอประเด็นที่เกี่ยวข้องมากมายดังนี้: 1) ระบุสมมติฐานอย่างชัดเจน 2) ทำความเข้าใจกับกลไกเชิงสาเหตุ (อาจ) รองรับผลของสมมติฐานและ 3) ตัวเลือก / รูปแบบการนำเสนอ

คุณสิทธิกำลังว่าถ้าเราใช้ปฏิบัติทางสถิติเสียงเพื่ออ้างว่า "กลุ่มมีความคล้ายกัน" หนึ่งจะต้องมีการดำเนินการทดสอบของความเท่าเทียมกัน อย่างไรก็ตามการทดสอบความเท่าเทียมประสบปัญหาเดียวกันกับ NHST ที่เท่ากัน: อำนาจเป็นเพียงภาพสะท้อนของขนาดตัวอย่างและจำนวนการเปรียบเทียบ: เราคาดหวังความแตกต่าง แต่ขอบเขตและผลกระทบต่อการวิเคราะห์หลักนั้นสำคัญกว่า

เมื่อเผชิญหน้ากับสถานการณ์เหล่านี้การเปรียบเทียบพื้นฐานมักจะเป็นฝูงปลาสีแดง สามารถใช้วิธีการที่ดีกว่า (ของวิทยาศาสตร์และสถิติ) ฉันมีแนวคิดสต็อค / การตอบกลับจำนวนหนึ่งที่ฉันพิจารณาเมื่อตอบคำถามเช่นนี้

คอลัมน์ "รวม" มีความสำคัญมากกว่าคอลัมน์แบบแบ่งย่อยตามการรักษา การอภิปรายจะรับประกันค่าเหล่านั้น

ในการทดลองทางคลินิกตัวอย่างความปลอดภัยมักจะวิเคราะห์ นี่คือส่วนย่อยของผู้ที่ได้รับการติดต่อครั้งแรกจากนั้นยินยอมแล้วสุ่มและในที่สุดก็สัมผัสกับการควบคุมหรือการทำซ้ำอย่างน้อยหนึ่งครั้ง ในกระบวนการนั้นเราเผชิญอคติการมีส่วนร่วมที่แตกต่างกันไป

น่าจะเป็นสิ่งสำคัญที่สุดและละเว้นการศึกษาเหล่านี้จะถูกนำเสนอตารางที่ 1 ผลการรวมกัน สิ่งนี้บรรลุวัตถุประสงค์ที่สำคัญที่สุดของตารางที่ 1: แสดงให้ผู้ตรวจสอบคนอื่น ๆ เห็นได้ว่าตัวอย่างการศึกษาสรุปได้เป็นอย่างไรกับประชากรในวงกว้างซึ่งผลที่ได้นำไปใช้

ฉันพบว่ามันน่าประหลาดใจที่ผู้ตรวจสอบผู้อ่านและผู้ตรวจสอบที่จับจ้องอยู่ในแนวโน้มของวงในลักษณะของผู้ป่วยเมื่อมีการไม่คำนึงถึงเกณฑ์การรวม / การยกเว้นและความสามารถทั่วไปของตัวอย่าง

ฉันรู้สึกละอายที่จะบอกว่าฉันเป็นนักวิเคราะห์เกี่ยวกับการทดลองที่มองข้ามสิ่งนี้ว่าเป็นปัญหา เราคัดเลือกผู้ป่วยจากนั้นเนื่องจากปัญหาด้านลอจิสติกส์เรารอเกือบหนึ่งปีก่อนที่จะดำเนินการแทรกแซง แผนภาพความสอดคล้องไม่เพียงแสดงการลดลงอย่างมากระหว่างช่วงเวลาเหล่านั้นเท่านั้น แต่ตัวอย่างก็เปลี่ยนไป ผลการวิจัยพบว่าส่วนใหญ่เป็นคนไม่ทำงาน / ไม่ทำงานต่ำกว่าวัยและมีสุขภาพดีกว่าคนที่เราตั้งใจจะเข้าถึง ฉันมีความกังวลอย่างมากเกี่ยวกับความเป็นไปได้โดยทั่วไปของการศึกษา แต่มันเป็นเรื่องยากที่จะล็อบบี้เพื่อให้ข้อกังวลเหล่านั้นเป็นที่รู้จัก

ข้อผิดพลาดด้านกำลังและ Type-I ของการทดสอบเพื่อตรวจสอบความไม่สมดุลในลักษณะพื้นฐานขึ้นอยู่กับจำนวนจริงของคุณลักษณะ

จุดที่นำเสนอรายการรายละเอียดของตัวแปรพื้นฐานดังกล่าวก่อนหน้าคือการให้ภาพรวมอย่างละเอียดของตัวอย่าง; ประวัติผู้ป่วยห้องปฏิบัติการยาและข้อมูลประชากรของพวกเขา นี่คือทุกแง่มุมที่แพทย์ใช้เพื่อแนะนำการรักษาผู้ป่วย พวกเขาเชื่อว่าจะทำนายผล แต่จำนวนของปัจจัยดังกล่าวกำลังส่าย สามารถเปรียบเทียบตัวแปรได้มากถึง 30 ตัว ความเสี่ยงของความผิดพลาด Type I คือ 1- (1-0.05) ^ 30 = 0.79 Bonferroni หรือแก้ไขเปลี่ยนแปลงเป็นแนะนำให้เลือกถ้าการทดสอบจะต้องมีการดำเนินการ

การทดสอบทางสถิติในรูปแบบที่บริสุทธิ์นั้นมีความเป็นกลางและควรจะมีการกำหนดล่วงหน้า อย่างไรก็ตามทางเลือกและการนำเสนอของลักษณะพื้นฐานมักสัมพันธ์กัน ฉันรู้สึกว่าวิธีการหลังมีความเหมาะสม: หากเราพบเช่นในการทดลองของฉันมีลักษณะที่น่าสนใจที่อธิบายตัวอย่างได้อย่างมีประสิทธิภาพเราควรมีเสรีภาพในการเลือกที่จะนำเสนอค่าเฉพาะกิจเหล่านี้ การทดสอบสามารถทำได้ถ้ามันมีค่าใด ๆ แต่ข้อแม้ปกติใช้: พวกเขาไม่ได้ตั้งสมมติฐานที่น่าสนใจมีความเสี่ยงสูงของความสับสนเป็นสิ่งที่ผลลัพธ์ที่สำคัญและไม่สำคัญนัยและสะท้อนให้เห็นถึง ขนาดตัวอย่างและข้อควรพิจารณาในการนำเสนอมากกว่าความจริงใด ๆ

Rerandomization สามารถทำได้ แต่ก่อนที่ผู้ป่วยจะได้รับการรักษา

ดังที่ฉันได้กล่าวมาตัวอย่างที่วิเคราะห์มักเป็นตัวอย่างความปลอดภัย อย่างไรก็ตามการ rerandomization เป็นวิธีการที่ได้รับการสนับสนุนอย่างหนักและสอดคล้องกับหลักเหตุผลสำหรับผู้ป่วยที่ไม่ได้รับการรักษา ใช้กับการตั้งค่าที่ดำเนินการลงทะเบียนเป็นกลุ่มเท่านั้น ที่นี่ผู้เข้าร่วม 100 คนจะถูกคัดเลือกและสุ่มตัวอย่าง ตัวอย่างเช่นหากความน่าจะเป็นจะกำหนดสัดส่วนที่สูงของผู้สูงอายุให้กับกลุ่มหนึ่งกลุ่มตัวอย่างนั้นสามารถทำการสุ่มใหม่เพื่อปรับสมดุลอายุ สิ่งนี้ไม่สามารถทำได้ด้วยการลงทะเบียนตามลำดับหรือเซซึ่งเป็นการตั้งค่าที่การทดลองส่วนใหญ่จะดำเนินการ นี่เป็นเพราะช่วงเวลาของการลงทะเบียนมีแนวโน้มที่จะทำนายสถานะผู้ป่วยด้วย "อคติ" กรณีที่แพร่หลาย (ทำให้เกิดความสับสนและเกณฑ์คุณสมบัติที่แพร่หลาย)

การออกแบบที่สมดุลไม่ใช่ข้อกำหนดสำหรับการอนุมานที่ถูกต้อง

ข้อสันนิษฐานการสุ่มบอกว่าในทางทฤษฎีแล้วผู้เข้าร่วมทั้งหมดจะมีการแจกแจงค่าเฉลี่ยเท่ากันของ covariates อย่างไรก็ตามดังที่ได้กล่าวไว้ก่อนหน้านี้เมื่อเปรียบเทียบระดับ 30 หรือมากกว่าความน่าจะเป็นแบบสะสมของความไม่สมดุลนั้นไม่สามารถเพิกเฉยได้ ในความเป็นจริงความไม่สมดุลของโควาเรียตอาจไม่เกี่ยวข้องเมื่อพิจารณาทั้งหมด

หากการสุ่มมีความยุติธรรมเราอาจเห็นว่าอายุเพิ่มขึ้นในกลุ่มการรักษา แต่การสูบบุหรี่ก็เพิ่มขึ้นในกลุ่มควบคุมซึ่งทั้งสองอย่างมีส่วนช่วยในการเสี่ยงต่อผลลัพธ์ สิ่งที่จำเป็นสำหรับการอนุมานที่มีประสิทธิภาพและถูกต้องคือคะแนนความชอบมีความสมดุลระหว่างกลุ่ม นี่เป็นเงื่อนไขที่อ่อนแอกว่ามาก น่าเสียดายที่ความชอบไม่สามารถตรวจสอบเพื่อความสมดุลได้หากไม่มีตัวแบบความเสี่ยง แต่มันเป็นเรื่องง่ายที่จะเห็นว่านิสัยชอบดังกล่าวขึ้นอยู่กับการรวมกันของตัวแปรและโอกาสของความไม่สมดุลในpropensitiesในกลุ่มตัวอย่างแบบสุ่มอยู่ไกลน่าจะเป็นน้อยแม้จะเป็นไปไม่ได้ที่จะแสดงให้เห็นว่า

หากทราบถึงรูปแบบความเสี่ยงหรือตัวทำนายผลที่แข็งแกร่งแสดงว่ามี RCT ที่มีประสิทธิภาพและถูกต้องมากขึ้นโดยการปรับปัจจัยเหล่านั้นโดยไม่คำนึงว่าพวกเขามีความสมดุลระหว่างกลุ่มการรักษาหรือไม่

หนึ่งในเอกสารที่ฉันชอบ7 ตำนานของการทดลองแบบสุ่มควบคุมกล่าวถึงเรื่องนี้ การปรับปรุงจะช่วยเพิ่มประสิทธิภาพเมื่อตัวแปรการปรับเป็นการคาดการณ์ผลลัพธ์ ปรากฎว่าแม้จะมีความสมดุล 50/50 ที่สมบูรณ์แบบโดยใช้การสุ่มบล็อกที่ถูกบล็อกหรือแม้กระทั่งเป็นเรื่องบังเอิญว่าการสุ่มดำเนินการอย่างไรการปรับจะหดตัว CIs ทำให้ผู้เข้าร่วมการศึกษาน้อยลง เป็นการลดต้นทุนและความเสี่ยง มันเป็นเรื่องที่น่าตกใจว่านี่ไม่ได้เกิดขึ้นบ่อยครั้งกว่า

การศึกษาแบบสังเกตต้องใช้การควบคุมเพื่อทำให้สับสนโดยไม่คำนึงถึงสิ่งที่ตารางที่ 1 แสดงให้เห็น

ข้อสันนิษฐานการสุ่มช่วยลดการรบกวน ด้วยการรักษาแบบไม่สุ่มตัวอย่างทำให้เกิดความสับสน Confounder เป็นตัวแปรที่เป็นสาเหตุของผลลัพธ์และทำนายการรับการรักษาแบบกึ่งทดลอง ไม่มีการทดสอบเพื่อพิจารณาว่าตัวแปรใดที่ / เป็นคู่หู ความเสี่ยงในการแอบดูข้อมูลที่จะตอบคำถามเหล่านี้คือผู้ที่เชื่อในสิ่งที่แยกไม่ออกจากผู้ไกล่เกลี่ยหรือผู้ที่อยู่ร่วมกันโดยไม่มีการวัดที่สมบูรณ์แบบที่สุดของค่าตามยาว (และแม้กระทั่ง ... ) การปรับสำหรับผู้ทำหน้าที่ลดทอนผลกระทบใด ๆ การปรับ collider สามารถทำให้เกิดอคติประเภทใดก็ได้ นอกจากนี้ยังไม่จำเป็นต้องปรับเปลี่ยนสำหรับชุด Confounders ทั้งหมด แต่จะต้องลบเกณฑ์ลับๆ

ตัวอย่างเช่นในการศึกษาการทำงานของปอดและการสูบบุหรี่ในวัยรุ่น: เด็กโตมีแนวโน้มที่จะสูบบุหรี่มากกว่า แต่เนื่องจากมีความสูงการทำงานของปอดจึงสูงกว่า มันกลับกลายเป็นว่าการปรับระดับความสูงเพียงอย่างเดียวนั้นเพียงพอที่จะขจัดความสับสนเนื่องจากมันเป็นไปตามเกณฑ์ของแบ็คดอร์ การปรับเพิ่มเติมสำหรับอายุก็สูญเสียประสิทธิภาพ อย่างไรก็ตามเพียงแค่ตรวจสอบ "สมดุล" ของตารางที่ 1 ในผู้สูบบุหรี่และผู้ไม่สูบบุหรี่จะแนะนำว่าทั้งอายุและส่วนสูงเป็น "ไม่สมดุล" และควรควบคุม มันไม่ถูกต้อง


1
ฉันเห็นด้วยกับสิ่งนี้และตระหนักดีถึงปัญหาเกี่ยวกับค่า p (คุณจะพบคนไม่กี่คนในเว็บไซต์นี้หรือมีค่าการต่อต้านมากกว่าฉัน) และฉันทั้งหมดสำหรับวิธีที่ดีกว่าซึ่งบางส่วนที่คุณยกระดับ แน่นอนว่าตัวแปรบางตัวอาจเป็นตัวยับยั้ง (ซึ่งรวมถึงพวกมันจะเพิ่มขนาดของเอฟเฟกต์หลัก) อย่างไรก็ตามถ้าฉันพูดอ่านบทความสำหรับวารสารคุณคิดว่าการทดสอบความเท่าเทียมกันสำหรับตารางที่ 1 นั้นดีหรือคุณจะตอบคำถามทั้งหมดที่นี่?
Peter Flom - Reinstate Monica

1
@ PeterFlom ฉันเห็นบริบทดีขึ้นเล็กน้อยในขณะนี้ ในฐานะผู้ตรวจสอบทางสถิติฉันจะพิจารณาว่าความคิดเห็นนั้นเกี่ยวข้องกับการวิเคราะห์ที่ตามมาหรือไม่ หากไม่เกี่ยวข้องฉันขอแนะนำให้พวกเขาแสดงความคิดเห็นเนื่องจากไม่มีประโยชน์ ถ้ามันมีความเกี่ยวข้องฉันจะแนะนำให้พวกเขาก) พิจารณาแนวทางการวิเคราะห์ที่มีประสิทธิภาพมากขึ้นหรือ b) ใช้การวิเคราะห์ความอ่อนไหวเพื่อพิจารณาว่ามีอิทธิพลที่เป็นไปได้หรือไม่ ความสมดุลของโควาเรียตนั้นมีความสำคัญตราบเท่าที่มันมีอิทธิพลต่อการวิเคราะห์ดังนั้นนั่นคือสิ่งที่ฉันต้องการให้ความสนใจ มันไม่ใช่การออกแบบที่ตรงกับความชอบใช่ไหม?
AdamO

1
@PeterFlom ในฐานะผู้ตรวจทานจะไม่เหมาะสมที่จะแนะนำให้กำจัดค่า p ใน "ตารางที่ 1" ทั้งหมดหรือไม่
อะมีบาพูดว่า Reinstate Monica

1
AdamO คำตอบที่ดี (+1) แต่ฉันกังวลเล็กน้อยกับคำแนะนำว่าการปรับการทดสอบหลายรายการนั้น "แนะนำ" ในบริบทของ "ตารางที่ 1" ข้อผิดพลาด Type I ของข้อกังวลใด ๆ ที่นี่หรือไม่? ฉันรู้สึกว่าในกรณีนี้ข้อผิดพลาด Type II นั้นสำคัญกว่ามาก (ไม่มีใครอยากพลาดความจริงที่ว่าตัวแปรพื้นฐานบางตัวมีความแตกต่างระหว่างการรักษาและกลุ่มควบคุม) เมื่อใช้ Bonferroni ข้อผิดพลาด Type II จะเพิ่มขึ้นอย่างมาก สิ่งนี้เกี่ยวข้องกับประเด็นของ @ Peter เกี่ยวกับการทดสอบความเท่ากัน: ในแง่หนึ่งแล้วสถานที่แลกเปลี่ยน Type I และ Type II หากคุณเปลี่ยนไปที่จุดชมวิว "สมมูล"
อะมีบาพูดว่า Reinstate Monica

1
@amoeba แน่นอน หากเรายืนยันในวิธีการนี้ (ไม่ใช่คำแนะนำของฉัน) NHST ต้องการให้เราควบคุมข้อผิดพลาดประเภทที่ 1 ฉันคิดว่าประเด็นของฉันคือเราควรควบคุม FWER เพราะเราไม่สนใจว่าตัวแปรใดที่ไม่สมดุล มันสามารถตั้งค่าเป็นใจกว้างเช่น 0.2 ฉันไม่ได้ตระหนักถึงการทดสอบความเท่าเทียมใด ๆ ที่กำลังขึ้นเมื่อขนาดตัวอย่างเพิ่มขึ้นดังนั้นการให้เหตุผลสำหรับการทดสอบดังกล่าวจึงเป็นการใช้คำฟุ่มเฟือยอัตนัยและไม่แน่ชัด
AdamO
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.