นี่เป็นปัญหาที่ซับซ้อนที่นำเสนอประเด็นที่เกี่ยวข้องมากมายดังนี้: 1) ระบุสมมติฐานอย่างชัดเจน 2) ทำความเข้าใจกับกลไกเชิงสาเหตุ (อาจ) รองรับผลของสมมติฐานและ 3) ตัวเลือก / รูปแบบการนำเสนอ
คุณสิทธิกำลังว่าถ้าเราใช้ปฏิบัติทางสถิติเสียงเพื่ออ้างว่า "กลุ่มมีความคล้ายกัน" หนึ่งจะต้องมีการดำเนินการทดสอบของความเท่าเทียมกัน อย่างไรก็ตามการทดสอบความเท่าเทียมประสบปัญหาเดียวกันกับ NHST ที่เท่ากัน: อำนาจเป็นเพียงภาพสะท้อนของขนาดตัวอย่างและจำนวนการเปรียบเทียบ: เราคาดหวังความแตกต่าง แต่ขอบเขตและผลกระทบต่อการวิเคราะห์หลักนั้นสำคัญกว่า
เมื่อเผชิญหน้ากับสถานการณ์เหล่านี้การเปรียบเทียบพื้นฐานมักจะเป็นฝูงปลาสีแดง สามารถใช้วิธีการที่ดีกว่า (ของวิทยาศาสตร์และสถิติ) ฉันมีแนวคิดสต็อค / การตอบกลับจำนวนหนึ่งที่ฉันพิจารณาเมื่อตอบคำถามเช่นนี้
คอลัมน์ "รวม" มีความสำคัญมากกว่าคอลัมน์แบบแบ่งย่อยตามการรักษา การอภิปรายจะรับประกันค่าเหล่านั้น
ในการทดลองทางคลินิกตัวอย่างความปลอดภัยมักจะวิเคราะห์ นี่คือส่วนย่อยของผู้ที่ได้รับการติดต่อครั้งแรกจากนั้นยินยอมแล้วสุ่มและในที่สุดก็สัมผัสกับการควบคุมหรือการทำซ้ำอย่างน้อยหนึ่งครั้ง ในกระบวนการนั้นเราเผชิญอคติการมีส่วนร่วมที่แตกต่างกันไป
น่าจะเป็นสิ่งสำคัญที่สุดและละเว้นการศึกษาเหล่านี้จะถูกนำเสนอตารางที่ 1 ผลการรวมกัน สิ่งนี้บรรลุวัตถุประสงค์ที่สำคัญที่สุดของตารางที่ 1: แสดงให้ผู้ตรวจสอบคนอื่น ๆ เห็นได้ว่าตัวอย่างการศึกษาสรุปได้เป็นอย่างไรกับประชากรในวงกว้างซึ่งผลที่ได้นำไปใช้
ฉันพบว่ามันน่าประหลาดใจที่ผู้ตรวจสอบผู้อ่านและผู้ตรวจสอบที่จับจ้องอยู่ในแนวโน้มของวงในลักษณะของผู้ป่วยเมื่อมีการไม่คำนึงถึงเกณฑ์การรวม / การยกเว้นและความสามารถทั่วไปของตัวอย่าง
ฉันรู้สึกละอายที่จะบอกว่าฉันเป็นนักวิเคราะห์เกี่ยวกับการทดลองที่มองข้ามสิ่งนี้ว่าเป็นปัญหา เราคัดเลือกผู้ป่วยจากนั้นเนื่องจากปัญหาด้านลอจิสติกส์เรารอเกือบหนึ่งปีก่อนที่จะดำเนินการแทรกแซง แผนภาพความสอดคล้องไม่เพียงแสดงการลดลงอย่างมากระหว่างช่วงเวลาเหล่านั้นเท่านั้น แต่ตัวอย่างก็เปลี่ยนไป ผลการวิจัยพบว่าส่วนใหญ่เป็นคนไม่ทำงาน / ไม่ทำงานต่ำกว่าวัยและมีสุขภาพดีกว่าคนที่เราตั้งใจจะเข้าถึง ฉันมีความกังวลอย่างมากเกี่ยวกับความเป็นไปได้โดยทั่วไปของการศึกษา แต่มันเป็นเรื่องยากที่จะล็อบบี้เพื่อให้ข้อกังวลเหล่านั้นเป็นที่รู้จัก
ข้อผิดพลาดด้านกำลังและ Type-I ของการทดสอบเพื่อตรวจสอบความไม่สมดุลในลักษณะพื้นฐานขึ้นอยู่กับจำนวนจริงของคุณลักษณะ
จุดที่นำเสนอรายการรายละเอียดของตัวแปรพื้นฐานดังกล่าวก่อนหน้าคือการให้ภาพรวมอย่างละเอียดของตัวอย่าง; ประวัติผู้ป่วยห้องปฏิบัติการยาและข้อมูลประชากรของพวกเขา นี่คือทุกแง่มุมที่แพทย์ใช้เพื่อแนะนำการรักษาผู้ป่วย พวกเขาเชื่อว่าจะทำนายผล แต่จำนวนของปัจจัยดังกล่าวกำลังส่าย สามารถเปรียบเทียบตัวแปรได้มากถึง 30 ตัว ความเสี่ยงของความผิดพลาด Type I คือ 1- (1-0.05) ^ 30 = 0.79 Bonferroni หรือแก้ไขเปลี่ยนแปลงเป็นแนะนำให้เลือกถ้าการทดสอบจะต้องมีการดำเนินการ
การทดสอบทางสถิติในรูปแบบที่บริสุทธิ์นั้นมีความเป็นกลางและควรจะมีการกำหนดล่วงหน้า อย่างไรก็ตามทางเลือกและการนำเสนอของลักษณะพื้นฐานมักสัมพันธ์กัน ฉันรู้สึกว่าวิธีการหลังมีความเหมาะสม: หากเราพบเช่นในการทดลองของฉันมีลักษณะที่น่าสนใจที่อธิบายตัวอย่างได้อย่างมีประสิทธิภาพเราควรมีเสรีภาพในการเลือกที่จะนำเสนอค่าเฉพาะกิจเหล่านี้ การทดสอบสามารถทำได้ถ้ามันมีค่าใด ๆ แต่ข้อแม้ปกติใช้: พวกเขาไม่ได้ตั้งสมมติฐานที่น่าสนใจมีความเสี่ยงสูงของความสับสนเป็นสิ่งที่ผลลัพธ์ที่สำคัญและไม่สำคัญนัยและสะท้อนให้เห็นถึง ขนาดตัวอย่างและข้อควรพิจารณาในการนำเสนอมากกว่าความจริงใด ๆ
Rerandomization สามารถทำได้ แต่ก่อนที่ผู้ป่วยจะได้รับการรักษา
ดังที่ฉันได้กล่าวมาตัวอย่างที่วิเคราะห์มักเป็นตัวอย่างความปลอดภัย อย่างไรก็ตามการ rerandomization เป็นวิธีการที่ได้รับการสนับสนุนอย่างหนักและสอดคล้องกับหลักเหตุผลสำหรับผู้ป่วยที่ไม่ได้รับการรักษา ใช้กับการตั้งค่าที่ดำเนินการลงทะเบียนเป็นกลุ่มเท่านั้น ที่นี่ผู้เข้าร่วม 100 คนจะถูกคัดเลือกและสุ่มตัวอย่าง ตัวอย่างเช่นหากความน่าจะเป็นจะกำหนดสัดส่วนที่สูงของผู้สูงอายุให้กับกลุ่มหนึ่งกลุ่มตัวอย่างนั้นสามารถทำการสุ่มใหม่เพื่อปรับสมดุลอายุ สิ่งนี้ไม่สามารถทำได้ด้วยการลงทะเบียนตามลำดับหรือเซซึ่งเป็นการตั้งค่าที่การทดลองส่วนใหญ่จะดำเนินการ นี่เป็นเพราะช่วงเวลาของการลงทะเบียนมีแนวโน้มที่จะทำนายสถานะผู้ป่วยด้วย "อคติ" กรณีที่แพร่หลาย (ทำให้เกิดความสับสนและเกณฑ์คุณสมบัติที่แพร่หลาย)
การออกแบบที่สมดุลไม่ใช่ข้อกำหนดสำหรับการอนุมานที่ถูกต้อง
ข้อสันนิษฐานการสุ่มบอกว่าในทางทฤษฎีแล้วผู้เข้าร่วมทั้งหมดจะมีการแจกแจงค่าเฉลี่ยเท่ากันของ covariates อย่างไรก็ตามดังที่ได้กล่าวไว้ก่อนหน้านี้เมื่อเปรียบเทียบระดับ 30 หรือมากกว่าความน่าจะเป็นแบบสะสมของความไม่สมดุลนั้นไม่สามารถเพิกเฉยได้ ในความเป็นจริงความไม่สมดุลของโควาเรียตอาจไม่เกี่ยวข้องเมื่อพิจารณาทั้งหมด
หากการสุ่มมีความยุติธรรมเราอาจเห็นว่าอายุเพิ่มขึ้นในกลุ่มการรักษา แต่การสูบบุหรี่ก็เพิ่มขึ้นในกลุ่มควบคุมซึ่งทั้งสองอย่างมีส่วนช่วยในการเสี่ยงต่อผลลัพธ์ สิ่งที่จำเป็นสำหรับการอนุมานที่มีประสิทธิภาพและถูกต้องคือคะแนนความชอบมีความสมดุลระหว่างกลุ่ม นี่เป็นเงื่อนไขที่อ่อนแอกว่ามาก น่าเสียดายที่ความชอบไม่สามารถตรวจสอบเพื่อความสมดุลได้หากไม่มีตัวแบบความเสี่ยง แต่มันเป็นเรื่องง่ายที่จะเห็นว่านิสัยชอบดังกล่าวขึ้นอยู่กับการรวมกันของตัวแปรและโอกาสของความไม่สมดุลในpropensitiesในกลุ่มตัวอย่างแบบสุ่มอยู่ไกลน่าจะเป็นน้อยแม้จะเป็นไปไม่ได้ที่จะแสดงให้เห็นว่า
หากทราบถึงรูปแบบความเสี่ยงหรือตัวทำนายผลที่แข็งแกร่งแสดงว่ามี RCT ที่มีประสิทธิภาพและถูกต้องมากขึ้นโดยการปรับปัจจัยเหล่านั้นโดยไม่คำนึงว่าพวกเขามีความสมดุลระหว่างกลุ่มการรักษาหรือไม่
หนึ่งในเอกสารที่ฉันชอบ7 ตำนานของการทดลองแบบสุ่มควบคุมกล่าวถึงเรื่องนี้ การปรับปรุงจะช่วยเพิ่มประสิทธิภาพเมื่อตัวแปรการปรับเป็นการคาดการณ์ผลลัพธ์ ปรากฎว่าแม้จะมีความสมดุล 50/50 ที่สมบูรณ์แบบโดยใช้การสุ่มบล็อกที่ถูกบล็อกหรือแม้กระทั่งเป็นเรื่องบังเอิญว่าการสุ่มดำเนินการอย่างไรการปรับจะหดตัว CIs ทำให้ผู้เข้าร่วมการศึกษาน้อยลง เป็นการลดต้นทุนและความเสี่ยง มันเป็นเรื่องที่น่าตกใจว่านี่ไม่ได้เกิดขึ้นบ่อยครั้งกว่า
การศึกษาแบบสังเกตต้องใช้การควบคุมเพื่อทำให้สับสนโดยไม่คำนึงถึงสิ่งที่ตารางที่ 1 แสดงให้เห็น
ข้อสันนิษฐานการสุ่มช่วยลดการรบกวน ด้วยการรักษาแบบไม่สุ่มตัวอย่างทำให้เกิดความสับสน Confounder เป็นตัวแปรที่เป็นสาเหตุของผลลัพธ์และทำนายการรับการรักษาแบบกึ่งทดลอง ไม่มีการทดสอบเพื่อพิจารณาว่าตัวแปรใดที่ / เป็นคู่หู ความเสี่ยงในการแอบดูข้อมูลที่จะตอบคำถามเหล่านี้คือผู้ที่เชื่อในสิ่งที่แยกไม่ออกจากผู้ไกล่เกลี่ยหรือผู้ที่อยู่ร่วมกันโดยไม่มีการวัดที่สมบูรณ์แบบที่สุดของค่าตามยาว (และแม้กระทั่ง ... ) การปรับสำหรับผู้ทำหน้าที่ลดทอนผลกระทบใด ๆ การปรับ collider สามารถทำให้เกิดอคติประเภทใดก็ได้ นอกจากนี้ยังไม่จำเป็นต้องปรับเปลี่ยนสำหรับชุด Confounders ทั้งหมด แต่จะต้องลบเกณฑ์ลับๆ
ตัวอย่างเช่นในการศึกษาการทำงานของปอดและการสูบบุหรี่ในวัยรุ่น: เด็กโตมีแนวโน้มที่จะสูบบุหรี่มากกว่า แต่เนื่องจากมีความสูงการทำงานของปอดจึงสูงกว่า มันกลับกลายเป็นว่าการปรับระดับความสูงเพียงอย่างเดียวนั้นเพียงพอที่จะขจัดความสับสนเนื่องจากมันเป็นไปตามเกณฑ์ของแบ็คดอร์ การปรับเพิ่มเติมสำหรับอายุก็สูญเสียประสิทธิภาพ อย่างไรก็ตามเพียงแค่ตรวจสอบ "สมดุล" ของตารางที่ 1 ในผู้สูบบุหรี่และผู้ไม่สูบบุหรี่จะแนะนำว่าทั้งอายุและส่วนสูงเป็น "ไม่สมดุล" และควรควบคุม มันไม่ถูกต้อง