การแก้ไขการเปรียบเทียบหลายรายการจำเป็นสำหรับการเปรียบเทียบแบบหลายทาง / ไม่เป็นทางการหรือไม่?


9

ฉันมีคำถามเชิงปรัชญาเกี่ยวกับเมื่อจำเป็นต้องแก้ไขการเปรียบเทียบหลายรายการ

ฉันกำลังวัดสัญญาณที่เปลี่ยนแปลงเวลาอย่างต่อเนื่อง (ที่จุดเวลาแบบแยก) เหตุการณ์ที่แยกต่างหากเกิดขึ้นเป็นครั้งคราวและฉันต้องการที่จะสร้างหากเหตุการณ์เหล่านี้มีผลกระทบอย่างมีนัยสำคัญต่อสัญญาณที่วัดได้

ดังนั้นฉันสามารถรับสัญญาณค่าเฉลี่ยที่ติดตามเหตุการณ์และโดยปกติฉันสามารถเห็นผลกระทบบางอย่างที่นั่นด้วยจุดสูงสุดที่แน่นอน ถ้าฉันเลือกเวลาของช่วงสูงสุดนั้นและจะพูดว่า t-test เพื่อตรวจสอบว่ามันสำคัญหรือไม่เมื่อเหตุการณ์ไม่เกิดขึ้นฉันต้องทำการแก้ไขเปรียบเทียบหลายรายการหรือไม่

แม้ว่าฉันจะทำการทดสอบหนึ่งครั้งเท่านั้น (คำนวณ 1 ค่า) ในการตรวจสอบด้วยสายตาครั้งแรกของฉันฉันเลือกสำหรับหนึ่งที่มีผลกระทบที่ใหญ่ที่สุดจาก (พูด) 15 คะแนนเวลาล่าช้าหลังการโพสต์ที่แตกต่างกันที่ฉันวางแผน ดังนั้นฉันจำเป็นต้องทำการแก้ไขเปรียบเทียบหลายรายการสำหรับการทดสอบ 15 รายการที่ฉันไม่เคยทำมาก่อนหรือไม่

หากฉันไม่ได้ใช้การตรวจสอบด้วยภาพ แต่เพิ่งทำการทดสอบที่แต่ละเหตุการณ์ล่าช้าและเลือกค่าสูงสุดฉันต้องแก้ไขให้ถูกต้อง ฉันสับสนเล็กน้อยว่าฉันต้องการหรือไม่ถ้าการเลือก 'ความล่าช้าที่ดีที่สุด' ถูกทำขึ้นโดยเกณฑ์อื่นนอกเหนือจากการทดสอบตัวเอง (เช่นการเลือกด้วยภาพค่าเฉลี่ยสูงสุด ฯลฯ )

คำตอบ:


11

ในทางเทคนิคเมื่อคุณทำการเลือกอย่างชัดเจนว่าจะทำแบบทดสอบแบบใดคุณควรแก้ไขให้ถูกต้องแล้ว: ดวงตาและสมองของคุณผ่านความไม่แน่นอนของข้อมูลไปแล้วโดยที่คุณไม่ได้คิดว่าถ้าคุณทำการทดสอบ ณ จุดนั้น .

ลองนึกภาพว่า 'ยอดเขา' ของคุณเป็นที่ราบสูงจริงๆและคุณเลือกความแตกต่าง 'สูงสุด' จากนั้นทำการทดสอบในสิ่งนั้น หากคุณต้องทำการทดสอบอีกเล็กน้อยทางซ้ายหรือทางขวาผลลัพธ์อาจเปลี่ยนแปลงได้ ด้วยวิธีนี้คุณต้องคำนึงถึงขั้นตอนการเลือกล่วงหน้า: คุณไม่มีความแน่นอนที่คุณระบุไว้! คุณกำลังใช้ข้อมูลเพื่อทำการเลือกดังนั้นคุณจึงใช้ข้อมูลเดียวกันได้อย่างมีประสิทธิภาพสองครั้ง

แน่นอนในทางปฏิบัติมันเป็นเรื่องยากมากที่จะพิจารณาบางอย่างเช่นกระบวนการคัดแยกสินค้า แต่นั่นไม่ได้หมายความว่าคุณไม่ควร (หรืออย่างน้อยก็ใช้ / ระบุช่วงความเชื่อมั่นที่เกิดขึ้น / ผลการทดสอบด้วยเม็ดเกลือ)

สรุป : คุณควรเสมอถูกต้องสำหรับการเปรียบเทียบหลายถ้าคุณทำเปรียบเทียบหลายโดยไม่คำนึงถึงวิธีการที่คุณเลือกเปรียบเทียบเหล่านั้น หากพวกเขาไม่ได้เลือกก่อนที่จะเห็นข้อมูลคุณควรแก้ไขให้ถูกต้องเพิ่มเติม

หมายเหตุ: ทางเลือกอื่นสำหรับการแก้ไขการเลือกล่วงหน้าด้วยตนเอง (เช่นเมื่อเป็นไปไม่ได้ในทางปฏิบัติ) อาจระบุผลลัพธ์ของคุณเพื่อให้พวกเขามีการอ้างอิงถึงการเลือกด้วยตนเองอย่างชัดเจน แต่นั่นไม่ใช่ 'การวิจัยที่ทำซ้ำได้' ฉันเดา


1
ทำการแก้ไขอยู่เสมอแม้ว่าจะทำให้อัตราความผิดพลาด Type II ของคุณเพิ่มขึ้น หากคุณมีผลลัพธ์ที่สำคัญทั้งหมดก่อนการแก้ไขคุณอาจสูญเสียพวกเขาทั้งหมดหลังจากการแก้ไขไม่ใช่บัญชีสำหรับอัตราต่อรองต่ำของการได้รับผลลัพธ์ที่สำคัญทั้งหมด สิ่งนี้อาจขึ้นอยู่กับต้นทุนของข้อผิดพลาดประเภท I หรือ II ในบริบทของคุณ
Etienne Low-Décarie

นิคให้คำตอบที่ฉันต้องการให้ถ้าฉันตอบก่อน อย่างไรก็ตามในการตั้งค่าเริ่มต้นคุณ (mkpitas) กล่าวว่าหากคุณทำการทดสอบ 15 ครั้งจริง ๆ คุณไม่จำเป็นต้องทำการแก้ไขหลายหลาก ฉันไม่เห็นว่าทำไมคุณถึงพูดอย่างนั้น ฉันคิดว่าในกรณีนั้นความจำเป็นในการแก้ไขหลายหลากจะชัดเจนขึ้น @ จุดของคุณใช้กับการแก้ไข FWER ซึ่งเข้มงวดมากในการควบคุมประเภทที่ผิดพลาด หากคุณใช้ FDR คุณจะไม่เสียพลังงานเท่าที่ควร
Michael R. Chernick

8

นานมาแล้วในหนึ่งในชั้นเรียนสถิติแรกของฉันฉันกำลังอ่านเกี่ยวกับเรื่องนี้ในข้อความ (ฉันคิดว่ามันเป็นหนังสือเล่มเก่าของโคเฮนเกี่ยวกับการถดถอย) ซึ่งมันบอกว่า "นี่เป็นคำถามเกี่ยวกับคนที่มีเหตุผล

ไม่ชัดเจนสำหรับฉันที่ทุกคนจำเป็นต้องแก้ไขสำหรับการเปรียบเทียบหลาย ๆ ครั้งและถ้าพวกเขาทำในช่วงเวลาหรือชุดการเปรียบเทียบที่พวกเขาควรแก้ไข แต่ละบทความ การถดถอยแต่ละครั้งหรือ ANOVA ทุกสิ่งที่พวกเขาเผยแพร่ในเรื่อง? สิ่งที่เกี่ยวกับคนอื่น ๆ เผยแพร่?

เมื่อคุณเขียนในบรรทัดแรกมันเป็นปรัชญา


4
คุณพูดถูกว่ามีคำถามเกี่ยวกับจำนวนการเปรียบเทียบที่ทำ แต่ฉันไม่คิดว่ามันจะเป็นข้อสรุปของคุณ คนที่เหมาะสมสามารถแตกต่างกันเพราะพวกเขามีวัตถุประสงค์ที่แตกต่างกันและการประเมินมูลค่าที่แตกต่างกัน (ฟังก์ชั่นการสูญเสีย) สำหรับผลลัพธ์ที่เป็นไปได้ หากคุณควรแก้ไขการเปรียบเทียบหลาย ๆ ครั้งนี่เป็นเพราะมันนำไปสู่การสูญเสียที่คาดหวังได้ดีขึ้น เช่นนี้เป็นปัญหาที่เกิดขึ้นจริงในเชิงปฏิบัติไม่ใช่แค่ "ปรัชญา" และมีวิธีการที่มีเหตุผลในการแก้ไขปัญหาที่ผู้คนที่มีเหตุผลสามารถตกลงกันได้
whuber

2
@ เมื่อคุณอยู่ในสถานการณ์ที่เหมาะสมอย่างแน่นอน บางครั้งมีฟังก์ชั่นการสูญเสียที่เหมาะสมแม้ว่ามันมักจะยากที่จะได้รับการระบุอย่างชัดเจน แต่ครั้งอื่น ๆ เช่นในงานสำรวจฉันมีปัญหาในการดูว่าฟังก์ชั่นการสูญเสียเป็นไปได้อย่างไร แน่นอนว่าความคิดฟังก์ชั่นการสูญเสียทั้งหมดทำให้เราห่างไกลจากรูปร่างเหมือนเกรลของ p = .05 และสมมติฐานทั่วไปที่ว่า power = .8 หรือ. 9 นั้นดีพอและเข้าสู่ความคิดที่สมเหตุสมผลมากขึ้น เราสร้างสิ่งเหล่านี้ในพื้นที่ที่สำคัญยิ่งกว่า
Peter Flom

1
ขอบคุณสำหรับการชี้แจงขอบเขตและจิตวิญญาณของการตอบของคุณปีเตอร์
whuber

4
ฉันรู้สึกโมโหเมื่อมีคนบอกว่าการทดสอบหลายหลากไม่สำคัญ ฉันเห็นทัศนคตินี้แสดงออกบ่อยครั้งเกินไปในการวิจัยทางการแพทย์ คุณสามารถชี้ไปที่เอกสารจำนวนมากที่ถึงข้อสรุปที่ไม่ถูกต้องเนื่องจากมีหลายหลากถูกละเว้น มันเป็นสิ่งสำคัญที่จะไม่เผยแพร่เอกสารที่มีข้อสรุปที่ไม่ถูกต้องในทางการแพทย์เพราะมันมีผลต่อวิธีการรักษาผู้ป่วยและชีวิตมีความเสี่ยง หลายหลากก่อให้เกิดอคติสิ่งพิมพ์ (เพราะเมื่อมีการศึกษาปัญหาหลายครั้งเฉพาะการศึกษาที่มีผลลัพธ์ที่สำคัญได้รับการเผยแพร่) ซึ่งเป็นปัญหาร้ายแรงในการวิเคราะห์ meta
Michael R. Chernick

1
@MichaelChernick ฉันเห็นด้วย - เป็นปัญหามากเมื่อผู้คนไม่สนใจการแก้ไขหลายรายการ อย่างไรก็ตามฉันคิดว่าปีเตอร์นำเสนอจุดที่ดี - สิ่งที่ควรเป็นขอบเขตของการทดสอบหลายรายการ? การทดสอบทั้งหมดทำในกระดาษแผ่นเดียว? การทดสอบทั้งหมดทำด้วยชุดข้อมูลเดียวหรือไม่ การทดสอบทั้งหมดทำมาตั้งแต่ต้นใช่ไหม ดูเหมือนจะไม่มีคำตอบที่ถูกต้องชัดเจน
มาโคร

4

หากคุณกำลังพยายามตัดสินใจแบบครั้งเดียวเกี่ยวกับความเป็นจริงและต้องการควบคุมอัตราที่คุณปฏิเสธสมมุติฐานว่างคุณจะใช้การทดสอบนัยสำคัญสมมุติฐานว่าง (NHST) และต้องการใช้การแก้ไขเพื่อเปรียบเทียบหลายอย่าง อย่างไรก็ตามดังที่ Peter Flom ได้บันทึกไว้ในคำตอบของเขาจึงไม่มีความชัดเจนในการกำหนดชุดการเปรียบเทียบที่จะใช้การแก้ไข ตัวเลือกที่ง่ายที่สุดคือชุดของการเปรียบเทียบที่ใช้กับชุดข้อมูลที่กำหนดและนี่เป็นวิธีการทั่วไป

อย่างไรก็ตามวิทยาศาสตร์เป็นแนวคิดที่ดีที่สุดในฐานะระบบสะสมที่ไม่จำเป็นต้องตัดสินใจเพียงครั้งเดียวและในความเป็นจริงมีไว้เพื่อลดประสิทธิภาพของการสะสมหลักฐานเท่านั้น (ลดหลักฐานที่ได้รับให้เป็นข้อมูลเพียงเล็กน้อย) ดังนั้นหากมีวิธีการทางวิทยาศาสตร์ที่เหมาะสมในการวิเคราะห์ทางสถิติละทิ้ง NHST สำหรับเครื่องมือเช่นอัตราส่วนความน่าจะเป็น (อาจเป็นวิธีแบบเบย์ด้วย) จากนั้น "ปัญหา" ของการเปรียบเทียบหลาย ๆ อย่างจะหายไป


1

ทางเลือกที่เป็นไปได้สำหรับการแก้ไขขึ้นอยู่กับคำถามของคุณคือการทดสอบความสำคัญของผลรวมของค่า p จากนั้นคุณสามารถลงโทษตัวเองสำหรับการทดสอบที่ไม่ได้ทำโดยการเพิ่มค่า p สูง

ส่วนขยาย (ซึ่งไม่ต้องการความเป็นอิสระ) ของวิธีการของฟิชเชอร์ (ซึ่งต้องการการทดสอบอิสระ) สามารถนำมาใช้

เช่น. วิธีการของ Kost


นี่เป็นตัวอย่างของขั้นตอนที่ใช้ในการวิเคราะห์อภิมานเมื่อการศึกษาเดี่ยวให้ค่า p หรือข้อมูลไม่สามารถรวมกันได้ แต่การศึกษาแต่ละครั้งมีการคำนวณค่า p นอกจากนี้วิธีการรวมกันของฟิชเชอร์และผกผันปกติเป็นวิธีการสร้างกฎการหยุดในการออกแบบปรับตัว
Michael R. Chernick

1

สิ่งหนึ่งที่สำคัญมากที่ต้องจำไว้คือการแก้ไขการทดสอบหลายครั้งจะเป็นการทดสอบอิสระ หากข้อมูลการวิเคราะห์ของคุณไม่เป็นอิสระสิ่งต่าง ๆ มีความซับซ้อนมากกว่าเพียงแค่การแก้ไขจำนวนการทดสอบที่คุณต้องคำนึงถึงความสัมพันธ์ระหว่างข้อมูลที่ถูกวิเคราะห์หรือการแก้ไขของคุณอาจเป็นวิธีที่อนุรักษ์นิยมเกินไป มีอัตราข้อผิดพลาด type II สูง ฉันพบการตรวจสอบความถูกต้องข้ามการทดสอบการเปลี่ยนแปลงหรือการบูตสแตรปอาจเป็นวิธีที่มีประสิทธิภาพในการจัดการกับการเปรียบเทียบหลายอย่างหากใช้อย่างเหมาะสม คนอื่น ๆ ได้กล่าวถึงการใช้ FDR แต่สิ่งนี้สามารถให้ผลลัพธ์ที่ไม่ถูกต้องหากข้อมูลของคุณมีความไม่อิสระอย่างมากเนื่องจากมันถือว่าค่า p เป็นค่าที่เหมือนกันในทุกการทดสอบภายใต้ null


2
ยินดีต้อนรับสู่เว็บไซต์ Matt เกี่ยวกับประโยคเปิดของคุณ: สิ่งหนึ่งที่สำคัญมากที่ต้องจำก็คือการแก้ไขการทดสอบหลายรายการถือว่าเป็นการทดสอบอิสระ โปรดทราบว่านี่เป็นความจริงสำหรับบางขั้นตอนการแก้ไขการทดสอบหลายอย่าง แต่ไม่ทั้งหมด ตัวอย่างเช่นการที่ง่ายที่สุดของทั้งหมด (Bonferroni) ทำให้ไม่มีข้อสันนิษฐานอิสระและแน่นอนไม่มีประสิทธิภาพหากการทดสอบจริงเป็นอิสระ! :-) นอกจากนี้ในการตั้งค่าการกระจายอย่างต่อเนื่องการแจกแจง (ส่วนเพิ่ม) ของค่าเดียวจะเหมือนกันภายใต้ค่าว่าง คุณอาจพิจารณาแก้ไขเพื่อชี้แจงข้อสังเกตของคุณ p
พระคาร์ดินัล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.