เราควรจะปรับการเปรียบเทียบหลายรายการเมื่อใช้ช่วงความมั่นใจหรือไม่


26

สมมติว่าเรามีการเปรียบเทียบสถานการณ์หลายอย่างเช่นการโพสต์เฉพาะกิจการอนุมานทางสถิติที่คู่หรือเหมือนการถดถอยพหุคูณที่เราจะทำทั้งหมดmเปรียบเทียบ สมมติว่าเราต้องการสนับสนุนการอนุมานในทวีคูณเหล่านี้โดยใช้ช่วงความมั่นใจ

1. เราใช้การปรับเปรียบเทียบหลายรายการกับ CIs หรือไม่ นั่นคือเช่นเดียวกับการเปรียบเทียบหลายครั้งบังคับให้นิยามใหม่ของαกับอัตราข้อผิดพลาดที่ครอบครัวฉลาด (FWER) หรืออัตราการค้นพบที่ผิดพลาด (FDR) หมายถึงความมั่นใจ (หรือความน่าเชื่อถือ1หรือความไม่แน่นอนหรือการทำนายหรืออนุมาน ... เลือกช่วงเวลาของคุณ) รับการเปลี่ยนแปลงที่คล้ายกันโดยการเปรียบเทียบหลายรายการ? ฉันรู้ว่าคำตอบเชิงลบที่นี่จะสงสัยคำถามที่เหลืออยู่ของฉัน

2. มีการแปลตรงไปตรงมาของขั้นตอนการปรับเปรียบเทียบหลายรายการตั้งแต่การทดสอบสมมติฐานไปจนถึงการประมาณช่วงเวลาหรือไม่? ยกตัวอย่างเช่นการปรับเปลี่ยนจะมุ่งเน้นไปที่การเปลี่ยนCI-levelระยะในช่วงความเชื่อมั่น: CIθ=(θ^±t(1CI-level)/2σ^θ) ?

3. เราจะจัดการกับขั้นตอนการควบคุมขั้นตอนขึ้นหรือลงสำหรับ CIs ได้อย่างไร การปรับอัตราข้อผิดพลาดที่เหมาะกับครอบครัวบางส่วนจากวิธีการทดสอบสมมติฐานเพื่ออนุมานคือ 'คงที่' ในการปรับที่เหมือนกันอย่างแม่นยำจะทำกับการอนุมานที่แยกจากกัน ตัวอย่างเช่นการปรับ Bonferroni ทำโดยการเปลี่ยนเกณฑ์การปฏิเสธจาก:

  • ปฏิเสธถ้าpα2ถึง:
  • ปฏิเสธถ้าpα2m ,

แต่การปรับระดับขั้นตอนของ Holm-Bonferroni ไม่ใช่ 'คงที่' แต่ทำโดย:

  • การสั่งซื้อครั้งแรกค่าpน้อยที่สุดไปหามากที่สุดและจากนั้น
  • ปฏิเสธถ้าp1(1α2)1m+1i , (โดยที่iทำดัชนีการเรียงลำดับของค่าpvalue) จนกระทั่ง
  • เราล้มเหลวในการปฏิเสธสมมติฐานว่างและโดยอัตโนมัติล้มเหลวในการปฏิเสธสมมติฐานว่างที่ตามมาทั้งหมด

เนื่องจากการปฏิเสธ / ความล้มเหลวในการปฏิเสธไม่ได้เกิดขึ้นกับ CIs (เป็นทางการมากขึ้นดูที่การอ้างอิงด้านล่าง) นั่นหมายความว่าขั้นตอนแบบขั้นตอนไม่แปล (เช่นวิธีการ FDR ทั้งหมด) หรือไม่ ฉันควรที่จะพูดว่าที่นี่ฉันไม่ได้ถามวิธีการแปล CIs ในการทดสอบสมมติฐาน (ตัวแทนของวรรณกรรม 'การทดสอบสมมติฐานภาพ' ที่อ้างถึงด้านล่างได้ที่คำถามที่ไม่สำคัญ)

4. แล้วช่วงเวลาอื่น ๆ ที่ฉันพูดถึงเกี่ยวกับการเป็นพ่อแม่ใน 1 นั้นเป็นอย่างไร?


1เอ้ยฉันแน่ใจว่าหวังว่าฉันจะไม่เดือดร้อนกับรูปแบบเบย์ที่หวานและหวานของร็อกกิ้งโดยใช้คำนี้ที่นี่ :)


การอ้างอิง
Afshartous, D. และ Preston, R. (2010) ช่วงความเชื่อมั่นสำหรับข้อมูลที่ขึ้นต่อกัน: การเทียบเคียงที่ไม่ทับซ้อนกับนัยสำคัญทางสถิติ สถิติการคำนวณและการวิเคราะห์ข้อมูล , 54 (10): 2296–2305

คัมมิง, กรัม (2009) การอนุมานด้วยตา: การอ่านคาบเกี่ยวของช่วงความมั่นใจอิสระ สถิติทางการแพทย์ , 28 (2): 205–220

เพย์ตัน, ME, Greenstone, MH, และ Schenker, N. (2003) การทับซ้อนช่วงความมั่นใจหรือช่วงข้อผิดพลาดมาตรฐาน: หมายความว่าอย่างไรในแง่ของนัยสำคัญทางสถิติ วารสารวิทยาศาสตร์แมลง , 3 (34): 1–6

ไทรอัน, WW และลูอิส, C. (2008) วิธีช่วงความมั่นใจเชิงอนุมานของการสร้างความเท่าเทียมทางสถิติที่แก้ไขปัจจัยการลดของ Tryon (2001) วิธีการทางจิตวิทยา , 13 (3): 272–277


ตอนนี้ฉันไม่มีเวลาค้นคว้าคำตอบทั้งหมดดังนั้นฉันจะตอบในความคิดเห็น
Harvey Motulsky

[ความคิดเห็นล่าสุดถูกตัดทอน [ฉันไม่มีเวลาค้นคว้าคำตอบแบบเต็มตอนนี้ดังนั้นฉันจะตอบด้วยความเห็น 1) ใช่มันสมเหตุสมผลในสถานการณ์เดียวกันกับการเปรียบเทียบหลาย ๆ ครั้งสำหรับการทดสอบสมมติฐานที่สมเหตุสมผล 2. Bonferroni, Tukey และ Dunnet สามารถเปรียบเทียบการเปรียบเทียบหลาย ๆ แบบได้อย่างง่ายดายเพื่อสร้างช่วงความมั่นใจที่ระดับความเชื่อมั่นใช้กับทั้งครอบครัว 3. เท่าที่ฉันสามารถบอกได้ไม่มีความเป็นไปได้ที่จะสร้างความมั่นใจจากวิธีการของโฮล์ม 4. ฉันไม่มีเงื่อนงำ!
Harvey Motulsky

2
pα

คำตอบ:


9

หัวข้อที่ยอดเยี่ยมซึ่งน่าเศร้าไม่ได้รับความสนใจมากพอ

เมื่อพูดถึงพารามิเตอร์หลายตัวและช่วงความมั่นใจควรแยกแยะความแตกต่างระหว่างการอนุมานพร้อมกันและการอนุมานแบบเลือก Ref. [2] ให้การสาธิตที่ยอดเยี่ยมของเรื่อง

1α

แนวคิดทั้งสองนี้สามารถรวมกันได้: สมมติว่าคุณสร้างช่วงเวลาเฉพาะกับพารามิเตอร์ที่คุณปฏิเสธสมมติฐานว่าง คุณกำลังเผชิญกับการอนุมานแบบเลือกอย่างชัดเจน คุณอาจต้องการรับประกันความครอบคลุมของพารามิเตอร์ที่เลือกพร้อมกันหรือขอบเขตที่ครอบคลุมของพารามิเตอร์ที่เลือก อดีตจะเป็นคู่ของการควบคุม FWER และหลังของการควบคุม FDR

ตอนนี้มีมากกว่า: ขั้นตอนการทดสอบไม่ได้มีช่วงเวลาของพวกเขาทั้งหมด สำหรับขั้นตอน FWER และช่วงเวลาเพิ่มเติมโปรดดู [3] น่าเศร้าที่การอ้างอิงนี้ล้าสมัยไปเล็กน้อย สำหรับช่วงเวลาคู่ของการควบคุม BH FDR ให้ดู [1] และแอปพลิเคชันใน [4] (ซึ่งรวมถึงการทบทวนสั้น ๆ เกี่ยวกับเรื่องนี้) โปรดทราบว่านี่เป็นฟิลด์การวิจัยที่สดใหม่และกระตือรือร้นเพื่อให้คุณสามารถคาดหวังผลลัพธ์เพิ่มเติมในอนาคตอันใกล้

[1] Benjamini, Y. และ D. Yekutieli “ อัตราการค้นพบที่ผิดพลาดที่ปรับได้หลายช่วงความเชื่อมั่นสำหรับพารามิเตอร์ที่เลือก” วารสารสมาคมสถิติอเมริกัน 100 หมายเลข 0 469 (2005): 71–81

[2] Cox, DR“ ข้อสังเกตเกี่ยวกับวิธีการเปรียบเทียบหลายอย่าง” เทคนิคที่ 7, ไม่ 2 (1965): 223–24

[3] Hochberg, Y. และ AC Tamhane ขั้นตอนการเปรียบเทียบหลายรายการ นิวยอร์กนิวยอร์กสหรัฐอเมริกา: John Wiley & Sons, Inc. , 1987

[4] Rosenblatt, JD, และ Y. Benjamini “ เลือกสหสัมพันธ์; ไม่ใช่ Voodoo” NeuroImage 103 (ธันวาคม 2014): 401–10


1

ฉันจะไม่ปรับช่วงความมั่นใจสำหรับการทดสอบหลายรายการ ฉันไม่ใช่แฟนตัวยงของค่า p เพราะฉันเชื่อว่าการประมาณค่าพารามิเตอร์เป็นการใช้สถิติที่ดีกว่าการทดสอบสมมติฐานที่ไม่เคยเป็นจริง อย่างไรก็ตามฉันยอมรับว่าการทดสอบสมมติฐานมีค่าในการกล่าวว่าการทดลองแบบสุ่มควบคุมซึ่งอย่างน้อยหนึ่งสามารถยืนยันว่า asymptotically ถ้าการรักษาไม่ได้ผลสมมุติฐานว่างเป็นจริง อย่างไรก็ตามอย่างที่ฉันพูดไว้ที่อื่น [1] มักจะเกี่ยวข้องกับการมีผลหลักหนึ่ง อย่างไรก็ตามช่วงความเชื่อมั่นในคำจำกัดความที่พบบ่อยไม่เกี่ยวข้องกับสมมติฐานดังนั้นจึงไม่จำเป็นต้องมีการปรับสำหรับการเปรียบเทียบอื่น ๆ ที่อาจไม่เกี่ยวข้อง สมมติว่าฉันกำลังทดสอบฟีโนไทป์ที่เกี่ยวข้องกับยีนเฉพาะอย่างเช่นความสูงและความดันโลหิต ผม' ฉันอยากรู้ว่าความแตกต่างของความสูงนั้นสูงแค่ไหนระหว่างคนที่มีและไม่มียีนและฉันประเมินว่ามันดีแค่ไหน ฉันไม่เห็นว่าความจริงที่ว่าฉันวัดความดันโลหิตนั้นเกี่ยวข้องกับมันด้วย ที่ใดที่สำคัญก็คือว่าหากทั้งสองคนนั้นมีความหมายเดียวจากหลายร้อยคนที่เราทดสอบ ดังนั้นจึงมีความเป็นไปได้ที่ความแตกต่างจะเกิดขึ้นโดยบังเอิญมากกว่าการทดลองเชิงคาดหวังที่เราวัดความสูงและความดันโลหิตเท่านั้น แต่ทำการทดลองหลายร้อยครั้ง อย่างไรก็ตามในสถานการณ์เหล่านั้นจะไม่มีการปรับเปลี่ยนอย่างง่ายและจะดีกว่าที่จะประมาณการแบบไม่ต้องปรับปรุง แต่ทำความสะอาดตามวิธีการเปรียบเทียบเหล่านี้ นอกจากนี้เรายังได้ตีพิมพ์ผลการทดสอบซ้ำในช่วงความมั่นใจที่ทับซ้อนกัน [2] ไม่เห็นว่าความจริงที่ฉันวัดความดันโลหิตนั้นมีส่วนเกี่ยวข้องอะไรด้วย ที่ใดที่สำคัญก็คือว่าหากทั้งสองคนนั้นมีความหมายเดียวจากหลายร้อยคนที่เราทดสอบ ดังนั้นจึงมีความเป็นไปได้ที่ความแตกต่างจะเกิดขึ้นโดยบังเอิญมากกว่าการทดลองเชิงคาดหวังที่เราวัดความสูงและความดันโลหิตเท่านั้น แต่ทำการทดลองหลายร้อยครั้ง อย่างไรก็ตามในสถานการณ์เหล่านั้นจะไม่มีการปรับเปลี่ยนอย่างง่ายและจะดีกว่าที่จะประมาณการแบบไม่ต้องปรับปรุง แต่ทำความสะอาดตามวิธีการเปรียบเทียบเหล่านี้ นอกจากนี้เรายังได้ตีพิมพ์ผลการทดสอบซ้ำในช่วงความมั่นใจที่ทับซ้อนกัน [2] ไม่เห็นว่าความจริงที่ฉันวัดความดันโลหิตนั้นมีส่วนเกี่ยวข้องอะไรด้วย ที่ใดที่สำคัญก็คือว่าหากทั้งสองคนนั้นมีความหมายเดียวจากหลายร้อยคนที่เราทดสอบ ดังนั้นจึงมีความเป็นไปได้ที่ความแตกต่างจะเกิดขึ้นโดยบังเอิญมากกว่าการทดลองเชิงคาดหวังที่เราวัดความสูงและความดันโลหิตเท่านั้น แต่ทำการทดลองหลายร้อยครั้ง อย่างไรก็ตามในสถานการณ์เหล่านั้นจะไม่มีการปรับเปลี่ยนอย่างง่ายและจะดีกว่าที่จะประมาณการแบบไม่ต้องปรับปรุง แต่ทำความสะอาดตามวิธีการเปรียบเทียบเหล่านี้ นอกจากนี้เรายังได้ตีพิมพ์ผลการทดสอบซ้ำในช่วงความมั่นใจที่ทับซ้อนกัน [2] ใหญ่กว่าการทดลองเชิงคาดหวังที่เราวัดความสูงและความดันโลหิตเท่านั้น แต่ทำการทดลองหลายร้อยครั้ง อย่างไรก็ตามในสถานการณ์เหล่านั้นจะไม่มีการปรับเปลี่ยนอย่างง่ายและจะดีกว่าที่จะประมาณการแบบไม่ต้องปรับปรุง แต่ทำความสะอาดตามวิธีการเปรียบเทียบเหล่านี้ นอกจากนี้เรายังได้ตีพิมพ์ผลการทดสอบซ้ำในช่วงความมั่นใจที่ทับซ้อนกัน [2] ใหญ่กว่าการทดลองเชิงคาดหวังที่เราวัดความสูงและความดันโลหิตเท่านั้น แต่ทำการทดลองหลายร้อยครั้ง อย่างไรก็ตามในสถานการณ์เหล่านั้นจะไม่มีการปรับเปลี่ยนอย่างง่ายและจะดีกว่าที่จะประมาณการแบบไม่ต้องปรับปรุง แต่ทำความสะอาดตามวิธีการเปรียบเทียบเหล่านี้ นอกจากนี้เรายังได้ตีพิมพ์ผลการทดสอบซ้ำในช่วงความมั่นใจที่ทับซ้อนกัน [2]

[1] Campbell MJ และ Swinscow TDV (2009) สถิติที่ Square One 11 เอ็ดฟอร์ด; BMJ Books สำนักพิมพ์ Blackwell

[2] Julious SA, Campbell MJ, Walters SJ (2007) ทำนายอนาคตที่หมายถึงจะขึ้นอยู่กับผลของการทดลองในปัจจุบัน การทดลองทางคลินิกร่วมสมัย, 28, 352-357


1
ขอบคุณสำหรับคำตอบที่กระตุ้นความคิดไมค์ Benjamini, Hochberg และ Yekutieli ดูเหมือนจะแย้งว่าการเปรียบเทียบไม่ใช่ "ไม่เกี่ยวข้อง" แต่ในความเป็นจริงพร้อมกัน: "ความครอบคลุมพร้อมกันก็จำเป็นเมื่อการดำเนินการจะต้องดำเนินการตามมูลค่าของพารามิเตอร์ทั้งหมดดังนั้นการเปรียบเทียบจุดสิ้นสุดหลักระหว่างสอง การรักษาในการทดลองทางคลินิกมีแนวโน้มที่จะเกี่ยวข้องกับการตรวจสอบของพวกเขาทั้งหมดไม่ว่าพวกเขาจะแตกต่างกันอย่างมีนัยสำคัญหรือไม่นี่เป็นสถานการณ์ที่ชัดเจนที่ต้องการความคุ้มครองพร้อมกัน " (ออกจากประเด็นของการนำเสนอที่เลือกเฉพาะบาง CIs.)
อเล็กซิส

อนึ่งให้ "ฉันไม่ได้เป็นแฟนตัวยงของค่า p เพราะฉันเชื่อว่าการประมาณค่าพารามิเตอร์เป็นการใช้สถิติที่ดีกว่าการทดสอบสมมติฐานที่ไม่เป็นความจริง" คุณอาจจะเพลิดเพลินไปกับเหตุผลที่การทดสอบสมมติฐานบ่อยครั้งกลายเป็นอคติต่อการปฏิเสธ สมมติฐานว่างกับกลุ่มตัวอย่างที่มีขนาดใหญ่เพียงพอหรือไม่ . ไชโย
Alexis

1
แม้ว่าฉันจะเห็นด้วยกับคุณว่าช่วงความเชื่อมั่นของพารามิเตอร์นั้นเหนือกว่าค่า p สำหรับการอนุมานรูปแบบส่วนใหญ่ แต่ฉันไม่แน่ใจว่านั่นหมายความว่าไม่จำเป็นต้องมีการแก้ไขสำหรับการเปรียบเทียบหลายครั้งกับช่วงความมั่นใจ ช่วงความมั่นใจส่วนใหญ่จะถูกกำหนดโดยการใช้อัลฟาเพื่อระบุความคุ้มครอง แม้จะแยกออกมาจากกรอบการทดสอบสมมติฐานที่เข้มงวดฉันก็ดูเหมือนว่า (ไร้เดียงสาโดยไม่ต้องสนใจที่จะตรวจสอบสถานการณ์จำลอง) ว่าอาจทำให้เข้าใจผิดว่าติดอยู่กับความครอบคลุมเล็กน้อย (เช่น 95% ดังนั้น alpha = 0.05) ที่เกี่ยวข้อง
Ryan Simmons

2
ไมค์แคมป์เบลกล่าวว่า "ช่วงความเชื่อมั่นในคำจำกัดความที่ใช้บ่อยไม่เกี่ยวข้องกับสมมติฐานและไม่จำเป็นต้องปรับเปลี่ยนสำหรับคนอื่น ๆ ที่ไม่เกี่ยวข้องอาจเปรียบเทียบกัน" นั่นคือคำสั่งที่แปลก แม้ว่า CIs อาจไม่สะท้อน "การทดสอบสมมติฐาน" ต่อ se พวกเขาสะท้อนการทดสอบทางสถิติที่มีอัตราความผิดพลาดบางอย่าง (เช่น. 05) และอัตราความผิดพลาดนั้นสูงเกินจริงเมื่อจำนวนการทดสอบเพิ่มขึ้น - โดยพื้นฐานทางคณิตศาสตร์เดียวกัน หลักการที่ใช้กับการทดสอบสมมติฐานว่าง ไม่มีใครรอดพ้นจากปัญหาของการเปรียบเทียบหลาย ๆ อย่างโดยมุ่งเน้นที่ CIs แทนที่จะเป็นค่า p
Bonferroni
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.