มีอะไรผิดปกติกับการปรับ Bonferroni?


23

ผมอ่านบทความต่อไปนี้: Perneger (1998) มีอะไรผิดปกติกับการปรับ

ผู้เขียนสรุปโดยบอกว่าการปรับ Bonferroni มีการใช้งานที่ จำกัด ในการวิจัยด้านชีวการแพทย์และไม่ควรใช้เมื่อประเมินหลักฐานเกี่ยวกับสมมติฐานที่เฉพาะเจาะจง:

คะแนนสรุป:

  • การปรับนัยสำคัญทางสถิติสำหรับจำนวนการทดสอบที่ทำกับข้อมูลการศึกษา - วิธี Bonferroni - สร้างปัญหามากกว่าที่จะแก้
  • วิธี Bonferroni เกี่ยวข้องกับสมมติฐานว่างทั่วไป (ว่าสมมติฐานว่างทั้งหมดเป็นจริงพร้อมกัน) ซึ่งไม่ค่อยน่าสนใจหรือใช้สำหรับนักวิจัย
  • จุดอ่อนหลักคือการตีความการค้นพบขึ้นอยู่กับจำนวนการทดสอบอื่น ๆ ที่ดำเนินการ
  • โอกาสของข้อผิดพลาด type II ก็เพิ่มขึ้นเช่นกันดังนั้นความแตกต่างที่สำคัญอย่างแท้จริงจึงถือว่าไม่สำคัญ
  • เพียงแค่อธิบายว่าการทดสอบความสำคัญได้รับการดำเนินการอย่างไรและทำไมโดยทั่วไปแล้วเป็นวิธีที่ดีที่สุดในการจัดการกับการเปรียบเทียบหลายรายการ

ฉันมีชุดข้อมูลต่อไปนี้และฉันต้องการแก้ไขการทดสอบหลายรายการ แต่ฉันไม่สามารถตัดสินใจได้ว่าวิธีที่ดีที่สุดในกรณีนี้คืออะไร

ป้อนคำอธิบายรูปภาพที่นี่

ฉันต้องการทราบว่ามีความจำเป็นหรือไม่ที่จะต้องทำการแก้ไขประเภทนี้สำหรับชุดข้อมูลทั้งหมดที่มีรายการวิธีการและวิธีการที่ดีที่สุดสำหรับการแก้ไขในกรณีนี้คืออะไร


'mean A' คืออะไร 'meanB' ...

3
การไม่แก้ไขการเปรียบเทียบหลาย ๆ ครั้งทำให้คุณเสี่ยงต่อผลลัพธ์ที่ไม่สามารถให้ผลตอบแทนได้ หลายสาขารวมถึงยาและจิตวิทยาได้ค้นพบเมื่อเร็ว ๆ นี้ว่าเป็นสิ่งที่เกิดขึ้น: สิ่งที่พวกเขา "รู้" มากที่สุดจากค่า p ที่ไม่ได้รับการแก้ไขกลับกลายเป็นว่าไม่เป็นเช่นนั้น ดูเหมือนว่าทางเลือกนั้นชัดเจน: นักวิจัยที่ต้องการพบกับค่า p-value ที่จะเผยแพร่จะไม่ถูกต้อง ผู้สงสัยที่ต้องการความรู้จะ
whuber

@whuber แต่จะสามารถพิจารณาว่าทำซ้ำได้หรือไม่เมื่อมีวิธีการที่แตกต่างกันมากมายสำหรับการแก้ไขค่า p ที่มีอยู่? ในคำตอบของเขามาร์ติโนยังให้แนวทางในการเลือกระหว่างวิธีการอนุรักษ์น้อยลงหรือมีประสิทธิภาพมากกว่า
Nakx

@Nakx แม่นยำเป็นเพียงหลวม ๆ ที่เกี่ยวข้องกับขั้นตอนทางสถิติมันหมายถึงหรือไม่ว่าผลการเทียบเคียงจะได้รับเมื่อการวิจัยจะทำอย่างอิสระโดยที่คนอื่น ๆ (และสันนิษฐานว่าในความพยายามดังกล่าวเพื่อทำซ้ำสมมติฐานที่ชัดเจนเดียวจะก้องล่วงหน้าและ กระบวนการทางสถิติที่เหมาะสมกับสมมติฐานนั้นจะถูกนำมาใช้) หากกระบวนการดั้งเดิมไม่ได้สร้างค่า p ที่ถูกต้องดังนั้นเมื่อใช้หลายครั้งสำหรับการศึกษาอิสระหลายครั้งมันจะทำการตรวจสอบที่ไม่สามารถแก้ไขได้มากกว่าที่ผู้ใช้ตั้งใจหรือคาดหวัง
whuber

คำตอบ:


23

มีอะไรผิดปกติกับการแก้ไข Bonferroni นอกเหนือจากการอนุรักษ์ที่กล่าวถึงโดยผู้อื่นคือสิ่งที่ผิดกับการแก้ไขหลายหลาก พวกเขาไม่ปฏิบัติตามหลักการทางสถิติขั้นพื้นฐานและเป็นไปตามอำเภอใจ ไม่มีวิธีการแก้ไขปัญหาซ้ำซ้อนในโลกที่พบบ่อย ประการที่สองการปรับหลายหลากขึ้นอยู่กับปรัชญาพื้นฐานที่ความจริงของคำสั่งหนึ่งขึ้นอยู่กับสมมติฐานอื่นที่มีความบันเทิง สิ่งนี้เทียบเท่ากับการตั้งค่าแบบเบย์ซึ่งการแจกแจงก่อนหน้าสำหรับพารามิเตอร์ที่น่าสนใจจะได้รับการอนุรักษ์มากขึ้นเมื่อพิจารณาถึงพารามิเตอร์อื่น ๆ สิ่งนี้ดูเหมือนจะไม่สอดคล้องกัน อาจกล่าวได้ว่าวิธีการนี้มาจากนักวิจัยที่ "ถูกเผา" โดยประวัติศาสตร์ของการทดลองในเชิงบวกที่ผิดพลาดและตอนนี้พวกเขาต้องการชดเชยความผิด

เมื่อต้องการขยายบิตพิจารณาสถานการณ์ต่อไปนี้ นักวิจัยด้านเนื้องอกวิทยาได้ทำอาชีพการศึกษาประสิทธิภาพของเคมีบำบัดในบางวิชา การทดลองแบบสุ่ม 20 รายการก่อนหน้าทั้งหมดของเธอส่งผลให้ประสิทธิภาพไม่มีนัยสำคัญทางสถิติ ตอนนี้เธอกำลังทดสอบเคมีบำบัดใหม่ในชั้นเรียนเดียวกัน ประโยชน์การเอาชีวิตรอดมีความสำคัญกับP=0.04. เพื่อนร่วมงานคนหนึ่งชี้ให้เห็นว่ามีการศึกษาจุดสิ้นสุดที่สอง (การหดตัวของเนื้องอก) และจำเป็นต้องใช้การปรับหลายหลากกับผลการรอดชีวิตเพื่อประโยชน์การรอดชีวิตที่ไม่มีนัยสำคัญ เพื่อนร่วมงานย้ำจุดสิ้นสุดที่สอง แต่ไม่สนใจว่าจะปรับตัวน้อยกว่า 20 ครั้งเพื่อหายาที่มีประสิทธิภาพ และคุณจะคำนึงถึงความรู้เดิมเกี่ยวกับการศึกษาก่อนหน้า 20 ครั้งอย่างไรถ้าคุณไม่ได้เป็นชาวเบย์ เกิดอะไรขึ้นถ้าไม่มีจุดสิ้นสุดที่สอง เพื่อนร่วมงานจะเชื่อหรือไม่ว่าผลประโยชน์ในการเอาชีวิตรอดได้ถูกแสดงออกมาโดยไม่สนใจความรู้เดิมทั้งหมด


2
ไม่ชัดเจนในการอ้างอิงถึง 'ทำซ้ำ' หากมีการทดสอบครั้งเดียวโดยไม่จำเป็นต้องมีการปรับหลายระดับโอกาสที่ผลลัพธ์ที่มีจะไม่สูง P=0.04
Frank Harrell

2
เพื่อตอบ @MJA ฉันคิดว่ามีสองวิธีที่ต้องการ: (1) เป็น Bayesian หรือ (2) จัดลำดับความสำคัญของสมมติฐานและรายงานผลลัพธ์ในบริบทตามลำดับความสำคัญ
Frank Harrell

3
ไม่มีอะไรที่เป็นหลักการเกี่ยวกับสิ่งนั้นและมันไม่ถูกต้องในทางใดทางหนึ่ง ความไม่เท่าเทียมกันของ Bonferroni เป็นขอบเขตสูงสุดสำหรับความน่าจะเป็นข้อผิดพลาดเท่านั้น ทำไมใช้อย่างเท่าเทียมกันกับ 5 พารามิเตอร์ ทำไมไม่สร้างภูมิภาครูปไข่แทนที่จะเป็นรูปสี่เหลี่ยมผืนผ้าสำหรับภูมิภาคที่ยอมรับ? ทำไมไม่ใช้วิธีของ Scheffe หรือ Tukey ทำไมไม่ใช้การทดสอบคอมโพสิตชนิด ANOVA แบบง่าย ๆ คุณไม่ได้รับαที่ต้องการโดยใช้in in equality αα
Frank Harrell

2
คุณกำลังกำหนดอัตราข้อผิดพลาดสองอัตรา ภายใต้ค่า null Bonferroni จะเก็บรักษาจำนวนข้อผิดพลาดที่คาดไว้ต่อครอบครัวไว้อย่างแน่นอน มันให้ขึ้นบนความน่าจะเป็นของข้อผิดพลาด "อย่างน้อยหนึ่ง" ต่อครอบครัว (ซึ่งขึ้นอยู่กับสหสัมพันธ์) การใช้อัลฟ่าอย่างเท่าเทียมกันในการทดสอบทั้ง 5 ครั้งนั้นสมเหตุสมผลอย่างยิ่งเนื่องจากไม่มีเหตุผลใดที่จะจัดลำดับความสำคัญของการทดสอบในวิธีที่แตกต่างกัน ด้วยบริบทอื่นมีเหตุผลมากมายที่ต้องทำ คุณดูเหมือนจะบอกเป็นนัย ๆ ว่า "ไร้หลักการ" ที่จะใช้วิธีการทางคณิตศาสตร์เพราะวิธีการทางเลือกมีอยู่เนื่องจากบริบทเป้าหมายและสมมติฐานอื่น ๆ
Bonferroni

2
@ FrankHarrell คำถามอื่น ๆ ของคุณมีไว้เพื่อแสดงจุดของฉันเท่านั้น มักจะมีตัวเลือกมากมายของสถิติการทดสอบขั้นตอนการทดสอบ ฯลฯ แม้ในกรณีที่ไม่มีหลายหลาก ไม่ได้ทำให้วิธีการ "ตามอำเภอใจ" ในแง่ที่คุณดูเหมือนจะหมายถึง หากมีใครสนใจในการทดสอบรถโดยสารก็ให้ดำเนินการอย่างใดอย่างหนึ่ง หากมีใครสนใจเพียงแค่การทดสอบที่ไม่รวมค่าตัวแปรก็ให้ทำการทดสอบที่ไม่รวมตัวแปร คุณแนะนำอย่างจริงจังหรือไม่ว่าเป็น "การสุ่ม" เพื่อเลือกการทดสอบที่ตอบคำถามที่คุณสนใจแทนที่จะเป็นคำถามอื่น?
Bonferroni

12

เขาสรุปว่าการปรับ Bonferroni นั้นมีการใช้งานที่ จำกัด ในการวิจัยด้านชีวการแพทย์และไม่ควรใช้เมื่อประเมินหลักฐานเกี่ยวกับสมมติฐานที่เฉพาะเจาะจง

การแก้ไข Bonferroni เป็นหนึ่งในเทคนิคการเปรียบเทียบหลายแบบที่ง่ายที่สุดและอนุรักษ์นิยมที่สุด มันยังเป็นหนึ่งในที่เก่าแก่ที่สุดและได้รับการปรับปรุงเมื่อเวลาผ่านไปอย่างมาก มันยุติธรรมที่จะกล่าวว่าการปรับ Bonferroni มีแอปพลิเคชั่นที่ จำกัด ในเกือบทุกสถานการณ์ มีวิธีที่ดีกว่าเกือบแน่นอน กล่าวคือคุณจะต้องแก้ไขให้ถูกต้องสำหรับการเปรียบเทียบหลาย ๆ แบบ แต่คุณสามารถเลือกวิธีที่มีความระมัดระวังน้อยกว่าและมีประสิทธิภาพมากกว่า

อนุรักษ์นิยมน้อยลง

วิธีการเปรียบเทียบหลายวิธีป้องกันการได้ผลบวกที่ผิดพลาดอย่างน้อยหนึ่งข้อในตระกูลการทดสอบ หากคุณทำการทดสอบหนึ่งครั้งที่ระดับคุณจะได้รับโอกาส 5% ที่จะได้ผลบวกที่ผิดพลาด คุณปฏิเสธสมมติฐานว่างของคุณอย่างไม่ถูกต้อง หากคุณทำการทดสอบ 10 ครั้งที่ระดับα = 0.05ดังนั้นจะเพิ่มเป็น1 - ( 1 - 0.05 ) 10 = ~ 40% โอกาสที่จะได้ผลบวกปลอมαα=0.051(10.05)10

ด้วยวิธี Bonferroni คุณใช้ที่จุดต่ำสุดของสเกล (เช่นα b = α / n ) เพื่อปกป้องครอบครัวของคุณในการทดสอบnที่ระดับα มันเป็นสิ่งที่อนุรักษ์นิยมที่สุด ตอนนี้คุณสามารถเพิ่มα bเกินขีด จำกัด ล่างที่กำหนดโดย Bonferroni (เช่นทำให้การทดสอบของคุณน้อยลง) และยังคงปกป้องครอบครัวของการทดสอบที่ระดับα มีหลายวิธีในการทำเช่นนี้เช่นวิธี Holm-Bonferroni หรือดีกว่าอัตราการค้นพบที่ผิดพลาดαbαb=α/nnααbα

มีประสิทธิภาพยิ่งขึ้น

จุดที่ดีที่นำเสนอในเอกสารอ้างอิงคือความน่าจะเป็นของข้อผิดพลาดประเภท II ก็เพิ่มขึ้นเช่นกันดังนั้นความแตกต่างที่สำคัญอย่างแท้จริงจึงถือว่าไม่สำคัญ

สิ่งนี้สำคัญมาก การทดสอบที่ทรงพลังคือการทดสอบที่พบผลลัพธ์ที่สำคัญหากมีอยู่ เมื่อใช้การแก้ไข Bonferroni คุณจะได้รับการทดสอบที่ทรงพลังน้อยกว่า เนื่องจาก Bonferroni นั้นอนุรักษ์พลังงานจึงมีแนวโน้มลดลงอย่างมาก อีกครั้งหนึ่งในวิธีการอื่นเช่นอัตราการค้นพบที่ผิดจะเพิ่มพลังของการทดสอบ กล่าวอีกนัยหนึ่งไม่เพียง แต่คุณจะปกป้องผลบวกที่ผิดพลาดคุณยังสามารถพัฒนาความสามารถในการค้นหาผลลัพธ์ที่สำคัญอย่างแท้จริง

ใช่คุณควรใช้เทคนิคการแก้ไขเมื่อคุณมีการเปรียบเทียบหลายอย่าง และใช่ Bonferroni ควรจะหลีกเลี่ยงวิธีการอนุรักษ์น้อยลงและมีประสิทธิภาพมากขึ้น


มีหลายทางเลือก - ตัวอย่าง Holm Bonferroni นั้นง่ายและเข้าใจง่าย ทำไมไม่ให้มันไป สมมติว่าแอปพลิเคชันของคุณอยู่ในการแสดงออกของยีนหรือการแสดงออกของโปรตีนที่คุณกำลังทดสอบตัวแปรหลายพันตัวในการทดสอบจากนั้นคุณมักใช้ FDR
martino

วิธีการคำนวณโอกาสที่จะให้ผลบวกผิด ๆ 40% ในการทดสอบสิบครั้งนั้นขึ้นอยู่กับการทดสอบของคุณว่าเป็นเหตุการณ์ที่เป็นอิสระ แต่ด้วยข้อมูลจริงนี่ไม่น่าเป็นไปได้ ฉันคิดว่าอย่างน้อยก็สมควรที่จะแสดงความคิดเห็น
Silverfish

ฉันยังกังวลคำตอบนี้ดูเหมือนว่าจะยุบวิธีการรักษาอัตราข้อผิดพลาดตามครอบครัวกับอัตราการค้นพบที่ผิด ไม่ใช่ความคิดที่ดีที่จะพูดคุยเกี่ยวกับสิ่งทั้งสองนี้ แต่เนื่องจากพวกเขาทำงานที่แตกต่างกันฉันไม่คิดว่าพวกเขาควรได้รับการนำเสนอที่เท่าเทียมกัน
Silverfish

แต่ถ้าฉันเข้าใจดี FDR (อัตราการค้นพบที่ผิดพลาด) ไม่รับประกันว่าการควบคุมความผิดพลาดประเภทที่ 1 จะอยู่ในระดับที่กำหนดไว้หรือไม่ (ดูคำตอบของฉันสำหรับคำถามนี้ด้วย)

แต่มันมีความโปร่งใสและมีประโยชน์มากกว่าหรือไม่ในการรายงานค่า p-raw ทั้งหมดในบทความเพื่อให้ผู้อ่านสามารถตัดสินด้วยตนเองถึงความถูกต้องหรือเลือกวิธีการปรับค่าใช้จ่ายที่พวกเขาต้องการใช้
Nakx

5

Thomas Perneger ไม่ใช่นักสถิติและบทความของเขาเต็มไปด้วยความผิดพลาด ดังนั้นฉันจะไม่ใช้มันอย่างจริงจังเกินไป มันถูกวิจารณ์โดยผู้อื่นอย่างมาก ตัวอย่างเช่น Aickin กล่าวว่ากระดาษของ Perneger "ประกอบด้วยข้อผิดพลาดเกือบทั้งหมด": Aickin, "มีวิธีอื่นสำหรับการปรับการทดสอบหลายรายการที่มีอยู่", BMJ 1999 ม.ค. 9; 318 (7176): 127

นอกจากนี้ยังไม่มีค่า p ในคำถามเดิมคือ <.05 ต่อไปแม้จะไม่มีการปรับหลายหลาก ดังนั้นจึงอาจไม่สำคัญว่าจะใช้การปรับค่าใด (ถ้ามี)


4
ขอบคุณสำหรับลิงค์! ฉันได้เพิ่มการอ้างอิงแบบเต็ม นี่ยังเป็นความคิดเห็นมากกว่าคำตอบ & ฉันแน่ใจว่าคุณมีความสนใจที่จะเพิ่มหรืออย่างน้อยก็สรุปสั้น ๆ ว่า Aicken พูดอะไร ไม่เกี่ยวข้องกับการที่จะกล่าวว่า Perneger ไม่มีความเชี่ยวชาญด้านสถิติดูเหมือนจะไม่เป็นความจริง (ตามมาตรฐานที่สมเหตุสมผล) น่ารักหรือมีประโยชน์ - คุณจะพิจารณาลบข้อความหรือไม่?
Scortchi - Reinstate Monica

@Scortchi ฉันเปลี่ยน "ไม่มีความเชี่ยวชาญด้านสถิติ" เป็น "ไม่ใช่นักสถิติ" อนึ่งฉันไม่เห็นด้วยที่ไม่มีประโยชน์ในการแยกความคิดเห็นของผู้เชี่ยวชาญออกจากความคิดเห็นที่ไม่ใช่ผู้เชี่ยวชาญ
Bonferroni

2
เท่าที่ฉันสามารถบอกได้ Perneger ไม่มีสถิติในระดับที่ดีและไม่เคยตีพิมพ์บทความในวารสารทางสถิติ บทความที่อ้างถึงในคำถามเป็นบทความความคิดเห็นใน BMJ ที่ถูกเรียกออกมาว่าผิดอย่างสมบูรณ์ ดังนั้นความเชี่ยวชาญของ Perneger จึงเป็นสิ่งที่เถียงไม่ได้ "เกินกว่ามาตรฐานที่สมเหตุสมผล" การเป็น "มิตร" ไม่ควรเข้าไปในความจริง
Bonferroni

3
เท่าที่ฉันสามารถบอกได้ว่าเขาเป็นศาสตราจารย์ที่โรงพยาบาลมหาวิทยาลัยที่มีผู้เชี่ยวชาญด้านชีวสถิติและปริญญาเอกด้านระบาดวิทยาที่บรรยายในสถิติการแพทย์ & เผยแพร่การวิเคราะห์การทดลองทางคลินิกและการศึกษาเชิงสังเกตในวารสารทางการแพทย์ หากคุณอนุมานจากสิ่งที่ "ไม่มีความเชี่ยวชาญทางสถิติ" ฉันคิดว่ามาตรฐานของคุณค่อนข้างสูงกว่าที่คุณคาดหวังอย่างสมเหตุสมผล (ซึ่งเป็นสิ่งที่ฉันควรจะพูดมากกว่าที่มาตรฐานไม่มีเหตุผล) อย่างไรก็ตามขอบคุณสำหรับการแก้ไข!
Scortchi - Reinstate Monica

5

อาจเป็นการดีที่จะอธิบาย "การใช้เหตุผลเบื้องหลัง" "การทดสอบแก้ไขหลายรายการเช่นเดียวกับ Bonferroni หากสิ่งนั้นชัดเจนแล้วคุณจะสามารถตัดสินตัวเองได้ว่าควรนำไปใช้หรือไม่

μH0:μ=0

H1:μ0H0:μ=0α

H0H0

H0H0H1

หลักฐานเท็จเป็นสิ่งไม่ดีทางวิทยาศาสตร์เพราะเราเชื่อว่าได้รับความรู้ที่แท้จริงเกี่ยวกับโลก แต่ในความเป็นจริงเราอาจมีโชคไม่ดีกับตัวอย่าง ข้อผิดพลาดประเภทนี้จึงควรได้รับการควบคุม ดังนั้นเราควรวางขีด จำกัด บนความน่าจะเป็นของหลักฐานประเภทนี้หรือควรควบคุมข้อผิดพลาดประเภทที่ 1 ทำได้โดยการกำหนดระดับนัยสำคัญที่ยอมรับได้ล่วงหน้า

5%H05%H0H1H1

H0:μ1=0&μ2=0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

ดังนั้นโอกาสที่อย่างน้อยหนึ่งในสองคนนั้นคือการปฏิเสธที่ผิดพลาดคือ 1 ลบความน่าจะเป็นที่ทั้งคู่ไม่ได้ปฏิเสธคือ 1(10.05)2=0.0975α

ข้อเท็จจริงสำคัญที่นี่คือว่าการทดสอบทั้งสองนั้นขึ้นอยู่กับหนึ่งและตัวอย่าง Sampe!

โปรดทราบว่าเราถือว่าความเป็นอิสระ หากคุณไม่สามารถยอมรับความเป็นอิสระคุณสามารถแสดงให้เห็นได้โดยใช้ Bonferroni inequality $ ซึ่งความผิดพลาดประเภท I สามารถขยายได้ถึง 0.1

โปรดทราบว่า Bonferroni นั้นอนุรักษ์นิยมและขั้นตอนตามขั้นตอนของ Holm นั้นอยู่ภายใต้สมมติฐานเดียวกันกับ Bonferroni แต่ขั้นตอนของ Holm มีอำนาจมากกว่า

เมื่อตัวแปรไม่ต่อเนื่องจะดีกว่าถ้าใช้สถิติทดสอบตามค่า p ต่ำสุดและถ้าคุณพร้อมที่จะละทิ้งการควบคุมความผิดพลาดประเภทที่ 1 เมื่อทำการทดสอบจำนวนมากแล้วขั้นตอนอัตราการค้นพบที่ผิดอาจมีประสิทธิภาพมากกว่า

แก้ไข:

ถ้าเช่น (ดูตัวอย่างในคำตอบโดย @Frank Harrell)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20

H0(1)H1(1)H0(2)H1(2)


2
ฉันคิดว่าคำถามนี้ได้รับประโยชน์จากคำตอบเช่นนี้ แต่ฉันขอแนะนำให้กระชับถ้อยคำของ "ดังนั้นถ้าเรากำหนดระดับความสำคัญของเราที่ 5% แล้วเรากำลังบอกว่าเราพร้อมที่จะยอมรับหลักฐานเท็จ (เพราะโชคไม่ดีกับตัวอย่าง ) ที่มีโอกาส 5% "... นั่นเป็นเพียงความน่าจะเป็นที่เกิดข้อผิดพลาดถ้าค่าว่างนั้นเป็นจริงและนั่นก็คุ้มค่าที่จะพูด (เป็น "หลักฐานเท็จ" เป็นคำทั่วไปหรือไม่ฉันคุ้นเคยกับการเห็น "บวกเชิงบวกมากขึ้น")
Silverfish

@Silverfish; ฉันพูดอีกซักหน่อยคุณคิดว่ามันดีกว่านี้ไหม

1
ฉันคิดว่าดีกว่า - "การพิสูจน์ทางสถิติ" น่าจะได้รับประโยชน์จากการใช้ถ้อยคำใหม่อีกด้วยฉันรู้ว่านี่คือจำนวนผู้ที่ตีความ p <0.05 หรืออะไรก็ตาม แต่แน่นอนว่ามันไม่ใช่ข้อพิสูจน์!
Silverfish

@Silverfish: ฉันเห็นด้วยอย่างเต็มที่ว่าไม่ใช่ '' หลักฐาน '' แต่ฉันใช้คำศัพท์ด้วยเหตุผลที่ไม่ได้ปฏิบัติเพราะฉันเริ่มจากการเปรียบเทียบเพื่อพิสูจน์ด้วยความขัดแย้ง ฉันจะเพิ่มความกระจ่างดังกล่าวที่จุดเริ่มต้น

การแก้ไขของคุณสับสน "ผลกระทบของเคมีบำบัด" ในตัวอย่างของ Frank วัดจากสองมาตรการคืออัตราการรอดตายและการหดตัวของเนื้องอก ทั้งสองสามารถได้รับอิทธิพลจากคีโม สมมติฐานชัดเจนว่าคีโมทำงานได้ดี แต่ "การทำงาน" สามารถวัดปริมาณได้สองวิธี นั่นคือความคลุมเครือที่ฉันได้พูดคุยในหัวข้อใหม่ของคุณ
อะมีบาพูดว่า Reinstate Monica

4

การอภิปรายที่ดีเกี่ยวกับการแก้ไข Bonferroni และขนาดเอฟเฟกต์http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html นอกจากนี้การแก้ไข Dunn-Sidak และความน่าจะเป็นแบบรวมของฟิชเชอร์เป็นสิ่งที่ควรพิจารณาเป็นทางเลือก โดยไม่คำนึงถึงวิธีการมันเป็นมูลค่าการรายงานทั้งปรับและ p- ค่าดิบรวมทั้งขนาดผลเพื่อให้ผู้อ่านสามารถมีอิสระในการตีความพวกเขา


คำแนะนำในการนำเสนอทั้งค่า p และค่าที่ปรับแล้วดูเหมือนจะเหมาะสมสำหรับฉันเสมอ แต่โดยทั่วไปถือว่าเป็นบรรทัดฐานหรือแม้แต่ยอมรับได้?
Silverfish

3

สำหรับหนึ่งมันอนุรักษ์นิยมอย่างยิ่ง วิธีการ Holm-Bonferroni บรรลุสิ่งที่วิธีการ Bonferonni สำเร็จ (การควบคุมอัตราความผิดพลาดของ Family Wise) ในขณะที่ยังมีประสิทธิภาพมากกว่าเดิม


นั่นหมายความว่าฉันต้องใช้วิธีนี้เพื่อแก้ไขผลลัพธ์ของฉันหรือฉันควรยอมรับผลลัพธ์ขึ้นอยู่กับสมมติฐานของฉัน
goro

ฉันไม่รู้ว่าคุณหมายถึงอะไรโดย "ฉันควรยอมรับผลลัพธ์ขึ้นอยู่กับสมมติฐานของฉัน" แต่ใช่คุณควรใช้การแก้ไขการทดสอบหลายประเภทเพราะมิฉะนั้นคุณจะเกิดข้อผิดพลาดประเภท 1 ที่สูงเกินจริง
TrynnaDoStat

สิ่งที่ฉันหมายถึงโดย "ฉันควรจะยอมรับผลลัพธ์ขึ้นอยู่กับสมมติฐานของฉัน" คือฉันวิ่งการวิเคราะห์ของฉันในสามวิธีที่แตกต่างกันรวมถึง GLM และวิธีการเรียงสับเปลี่ยน วิธีการทั้งหมดให้ผลลัพธ์ที่สำคัญกับฉันและผลลัพธ์เหล่านั้นสนับสนุนสมมติฐานของฉันที่ฉันควรมีความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่ม เมื่อฉันใช้ Bonferroni เพื่อแก้ไขหลาย ๆ ครั้งผลลัพธ์ทั้งหมดของฉันก็ไม่สำคัญ นั่นเป็นเหตุผลที่ฉันสับสนวิธีนี้ไม่เหมาะสำหรับการวิเคราะห์ของฉันดังนั้นฉันจึงสามารถใช้วิธีอื่นหรือเชื่อมั่นในผลลัพธ์ของฉันขึ้นอยู่กับผลลัพธ์จากวิธีอื่นโดยไม่ต้องใช้ Bonferroni
goro

1
โอเคฉันเข้าใจสิ่งที่คุณพูด หากคุณทดสอบสมมติฐานเดียวกัน 3 วิธีที่ต่างกันฉันจะไม่ใช้การแก้ไขการทดสอบหลายรายการ เหตุผลที่ผลการทดสอบทั้งสามนี้ขึ้นอยู่กับแต่ละฝ่าย
TrynnaDoStat

3

หนึ่งควรดูที่วิธีการ "อัตราการค้นพบที่ผิด" เป็นทางเลือกที่อนุรักษ์นิยมน้อยกว่ากับ Bonferroni ดู

John D. Storey "การค้นพบอัตราการปลอมแปลงที่เป็นบวก: การตีความของ BAYESIAN และ q-VALUE" The Annals of Statistics 2003, Vol. 31, ลำดับที่ 6, 2013–2035


3
สิ่งเหล่านี้ควบคุมสิ่งต่าง ๆ แม้ว่า FDR รับรองว่าจะไม่เกิน 5% (หรืออัลฟ่าของคุณ) ของการโทรของคุณเป็นผลบวกปลอมซึ่งแตกต่างจากการรักษาอัตราความผิดพลาดแบบครอบครัว (ซึ่งเป็นสิ่งที่ Bonferroni ทำ)
Matt Krause

@ Matt Krause: และถ้าฉันเข้าใจได้ดี FDR (อัตราการค้นพบที่ผิดพลาด) ไม่รับประกันว่าฉันจะควบคุมข้อผิดพลาดประเภทที่ระดับที่กำหนดไว้หรือไม่ (ดูคำตอบของฉันสำหรับคำถามนี้ด้วย)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.