ทำไมจึงไม่มีการแก้ไขสมมติฐานหลายข้อที่ใช้กับการทดลองทั้งหมดตั้งแต่เช้าตรู่


24

เรารู้ว่าเราต้องใช้การแก้ไขที่คล้ายกับ Benjamini Hochberg สำหรับการทดสอบสมมุติฐานหลายครั้งกับการทดลองโดยใช้ชุดข้อมูลเดียวเพื่อควบคุมอัตราการค้นพบที่ผิดพลาดมิฉะนั้นการทดลองทั้งหมดที่ให้ผลบวกอาจเป็นเท็จ

แต่ทำไมเราไม่ใช้หลักการเดียวกันนี้กับการทดลองทั้งหมดตั้งแต่ต้นเวลาไม่ว่าข้อมูลจะมาจากไหน

ท้ายที่สุดแล้วกว่าครึ่งหนึ่งของผลลัพธ์ทางวิทยาศาสตร์ที่ตีพิมพ์ซึ่งถือว่า "สำคัญ" เป็นที่รู้กันว่าเป็นเท็จและไม่สามารถแก้ไขได้และไม่มีเหตุผลว่าทำไมสิ่งนี้ถึงไม่สามารถทำได้ง่ายเพียง 100% เนื่องจากนักวิทยาศาสตร์มีแนวโน้มที่จะเผยแพร่ผลลัพธ์เชิงบวกเท่านั้นเราจึงไม่มีความคิดเกี่ยวกับจำนวนผลลัพธ์เชิงลบดังนั้นเราจึงไม่มีความคิดว่าสิ่งที่เราเผยแพร่นั้นเป็นผลบวกที่ผิดพลาดเท่านั้น - ผลลัพธ์ในเชิงบวกที่ตัดขึ้นโดยบังเอิญแบบสุ่มภายใต้สมมติฐานว่าง ในขณะเดียวกันไม่มีอะไรที่จะบอกได้ว่าคณิตศาสตร์ที่อยู่เบื้องหลังการแก้ไขการทดสอบสมมติฐานหลายข้อควรนำไปใช้กับผลลัพธ์จากชุดข้อมูลเดียวกันเท่านั้นและไม่เป็นผลจากข้อมูลการทดลองทั้งหมดที่ได้รับเมื่อเวลาผ่านไป

ดูเหมือนว่าวิทยาศาสตร์ทั้งหมดได้กลายเป็นหนึ่งในการสำรวจการตกปลาครั้งใหญ่ครั้งหนึ่งซึ่งตั้งอยู่บนสมมติฐานที่ผิด ๆ หรืออ่อนแอดังนั้นเราจะควบคุมสิ่งนี้ได้อย่างไร

เราจะควบคุมอัตราการค้นพบที่ผิดพลาดได้อย่างไรหากสิ่งที่เราเคยเผยแพร่นั้นเป็นผลลัพธ์ที่เป็นอิสระโดยไม่ต้องใช้การแก้ไขใด ๆ สำหรับการทดสอบสมมติฐานหลายครั้งกับการทดลองทั้งหมดที่ดำเนินการจนถึงปัจจุบัน

เป็นไปได้หรือไม่ที่จะควบคุมอัตราการค้นพบที่ผิดพลาดโดยไม่ใช้การแก้ไขเช่นนี้?


2
คำถามของคุณเองใช้กับmeta.stats.stackexchange.com/questions/3049/… การรวมกลุ่มนี้มีการโต้แย้งหลายครั้ง (ในบางกรณีมีการพูดเกินจริงมาก) พร้อมด้วยคำถามใหญ่ ๆ หลายข้อ ฉันคิดว่าสิ่งนี้ขัดกับมติของคำแนะนำที่คุณได้รับ
Nick Cox

3
ขออภัยฉันไม่ทราบว่าคุณกำลังอ้างอิงถึงคำตอบใด: ฉันไม่เห็นการอ้างอิงที่นี่ ฉันไม่ได้ลงคะแนนให้ปิดและฉันไม่มีความปรารถนาหรือมีอำนาจที่จะหยุดไม่ให้คนตอบ แต่ตัวอย่างเช่น "ตั้งแต่เช้าตรู่" เป็นตัวอย่างเล็ก ๆ ของการพูดเกินจริงอย่างไม่มีจุดหมายและมีอีกหลายคนในโพสต์ของคุณ การยั่วยุเพื่อประโยชน์ของตัวเองจะไม่ช่วยให้คุณมีคำถามพื้นฐาน ผู้อ่านต้องตัดสไตล์ออกจากสาร
Nick Cox

3
ขอบคุณสำหรับคำเชิญ แต่ชีวิตนั้นสั้น ฉันจะให้การอ้างอิงโยงของฉันกับเธรดเมตาเป็นจุดสำคัญของฉัน ฉันได้แสดงความคิดเห็นเกี่ยวกับรูปแบบและเนื้อหาซึ่งสามารถยืนหรือตกหลุมประโยชน์ของมันได้ที่นี่
Nick Cox

9
ถ้าฉันทำวิทยาศาสตร์ฉันจะดูแลไม่มากสิ่งที่ค้นพบที่ผิดพลาดที่คุณทำ อันที่จริงในแง่ของการทำข้อเรียกร้องทางวิทยาศาสตร์โดยเฉพาะอย่างยิ่งผมอาจจะดูแลไม่มากสิ่งที่ค้นพบที่ผิดพลาดอื่น ๆ ที่ฉันทำ ถ้าฉันไม่ได้ทำวิทยาศาสตร์ฉันอาจไม่สนใจว่าฉันค้นพบสิ่งผิดพลาดอื่นใดในการวิเคราะห์นี้ - เพราะถ้าฉันเลือกอัตราความผิดพลาดประเภทที่ 1 ของฉันขึ้นอยู่กับค่าใช้จ่ายสัมพัทธ์ของข้อผิดพลาดสองประเภทฉันได้ เลือกการแลกเปลี่ยนระหว่างสองรายการนี้แล้วและไม่ควรแก้ไขสำหรับการเปรียบเทียบหลาย ๆ รายการเลย
Glen_b -Reinstate Monica

2
โชคดีที่คนอื่น ๆ ได้นำเสนอมุมมองที่คล้ายกับของฉันด้วยความสุขุมและความชัดเจน ในฐานะที่เป็นความคิดเห็นพิเศษผมแนะนำให้กับวิทยาศาสตร์ conflating (สิ่งที่มีคุณค่ายาวนาน) กับวรรณกรรมของมัน มีหลายวิธีในการที่วรรณกรรมผิดหวัง: ความคลุมเครือ, เรื่องไร้สาระ, ข้อผิดพลาดเชิงตรรกะและอื่น ๆ ในนามธรรมทุกคนไม่พอใจกับความคิดของการทดสอบเชิงบวกที่ผิดพลาดทั้งหมดที่ได้รับการตีพิมพ์ แต่พวกเขาต้องเชื่อ (หากเป็นการทดลองใช้ยาอาจเป็นเรื่องใหญ่) ดังนั้นมีหลายสิ่งที่ต้องกังวล แต่ฉันไม่คิดว่าวิทยาศาสตร์จะต้องถูกลงโทษ
Nick Cox

คำตอบ:


20

p

สิ่งนี้จะนำในยุคทองของวิทยาศาสตร์และเหตุผล? ไม่อาจจะไม่


t
H0: The groups have the same mean.HA: The groups have different means.
H0H0สมมติฐานมีความหมายบางอย่าง "น่าเบื่อ" และนักวิจัยมักเกี่ยวข้องกับการหลีกเลี่ยงสถานการณ์ที่ "ผิดพลาด" ซึ่งพวกเขาอ้างว่าพบความแตกต่างระหว่างกลุ่มที่ไม่มีอยู่จริง ดังนั้นเราจึงเรียกผลลัพธ์ที่ "สำคัญ" เท่านั้นหากพวกเขาดูเหมือนว่าไม่น่าเป็นไปได้ภายใต้สมมติฐานว่างและโดยการประชุมนั้นเกณฑ์ความไม่ชอบมาพากลตั้งไว้ที่ 5%

H0

วิธีการแก้ไขที่หลากหลายนั้นมีวัตถุประสงค์เพื่อช่วยให้คุณกลับไปสู่อัตราความผิดพลาดเล็กน้อยที่คุณได้เลือกไว้สำหรับการทดสอบแต่ละครั้ง พวกเขาทำในวิธีที่แตกต่างกันเล็กน้อย วิธีการที่ควบคุมอัตราข้อผิดพลาดที่เหมาะสำหรับครอบครัวอย่างBonferroni , SidakและHolmให้พูดว่า "คุณต้องการโอกาส 5% ในการทำข้อผิดพลาดในการทดสอบครั้งเดียวดังนั้นเราจึงมั่นใจได้ว่าคุณจะไม่เกิน 5 โอกาสที่จะทำผิดพลาดในทุกการทดสอบของคุณ วิธีการที่ควบคุมอัตราการค้นพบที่ผิดแทนที่จะพูดว่า "คุณเห็นได้ชัดว่าไม่ถูกต้องมากถึง 5% ของเวลาด้วยการทดสอบเดียวดังนั้นเราจะตรวจสอบให้แน่ใจว่าไม่เกิน 5% ของ 'การโทร' ของคุณผิดเมื่อทำการทดสอบหลายครั้ง" (ดูความแตกต่าง?)


ทีนี้สมมติว่าคุณพยายามควบคุมอัตราความผิดพลาดที่เหมาะสำหรับครอบครัวของการทดสอบสมมติฐานทั้งหมดที่เคยทำงาน คุณกำลังบอกว่าคุณต้องการโอกาส <5% ในการปฏิเสธสมมติฐานที่ไม่มีเหตุผลใด ๆ สิ่งนี้ตั้งค่าเกณฑ์ที่เข้มงวดและการอนุมานที่เป็นไปไม่ได้จะไร้ประโยชน์อย่างมีประสิทธิภาพ แต่มีปัญหาเร่งด่วนยิ่งขึ้น: การแก้ไขทั่วโลกของคุณหมายความว่าคุณกำลังทดสอบ "สมมุติฐานผสม" ที่ไร้สาระอย่างเช่น

H1:Drug XYZ changes T-cell count Grapes grow better in some fields Men and women eat different amounts of ice cream

ด้วยการแก้ไขอัตราการค้นพบที่ผิดพลาดปัญหาที่เป็นตัวเลขนั้นค่อนข้างไม่รุนแรงนัก แต่มันก็ยังเป็นระเบียบ ในทางกลับกันมันก็สมเหตุสมผลที่จะนิยาม "ตระกูล" ของการทดสอบที่เกี่ยวข้องเช่นรายการยีนของผู้สมัครในระหว่างการศึกษาฟังก์ชั่นจีโนมหรือชุดของถังขยะความถี่เวลาระหว่างการวิเคราะห์สเปกตรัม การปรับแต่งครอบครัวให้เข้ากับคำถามที่เฉพาะเจาะจงช่วยให้คุณสามารถตีความความผิดพลาด Type I ของคุณได้อย่างถูกต้อง ตัวอย่างเช่นคุณสามารถดูชุด p-values ​​ที่ถูกต้อง FWER จากข้อมูลจีโนมของคุณเองและพูดว่า "มีโอกาส <5% ที่ยีนเหล่านี้ใด ๆ ที่เป็นผลบวกปลอม" นี่เป็นสิ่งที่ดีกว่าการรับประกันแบบคลุมเครือที่ครอบคลุมการอนุมานที่ทำโดยคนที่คุณไม่สนใจในหัวข้อที่คุณไม่สนใจ

ด้านพลิกของเรื่องนี้คือเขาเลือกที่เหมาะสมของ "ครอบครัว" เป็นที่ถกเถียงกันและอัตนัยเล็กน้อย (เป็นยีนทั้งหมดครอบครัวหนึ่งหรือฉันสามารถพิจารณาไคเนส?) แต่มันควรได้รับแจ้งจากปัญหาของคุณและฉันไม่เชื่อว่าใคร ได้ให้การสนับสนุนอย่างจริงจังในการกำหนดครอบครัวอย่างกว้างขวาง


แล้วเบย์ล่ะ

การวิเคราะห์แบบเบย์นำเสนอทางเลือกที่สอดคล้องกันสำหรับปัญหานี้ - หากคุณยินดีที่จะย้ายออกไปเล็กน้อยจากกรอบข้อผิดพลาดของ Type I / Type II เราเริ่มต้นด้วยการไม่ผูกมัดก่อน ... ดี ... ทุกอย่าง ทุกครั้งที่เราเรียนรู้บางสิ่งข้อมูลนั้นจะถูกรวมเข้าด้วยกันก่อนหน้านี้เพื่อสร้างการกระจายหลังซึ่งจะกลายเป็นก่อนในครั้งต่อไปที่เราเรียนรู้บางสิ่งบางอย่าง สิ่งนี้จะให้กฎการอัพเดทที่ต่อเนื่องกันและคุณสามารถเปรียบเทียบสมมติฐานที่แตกต่างกันเกี่ยวกับสิ่งต่าง ๆ โดยการคำนวณปัจจัย Bayes ระหว่างสองสมมติฐาน คุณน่าจะสามารถแยกแยะโมเดลขนาดใหญ่ซึ่งอาจไม่ทำให้เรื่องนี้ยุ่งยากโดยเฉพาะ

มี ... perse ที่วิธีการแบบเบย์ไม่จำเป็นต้องมีการแก้ไขเปรียบเทียบหลายรายการ น่าเสียดายที่อัตราต่อรองหลังเป็นเพียงสถิติการทดสอบอีกรูปแบบหนึ่งสำหรับผู้ที่ใช้บ่อย พวกเขาไม่มีคุณสมบัติพิเศษใด ๆ ที่ควบคุมข้อผิดพลาดประเภทนี้ (ทำไมจะเป็นเช่นนั้น) ดังนั้นคุณกลับมาอยู่ในดินแดนที่ยากลำบาก แต่อาจอยู่บนพื้นดินที่มีหลักการมากกว่าเล็กน้อย

ข้อโต้แย้งแบบเบย์คือเราควรมุ่งเน้นไปที่สิ่งที่เราสามารถรู้ได้ในตอนนี้และด้วยเหตุนี้อัตราความผิดพลาดจึงไม่สำคัญ


เกี่ยวกับการทำสำเนา

คุณดูเหมือนจะเสนอว่าการเปรียบเทียบการแก้ไขหลายรายการไม่ถูกต้องเป็นเหตุผลที่ทำให้เกิดผลลัพธ์ที่ไม่ถูกต้อง / ไม่สามารถพิสูจน์ได้จำนวนมาก ความรู้สึกของฉันคือปัจจัยอื่น ๆ มีแนวโน้มที่จะเป็นปัญหา สิ่งที่ชัดเจนคือความกดดันในการเผยแพร่ทำให้คนหลีกเลี่ยงการทดลองที่เน้นสมมติฐานของพวกเขา (กล่าวคือการออกแบบการทดลองที่ไม่ดี)

p


ขอบคุณแมตต์ ฉันชอบความคิดของ "สถิติสุลต่าน" ถึงกระนั้นมันเป็นไปได้ที่จะควบคุมอัตราการค้นพบที่ผิดพลาดโดยไม่ใช้การแก้ไขดังกล่าวหรือไม่?
เคลวิน

9
จุดที่ผมพยายามจะทำคือว่ามันไม่ได้ทำให้รู้สึกถึงความกังวลเกี่ยวกับเท็จค้นพบ Rate (อัตราความผิดพลาดหรือ familywise) ข้ามความพยายามของมนุษย์ทุกคน การทำเช่นนั้นจะต้องใช้ความเสี่ยงที่คุณไม่เคยทำอะไร แต่คุณเก็บ FDR / FWER ไว้สำหรับการทดสอบแต่ละรายการค่อนข้างต่ำและพยายามทำซ้ำสิ่งที่สำคัญที่น่าสนใจ / มีประโยชน์ / ฯลฯ
Matt Krause

ขอบคุณฉันเดาในท้ายที่สุดมันทั้งหมดลงมาเพื่อจำลองสิ่งที่สำคัญ สอดคล้องกับปรัชญาวิทยาศาสตร์อย่างเต็มที่ซึ่งไม่มีข้อพิสูจน์ใด ๆ ที่พิสูจน์ได้มีความเข้มแข็งเมื่อเวลาผ่านไปโดยการทดลองซ้ำ ๆ
เคลวิน

3
+1 สำหรับสถิติสุลต่าน การพิจารณาที่สำคัญอย่างหนึ่ง: สุลต่านควรจัดการกับความจริงที่ว่าค่า p มาถึงอย่างต่อเนื่องได้อย่างไร Lousy p = 0.045 ที่มาถึงก่อนจะถือว่ามีความสำคัญ แต่หลังจากสองสามศตวรรษจะไม่มีโอกาส? ดูเหมือนจะไม่สมเหตุสมผล (cc ถึง @Kelvin) ข้อควรพิจารณาอีกประการ: ลองนึกภาพว่าสุลต่านต้องรอประมาณ 1 ปีและใช้การแก้ไขกับผลลัพธ์ทั้งหมดจากปีที่ผ่านมา ฉันสงสัยว่าในทางปฏิบัติจริง ๆ แล้วค่าเกณฑ์อัลฟาที่ปรับแล้ว มีความคิดเห็นอะไรเกี่ยวกับเรื่องนั้นแมท? นั่นคือ (ตู่!) สมมติว่าทุกคนเห็นด้วยกับอัลฟาทั่วไป
อะมีบาพูดว่า Reinstate Monica

2
@ amoeba นั่นเป็นคำถามที่น่าสนใจและฉันไม่แน่ใจว่าฉันรู้ Data Despot ที่รักของเราสามารถบังคับให้ทุกคนใช้การออกแบบเรียงลำดับบางอย่างซึ่งอาจช่วยได้ แต่เขายังคงทดสอบสมมติฐานเชิงผสมที่แปลกประหลาดนี้ อีกวิธีหนึ่งเราอาจกลายเป็นชาวเบย์และหยุดกังวลเกี่ยวกับบันทึกข้อผิดพลาด Type I / II ของเราส่วนใหญ่ นี่คือราคาถูกเล็กน้อย (ถ้าคุณไม่สามารถเอาชนะ 'em, ละเว้น' em!) แต่ฉันคิดว่ามันใกล้เคียงกับวิธีการที่คนปฏิบัติ
Matt Krause

7

ฉันคิดว่าคุณตั้งใจวาดมุมมองในแง่ร้ายของวิทยาศาสตร์ที่ผลิตโดยสถิติ อันที่จริงแล้วในความคิดของฉันสถิติไม่ได้เป็นเพียงเครื่องมือที่ให้ค่า p นอกจากนี้ยังมีสถานะของความเข้มงวดการดูแลและความตื่นตัวเกี่ยวกับผลกระทบที่เป็นไปได้บางอย่างที่เกี่ยวข้องในกระบวนการของการเหนี่ยวนำทางวิทยาศาสตร์ ... และในใจของฉันทุกสิ่งที่คุณพูดเป็นเรื่องจริงโดยประมาณนี่คือความคิดเห็นของฉัน เกี่ยวกับความรู้ที่เราผลิต:

  • โดยทั่วไปแล้วข้อสรุปไม่ควรเข้าถึงได้ภายใต้อาร์กิวเมนต์ของค่า ap ต่ำกว่าขีด จำกัด ที่กำหนด

  • ประการที่สองสำหรับข้อโต้แย้งความรู้ของฉันเกี่ยวกับ "ผลการวิจัยทางวิทยาศาสตร์ที่ตีพิมพ์เกินครึ่ง" นั้นมีความเกี่ยวข้องและน่าสนใจ แต่คำนวณจากค่า p โดยประมาณเท่ากับ 0.05 (ดูเช่นความสับสนเกี่ยวกับค่า p และอัตราการค้นพบที่ผิด ) . สำหรับค่า p ที่ต่ำกว่าเอฟเฟกต์จะต่ำกว่าค่าที่ประกาศไว้และในทางปฏิบัติมันไม่ยากที่จะได้รับค่า p ที่ต่ำกว่า 0.05 ยิ่งไปกว่านั้นหลายครั้งที่สมมติฐานที่กำหนดได้รับการยืนยันโดยสมมติฐานย่อยหลายข้อซึ่งช่วยลดผลกระทบที่ประกาศไว้อีกครั้ง

  • ประการที่สามคำถามของการทำซ้ำนั้นเป็นของแท้ แต่ก็เป็นปัญหาที่นักสถิติต้องจัดการด้วยการระบุและจัดการกับผลกระทบที่สับสนการออกแบบกลุ่ม ... และสิ่งนี้สามารถทำได้ดีมากหากทำได้ด้วยความเชี่ยวชาญและความเข้มงวด

  • ในที่สุดเมื่อฉันเข้าใจแล้วการศึกษาทางสถิติแบบดั้งเดิมจะต้องมากหรือน้อยใน 5 ขั้นตอนต่อไปนี้:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    แนวทางทั่วไปนี้ป้องกันเราจากการสำรวจการตกปลาเป็นเครื่องมือในการสร้างข้อสรุปทั่วไป

เพื่อสรุปฉันจะบอกว่าความตั้งใจของคุณที่จะปกป้องพวกเราจากข้อสรุปทางวิทยาศาสตร์ที่ไม่ดีโดยการใช้ค่า p-thresholding เกินจริงเป็นภาพลวงตาเล็กน้อย ฉันต้องการปกป้องเราจากข้อสรุปทางวิทยาศาสตร์ที่ไม่ดีโดยการสร้างความมั่นใจและให้กำลังใจการวิเคราะห์ที่ถูกเตือนและเหมาะสม (และฉันต้องการคิดว่านี่เป็นเหตุผลว่าทำไมบุคคลที่ผ่านการรับรองจำนวนมากมาอยู่ที่นี่เพื่อช่วยเหลือผู้อื่นในเว็บไซต์นี้)


2
ฉันไม่คิดว่ามันจะช่วยป้องกันได้ ปัญหาความไม่สามารถคืนสภาพทางวิทยาศาสตร์ในปัจจุบันไม่ได้เป็นเพียง "สิ่งที่น่าสนใจ" มันอยู่ที่จุดวิกฤติและอยู่บนหน้าปกของธรรมชาติและแม้แต่นักเศรษฐศาสตร์เพราะเชื่อว่าจะมีการศึกษาที่เฉพาะเจาะจง (หรือแม้แต่ประสิทธิภาพของยาที่ได้รับอนุมัติ ) ตอนนี้ไม่ดีไปกว่าการพลิกเหรียญแม้จะลงทุนไปแล้วหลายพันล้านดอลลาร์
เคลวิน

6
ฉันยอมรับว่าวิกฤติมีอยู่ จุดของฉันคือคุณสามารถตรวจสอบคุณภาพของเหรียญ ไม่ใช่กระดาษทุกใบที่มีคุณภาพเท่ากันและจากประสบการณ์ของฉันบางครั้งมันก็ง่ายที่จะชี้จุดบกพร่อง ผมไม่ปฏิเสธปัญหาที่ผมปฏิเสธการแก้ปัญหา: เพียงแค่ผลิตวิเคราะห์ที่เหมาะสม :)
peuhp

ตกลงขอบคุณฉันเคารพคำตอบของคุณ แต่ยังคงจากมุมมองทางสถิติและไม่ว่าคุณภาพของการทดลองเราจะไม่สามารถควบคุมอัตราการค้นพบที่ผิดพลาดโดยรวมโดยไม่ต้องใช้การแก้ไขเช่นนี้ได้ไหม
เคลวิน

0

เป็นไปได้หรือไม่ที่จะควบคุมอัตราการค้นพบที่ผิดพลาดโดยไม่ใช้การแก้ไขเช่นนี้?

ใช่. นี่คือสิ่งที่เกณฑ์สำหรับค่า p ทำหน้าที่กำหนดอัตราการค้นพบที่ผิดพลาดให้เป็นไปตามเกณฑ์ที่กำหนด ในระยะยาวการทดสอบทั้งหมดจะใช้สมมติฐานว่างเป็นจริงเพียงเท่านั้น100aa

โปรดจำไว้ว่าอัตราความผิดพลาด (บ่อยครั้ง) ไม่เกี่ยวข้องกับความน่าจะเป็นใด ๆ เกี่ยวกับสมมติฐานที่ทดสอบโดยการทดสอบส่วนบุคคลใด ๆ แต่เป็นวิธีการดำเนินการทดสอบที่รับประกันอัตราความล้มเหลวในระยะยาว การแก้ไขสำหรับการเปรียบเทียบหลายรายการเป็นวิธีการอีกวิธีหนึ่งในการรับประกันอัตราความล้มเหลวในระยะยาว: วิธีหนึ่งสำหรับการสร้างวิธีการผสมซึ่งมีการทดสอบหลายรายการ

หากคุณทำการทดสอบเพียงครั้งเดียวด้วยการทดสอบ 100 ครั้งและรายงานว่า 5 ในการทดสอบพูดกับโมฆะดังนั้นจึงอ้างว่าคุณได้สังเกตผลลัพธ์ที่แท้จริงแล้วไม่มีใครจะประทับใจโดยรู้ว่าโดยเฉลี่ยแล้วในการทดสอบ 100 ครั้งที่เป็นโมฆะจริง ปฏิเสธ; วิธีที่คุณใช้ "ทำการทดสอบ 100 ครั้งและรายงานว่าสิ่งใดที่ตรงกับเกณฑ์ 5%" มีอัตราความล้มเหลวสูงกว่า 5% ดังนั้นคุณอาจเลือกที่จะควบคุมการเปรียบเทียบหลาย ๆ แบบและรายงานว่าเช่นการทดสอบ 2 ครั้งจาก 100 การทดสอบมีค่า p ต่ำกว่า (5/100 == 0.05)% ตอนนี้คุณใช้วิธีที่มีอัตราความล้มเหลวที่รับประกันอีกครั้ง (สำหรับข้อผิดพลาดของการรายงานอย่างน้อยหนึ่งการทดสอบที่สำคัญแม้ว่าจะไม่มีสมมติฐานใดเป็นเท็จ) 5%

aขีด จำกัด ที่ไม่ถูกแก้ไข) ในทางตรงกันข้ามหากทุกคนทำการทดสอบสมมติฐานจริง 100 ข้อต่อการศึกษาหนึ่งครั้งและไม่ได้ใช้ FEW จำนวนการทดลองที่รายงานผลกระทบที่สำคัญจะเกินอัตราข้อผิดพลาดที่รับประกันได้ถึง 5% (ตรงกันข้ามกับ FDR / อัตราการตรวจจับเท็จซึ่งไม่ใช่วิธีการที่รับประกันอัตราการรายงานการทดสอบที่สำคัญใด ๆ ในการศึกษาการทดสอบหลาย ๆ แบบของสมมติฐานที่แท้จริง)


6
สิ่งที่คุณเรียกว่า "อัตราการค้นพบที่ผิด" ในย่อหน้าแรกของคุณไม่ใช่สิ่งที่เรียกว่า "อัตราการค้นพบที่ผิด"
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.