Sidak หรือ Bonferroni


13

ฉันใช้โมเดลเชิงเส้นทั่วไปใน SPSS เพื่อดูความแตกต่างของจำนวนตัวหนอนเฉลี่ย (ไม่ใช่แบบปกติโดยใช้การกระจายแบบทวีด) ในพืช 16 ชนิดที่แตกต่างกัน

ฉันต้องการเรียกใช้การเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าควรใช้การทดสอบการแก้ไข Sidak หรือ Bonferroni ความแตกต่างระหว่างการทดสอบทั้งสองคืออะไร? ดีกว่าอีกไหม?


1
ฉันเกลียดความจริงที่ว่าการแก้ไขดังกล่าวมีความจำเป็นบ่อยครั้งด้วยการทดสอบสมมติฐานบ่อยๆและฉันชอบเทคนิคแบบเบย์มาก ที่กล่าวว่าฉันเกลียดการแก้ไข Sidak น้อยเพราะดูเหมือนโฆษณาน้อย (ถ้าคุณยินดีที่จะยอมรับสมมติฐานของความเป็นอิสระ) นี่เป็นเพียงการตั้งค่าส่วนตัว แต่ฉันก็เลยทำให้มันเป็นความคิดเห็นแทนคำตอบ
Michael McGowan

1
@MichaelMcGowan: แค่อยากรู้อยากเห็น แต่คุณคิดว่า " ad hoc " เกี่ยวกับการแก้ไข Bonferroni คืออะไร?
พระคาร์ดินัล

@cardinal ขออภัยนั่นอาจไม่ใช่คำที่ดีที่สุด ด้วยค่าใช้จ่ายที่จำเป็นต้องมีข้อสมมติฐานที่แข็งแกร่ง (ฉันไม่ต้องการที่จะทำให้ต้นทุนนั้นแย่ลง) การแก้ไข Sidak สร้างขอบเขตที่มีความหมายเชิงคุณภาพมากขึ้น ฉันไม่สามารถอธิบายเชิงคุณภาพได้ว่าอะไรคือขอบเขตที่แสดงถึงการแก้ไข Bonferroni นอกเหนือจากกรณีที่เลวร้ายที่สุดที่ถูกผูกไว้ตามความไม่เท่าเทียมของ Boole
Michael McGowan

@MichaelMcGowan: อ่าโอเค ฉันเห็น. ฉันคิดว่ามีสองสามสิ่งเชิงคุณภาพที่สามารถพูดเกี่ยวกับ Bonferroni: (a) มันให้การป้องกันการรับประกันอัตราความผิดพลาดในครอบครัวโดยไม่คำนึงถึงการพึ่งพาระหว่างสถิติการทดสอบบุคคลภายใต้โมฆะและ (b) มันเป็นการแก้ไขที่ถูกต้อง ที่จะทำให้เมื่อภูมิภาคการปฏิเสธของการทดสอบสมมติฐานของแต่ละบุคคลจะแยกออกจากกันเป็นสองเท่า
พระคาร์ดินัล

1
การทดสอบสองรายการไม่เป็นอิสระหากความน่าจะเป็นของข้อผิดพลาดประเภทที่ 1 สำหรับการทดสอบหนึ่งนั้นมีความสัมพันธ์กับการทดสอบอื่น ๆ ตัวอย่างเช่นสมมติว่าคุณรันการทดสอบด้วยเงื่อนไขการควบคุมหนึ่งเงื่อนไขและสองเงื่อนไขการทดสอบ การทดสอบสองแบบที่เปรียบเทียบสภาพการทดสอบแต่ละแบบกับสภาพการควบคุมไม่เป็นอิสระ คุณสามารถเห็นสิ่งนี้ได้โดยการพิจารณาว่าจะเกิดอะไรขึ้นถ้าคุณได้รับความคุ้มค่าสูงสุดสำหรับเงื่อนไขการควบคุม นี่จะทำให้การทดสอบทั้งสองแบบมีแนวโน้มที่จะมีนัยสำคัญทางสถิติ

คำตอบ:


20

หากคุณรันการทดสอบทางสถิติอิสระโดยใช้เป็นระดับความสำคัญของคุณและ null จะได้รับในทุกกรณีไม่ว่าคุณจะพบว่า 'ความสำคัญ' นั้นเป็นเพียงการสุ่มจากตัวแปรสุ่ม โดยเฉพาะมันจะนำมาจากการกระจายทวินามกับและ k ตัวอย่างเช่นหากคุณวางแผนที่จะรันการทดสอบ 3 ครั้งโดยใช้และ (ที่คุณไม่ทราบ) จริง ๆ แล้วก็ไม่แตกต่างกันในแต่ละกรณีมีโอกาส 5% ในการค้นหาผลลัพธ์ที่สำคัญในการทดสอบแต่ละครั้ง ด้วยวิธีนี้อัตราความผิดพลาดประเภทที่ 1 จะถูกเก็บไว้ที่α P = α n = k α = 0.05 α α α α o α n E Wkαp=αn=kα=.05αสำหรับการทดสอบแยกกัน แต่ในชุดทดสอบ 3 ชุดอัตราความผิดพลาดประเภทที่ 1 ในระยะยาวจะสูงขึ้น หากคุณเชื่อว่ามีความหมายในการจัดกลุ่ม / คิดว่าการทดสอบทั้งสามนี้ร่วมกันคุณอาจต้องการเก็บอัตราความผิดพลาดประเภท I ที่สำหรับชุดโดยรวมแทนที่จะเป็นรายบุคคล คุณจะไปเกี่ยวกับเรื่องนี้ได้อย่างไร มีวิธีการสองวิธีที่เปลี่ยนจาก (เช่น ) เป็นค่าใหม่ (เช่น ) :αααoαnew

Bonferroni:ปรับใช้ประเมิน 'นัยสำคัญ' เช่นนั้นα

αnew=αok

Dunn-Sidak:ปรับโดยใช้α

αnew=1(1αo)1/k

(โปรดทราบว่า Dunn-Sidak ถือว่าการทดสอบทั้งหมดภายในชุดมีความเป็นอิสระจากกันและสามารถให้ผลตามประเภทข้อผิดพลาดในครอบครัวที่อัตราเงินเฟ้อผิดพลาดหากข้อสันนิษฐานนั้นไม่มี)

มันเป็นสิ่งสำคัญที่จะต้องทราบว่าเมื่อการดำเนินการทดสอบมีสองชนิดของข้อผิดพลาดที่คุณต้องการที่จะหลีกเลี่ยง Type I (เช่นบอกว่าเป็นความแตกต่างเมื่อมีไม่ได้เป็นหนึ่ง) และพิมพ์ครั้งที่สอง (เช่นบอกว่าไม่ความแตกต่างเมื่อมีจริง) โดยทั่วไปเมื่อผู้คนอภิปรายหัวข้อนี้พวกเขาจะพูดคุยกันเท่านั้น - และดูเหมือนจะรับรู้ / เกี่ยวข้องกับ - ข้อผิดพลาดประเภทที่ 1 เท่านั้น นอกจากนี้ผู้คนมักจะละเลยที่จะพูดถึงว่าอัตราความผิดพลาดที่คำนวณได้จะเกิดขึ้นต่อเมื่อค่า Null ทั้งหมดเป็นจริงเท่านั้น เป็นที่แน่ชัดว่าคุณไม่สามารถทำผิดพลาดแบบที่ 1 ได้หากสมมติฐานว่างเป็นเท็จ แต่เป็นสิ่งสำคัญที่ต้องถือความจริงนั้นไว้ในใจเมื่อพูดถึงปัญหานี้

ฉันนำเรื่องนี้ขึ้นมาเพราะมีความหมายของข้อเท็จจริงเหล่านี้ที่ดูเหมือนจะไม่ได้รับการพิจารณา ก่อนอื่นถ้าวิธีการของ Dunn-Sidak จะให้พลังงานที่สูงกว่า (แม้ว่าความแตกต่างอาจมีขนาดเล็กมากที่มีเล็ก) ดังนั้นจึงควรเป็นที่ต้องการมากกว่า (เมื่อใช้ได้) ประการที่สองควรใช้วิธีการ'ลดระดับ' นั่นคือทดสอบผลกระทบที่ใหญ่ที่สุดก่อน หากคุณมั่นใจว่า null ไม่ได้รับในกรณีนั้นจำนวนข้อผิดพลาด type I ที่เป็นไปได้สูงสุดคือดังนั้นการทดสอบครั้งต่อไปควรปรับตามลำดับและอื่น ๆ (นี่มักจะทำให้คนไม่สบายใจและดูเหมือนว่าตกปลา แต่มันไม่ใช่k k - 1 αk>1kk1การตกปลาเนื่องจากการทดสอบนั้นมีความเป็นอิสระและคุณตั้งใจจะทำการทดสอบก่อนที่จะเห็นข้อมูล นี่เป็นเพียงวิธีการปรับเหมาะสมที่สุด) α

ข้อมูลข้างต้นไม่ว่าคุณจะให้คุณค่ากับประเภทที่ 1 ของคุณอย่างไรเมื่อเทียบกับข้อผิดพลาดประเภท II อย่างไรก็ตามa-prioriไม่มีเหตุผลที่จะเชื่อว่าข้อผิดพลาดประเภทที่ 1 นั้นแย่กว่ารุ่น II แต่นี่เป็นการตัดสินใจที่ผู้วิจัยต้องทำและต้องเจาะจงเฉพาะกับสถานการณ์นั้น ส่วนตัวถ้าผมกำลังทำงานในทางทฤษฎี-แนะนำแบบนิรนัยแตกมุมฉากผมมักจะไม่ปรับ\α

(และการที่รัฐนี้อีกครั้งเพราะมันเป็นสิ่งที่สำคัญทั้งหมดข้างต้นสันนิษฐานว่าการทดสอบมีความเป็นอิสระ. หากความแตกต่างจะไม่เป็นอิสระเช่นเมื่อรักษาหลายแต่ละถูกเมื่อเทียบกับการควบคุมเดียวกันแนวทางที่แตกต่างกว่าปรับ เช่นควรใช้การทดสอบของ Dunnett) α


+1 สิ่งที่คุณเรียกว่า "ขั้นตอนลง" สำหรับ Bonferroni นั้นเทียบเท่ากับวิธีการที่เรียกว่า Holm-Bonferroni หรือไม่? ถ้าใช่จะใช้ตรรกะเดียวกันกับ Dunn-Sidak หรือไม่?
อะมีบาพูดว่า Reinstate Monica

1
@ amoeba, ใช่บางครั้งเรียกว่า "วิธีการของโฮล์ม" ดังนั้น Holm-Bonferroni หรือ Holm-Sidak
gung - Reinstate Monica

ขอบคุณ อีกคำถามหนึ่งที่ฉันได้เป็นเกี่ยวกับคำชี้แจงของคุณว่าถ้าคุณกำลังทำงานในทางทฤษฎี-แนะนำเบื้องต้น, ความแตกต่างมุมฉากคุณมักจะไม่ปรับ\"orthogonal" มีความสำคัญแค่ไหนในที่นี่? เช่นถ้าคุณมีกลุ่มเป้าหมาย 6 กลุ่มและเปรียบเทียบกลุ่ม 2, 3, 4, 5 และ 6 กับกลุ่ม 1 (โดยที่กลุ่ม 1 อาจเป็นกลุ่มควบคุม) กลุ่มเหล่านี้คือความแตกต่างแบบมุมฉาก คุณจะรู้สึกแตกต่างเกี่ยวกับการปรับในกรณีนี้มากกว่าเมื่อความแตกต่างของคุณเป็นมุมฉากจริง ๆ เช่น 1-2, 3-4, 5-6 หรือไม่? ถ้าเป็นเช่นนั้นทำไม อัลฟ่าαα
อะมีบาพูดว่า Reinstate Monica

@amoeba ที่ใช้ 3 a-Priori, ความแตกต่างของมุมฉากในการศึกษา 1 ครั้งนั้นไม่แตกต่างไปจากการใช้ 1 a-Priori ในแต่ละการศึกษา 3 แบบ เนื่องจากไม่มีใครโต้แย้งว่าคุณต้องการการแก้ไขตามลำดับสำหรับครอบครัวในภายหลังจึงไม่มีเหตุผลที่สอดคล้องกันในการเรียกร้องพวกเขาสำหรับอดีต ในตัวอย่างอื่น ๆ ของคุณหากกลุ่มควบคุมควรกระเด้งลงโดยบังเอิญเพียงลำพัง 5 ความแตกต่างของคุณทุกอย่างจะดูดี แต่นั่นก็ไม่น่าจะเกิดขึ้นถ้าคุณทำการค้นคว้าอิสระ 5 ครั้ง จริงๆคุณควรใช้รูปแบบของการปรับบางส่วนหรือคุณอาจจะใช้การทดสอบ Dunnett ของ
gung - Reinstate Monica

ฉันไม่คิดว่าฉันเข้าใจอย่างถ่องแท้ ฉันวิ่งจำลองอย่างรวดเร็วด้วย ค่าในแต่ละกลุ่มที่มีและ\ฉันได้รับ 0.14 โอกาสของการบวกผิดพลาดอย่างน้อยหนึ่งครั้งสำหรับความแตกต่างของมุมฉากสามแบบและ 0.12 โอกาสสำหรับความแตกต่างที่ไม่ใช่ฉากสามมุมฉากดังที่ได้กล่าวมาแล้ว นั่นใกล้มาก ความแตกต่างนั้นใหญ่กว่ามากสำหรับโอกาสที่จะได้รับผลบวกปลอมทั้งสาม: 0.0001 และ 0.002 ดังนั้นฉันเข้าใจว่าการได้รับผลลัพธ์ที่สำคัญหลายรายการมีแนวโน้มมากขึ้นที่จะไม่ใช้ออร์โธดอกซ์ ความแตกต่าง แต่ถ้ามีใครเกี่ยวข้องกับอัตราความผิดพลาดในครอบครัวแล้วทั้งสองกรณีก็ดูเหมือนจะเกือบจะเหมือนกัน n = 10 α = 0.05N(0,1)n=10α=0.05
อะมีบาพูดว่า Reinstate Monica

6

แสดงว่ามีระดับความสำคัญการแก้ไขแล้ว Bonferroni ทำงานเช่นนี้แบ่งระดับความสำคัญโดยจำนวนของการทดสอบคือ n Sidak ทำงานเช่นนี้ (หากการทดสอบมีความเป็นอิสระ): n} α n α = α / n α = 1 - ( 1 - α ) 1 / nααnα=α/nα=1(1α)1/n

เนื่องจากการแก้ไข Sidak มีประสิทธิภาพมากกว่าเล็กน้อย (นั่นคือคุณจะได้ผลลัพธ์ที่สำคัญได้ง่ายขึ้น) แต่ Bonferroni นั้นจัดการได้ง่ายกว่าเล็กน้อยα/n<1(1α)1/n

หากคุณต้องการขั้นตอนที่มีประสิทธิภาพยิ่งขึ้นคุณอาจต้องการใช้ขั้นตอน Bonferroni-Holm


ทำไม Bonferroni ถึงจัดการได้ง่ายกว่า?
Emily

3
ฉันพบว่าการหารโดยพีชคณิตง่ายกว่าการคำนวณแต่ฉันขี้เกียจ นอกจากนี้ Bonferroni ก็ไม่ถือว่าการทำแบบนี้ดังนั้นมันจึงง่ายกว่าในแง่ของการสมมติน้อย แต่คุณจ่ายราคาของมันมันเป็นอนุรักษ์นิยมมากขึ้น n 1 - ( 1 - α ) 1 / nαn1(1α)1/n
Momo

@Momo Computers นั้นดีมากในด้านเลขคณิตดังนั้นฉันจึงไม่พบข้อโต้แย้งความเรียบง่ายที่น่าสนใจอย่างมาก เมื่อร้อยปีก่อนเมื่อการคำนวณด้วยมือเป็นเรื่องที่แตกต่างอย่างมาก
Michael McGowan

+1 เมื่อเทียบกับคำตอบของฉันสิ่งนี้มาถึงจุดที่ค่อนข้างชัดเจน ;-)
gung - Reinstate Monica

ฮ่าฮ่านั่นคือสิ่งที่ฉันคิดว่าคุณหมายถึง! ขอบคุณมาก!
Emily

5

การแก้ไข Sidak ถือว่าการทดสอบแต่ละรายการมีความเป็นอิสระทางสถิติ การแก้ไข Bonferroni ไม่ได้ถือว่าสิ่งนี้


นั่นหมายความว่า Bonferroni เป็นเพียงการทดสอบแบบอนุรักษ์นิยมมากกว่าหรือไม่?
Emily

1
Bonferroni เป็นอนุรักษ์นิยมมากขึ้นเมื่อการทดสอบทั้งสองมีความเหมาะสม แต่ถ้าการทดสอบของคุณไม่เป็นอิสระคุณไม่ควรใช้ Sidak
onestop

2
+1 ว่าการแก้ไข Bonferroni ไม่ต้องการการทดสอบที่เป็นอิสระเป็นจุดที่ดีที่ฉันไม่ครอบคลุม
gung - Reinstate Monica

@onestop: การทดสอบอิสระนั้นหมายความว่าอะไร คุณอาจยกตัวอย่างหรือไม่?
Gunnhild

1
การแก้ไข Sidak ไม่ต้องการความเป็นอิสระ เพียง แต่ถือว่าการทดสอบนั้นไม่ได้ขึ้นอยู่กับการปฏิเสธ การพึ่งพาในเชิงบวกเป็นเรื่องปกติ
Bonferroni

4

Sidak และ Bonferroni นั้นคล้ายกันมากจนคุณอาจได้รับผลลัพธ์เดียวกันโดยไม่คำนึงถึงขั้นตอนที่คุณใช้ Bonferroni นั้นมีความอนุรักษ์นิยมมากกว่า Sidak เพียงเล็กน้อยเท่านั้น ตัวอย่างเช่นสำหรับการเปรียบเทียบ 2 รายการและอัลฟา Familywise ที่. 05 Sidak จะทำการทดสอบแต่ละครั้งที่. 0253 และ Bonferroni จะทำการทดสอบแต่ละครั้งที่. 0250

ผู้แสดงความคิดเห็นหลายคนในเว็บไซต์นี้บอกว่า Sidak จะใช้ได้เฉพาะเมื่อสถิติทดสอบของการเปรียบเทียบของคุณเป็นอิสระ ที่ไม่เป็นความจริง. Sidak อนุญาตอัตราเงินเฟ้อของอัตราความผิดพลาดตามลำดับเล็กน้อยเมื่อสถิติการทดสอบนั้นขึ้นอยู่กับแบบไม่จำเป็น แต่ถ้าคุณทำการทดสอบสองด้านการพึ่งพาเชิงลบนั้นไม่ได้เป็นปัญหา ภายใต้การพึ่งพาไม่ใช่เชิงลบ Sidak ทำในความเป็นจริงให้ขอบเขตบนอัตราข้อผิดพลาดตามครอบครัว ที่กล่าวว่ามีขั้นตอนอื่น ๆ ที่ให้ขอบเขตดังกล่าวและมีแนวโน้มที่จะรักษาอำนาจทางสถิติมากกว่า Sidak ดังนั้น Sidak อาจไม่ใช่ตัวเลือกที่ดีที่สุด

สิ่งหนึ่งที่กระบวนการ Bonferroni จัดเตรียมไว้ (ที่ Sidak ไม่ทำ) คือการควบคุมจำนวนข้อผิดพลาด Type I ที่คาดไว้อย่างเข้มงวดซึ่งเรียกว่า "อัตราข้อผิดพลาดต่อครอบครัว" ซึ่งค่อนข้างอนุรักษ์นิยมมากกว่าอัตราข้อผิดพลาดแบบแฟมิลี่ สำหรับข้อมูลเพิ่มเติมโปรดดู: Frane, AV (2015) "อัตราความผิดพลาดแบบครอบครัวต่อประเภทของฉันเกี่ยวข้องกับสังคมและพฤติกรรมศาสตร์หรือไม่" วารสารวิธีการทางสถิติประยุกต์ที่ทันสมัย ​​14 (1), 12-23

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.