ทำไมการทดสอบสมมติฐานบ่อย ๆ จึงลำเอียงในการปฏิเสธสมมติฐานว่างด้วยตัวอย่างที่มีขนาดใหญ่เพียงพอ?


46

ฉันแค่อ่านบทความนี้เกี่ยวกับปัจจัย Bayes สำหรับปัญหาที่ไม่เกี่ยวข้องอย่างสมบูรณ์เมื่อฉันสะดุดกับข้อนี้

การทดสอบสมมติฐานด้วย Bayes factor นั้นแข็งแกร่งกว่าการทดสอบสมมติฐานบ่อยๆเนื่องจากรูปแบบ Bayesian หลีกเลี่ยงอคติการเลือกรูปแบบประเมินหลักฐานที่สนับสนุนสมมติฐานว่างรวมถึงความไม่แน่นอนของแบบจำลองและช่วยให้แบบจำลองที่ไม่ซ้อนกันต้องถูกเปรียบเทียบ มีตัวแปรตามเหมือนกัน) นอกจากนี้การทดสอบที่มีนัยสำคัญบ่อยครั้งกลายเป็นความลำเอียงในการปฏิเสธสมมติฐานว่างด้วยขนาดตัวอย่างที่มีขนาดใหญ่เพียงพอ [เน้นเพิ่ม]

ผมเคยเห็นการเรียกร้องนี้มาก่อนในคาร์ล Friston 2012 กระดาษใน NeuroImageที่เขาเรียกมันว่าการเข้าใจผิดของการอนุมานคลาสสิก

ฉันมีปัญหาเล็กน้อยในการค้นหาบัญชีการสอนอย่างแท้จริงว่าทำไมเรื่องนี้จึงควรเป็นจริง โดยเฉพาะฉันสงสัยว่า:

  1. ทำไมสิ่งนี้เกิดขึ้น
  2. วิธีการป้องกันมัน
  3. ความล้มเหลวนั้นวิธีการตรวจสอบ

7
มันค่อนข้างเป็นที่ถกเถียงกันเพราะมันไม่จริงเมื่อโมฆะนั้นแท้จริงจริง ๆ แต่เนื่องจากเป็นกรณีที่ไม่ค่อย (เนื่องจากความซับซ้อนทุกประเภทเช่นความสัมพันธ์ปลอม) มันอาจเป็นจริงของการใช้งานจริงมากที่สุด การพูดโดยสมมุติฐานเราสามารถตรวจพบจุดอ่อนของความสัมพันธ์แบบลวงตา (เช่นr = .001) เนื่องจากกลุ่มผู้ไกล่เกลี่ยหลายร้อยตัวแปรมีความยาวแม้จะมีผู้ดูแลที่ไม่มีการควบคุมจำนวนเท่ากันหากตัวอย่างมีขนาดมหึมาพอ เนื้อหาความสัมพันธ์ที่มีอยู่จริงแม้ว่าดังนั้นไม่ว่าจะเป็นจริง "อคติ" ยังคงเป็นที่ถกเถียงกันค่อนข้าง IMO ...
นิค Stauner

@NickStauner, อ่าจริง ๆ แล้วสมเหตุสมผลมาก ! ขอบคุณสำหรับคำอธิบายที่ใช้งานง่าย!
blz

3
Tal Yarkoni เขียนบทวิจารณ์ที่น่าสนใจมากจากบทความของ Friston: talyarkoni.org/blog/2012/04/25/…
jona

@ โจน่าดูเหมือนว่าฉันกำลังวิ่งเข้าไปในฝูงชน cogsci ทั้งหมดที่นี่ =) ขอบคุณสำหรับการอ้างอิงนี้ดูเหมือนจริง ๆ อ่านดี!
blz

8
จากสมมติฐานที่กล่าวไว้ข้อความนั้นดูเหมือนจะเป็นเท็จอย่างเคร่งครัด แต่เป็นประเด็นที่แท้จริง (ด้วยตัวอย่างที่มีขนาดใหญ่พอ NHST จะกลายเป็นเกือบแน่นอนที่จะปฏิเสธโมฆะเท็จไม่ว่าจะมีผลกระทบเพียงเล็กน้อย) . เมื่อผู้คนพบว่ามีปัญหามักจะระบุว่าการทดสอบสมมติฐานไม่ใช่สิ่งที่พวกเขาต้องการ ปัญหาพื้นฐานที่เหมือนกัน (แม้ว่ากรอบในแง่ของ CIs มากกว่าการทดสอบสมมติฐาน) จะกล่าวถึงในคำตอบนี้
Glen_b

คำตอบ:


44

คำตอบของคำถามที่ 1:นี้เกิดขึ้นเนื่องจาก -value กลายเป็นพลขนาดเล็กเพิ่มขึ้นขนาดของกลุ่มตัวอย่างในการทดสอบ frequentist สำหรับความแตกต่าง (เช่นการทดสอบกับสมมติฐานของไม่แตกต่างกัน / รูปแบบบางส่วนของความเสมอภาค) เมื่อมีความแตกต่างที่แท้จริงว่าเท่ากับศูนย์ , เมื่อเทียบกับศูนย์โดยพลการใกล้เคียงกับศูนย์ไม่เป็นจริง (ดูความเห็นของ Nick Stauner ต่อ OP) -value กลายเป็นขนาดเล็กโดยพลการเพราะข้อผิดพลาดของสถิติทดสอบ frequentist โดยทั่วไปลดลงด้วยขนาดของกลุ่มตัวอย่างที่มีผลที่สุดที่แตกต่างอย่างมีนัยสำคัญให้อยู่ในระดับที่กำหนดเองที่มีขนาดของกลุ่มตัวอย่างขนาดใหญ่พอ Cosma Shalizi เขียนเกี่ยวกับเรื่องนี้อย่างสุภาพpp

คำตอบสำหรับคำถามที่ 2:ภายในกรอบการทดสอบสมมติฐาน frequentist หนึ่งสามารถป้องกันการนี้โดยไม่ได้ทำให้อนุมาน แต่เพียงผู้เดียวเกี่ยวกับการตรวจสอบความแตกต่าง ตัวอย่างเช่นหนึ่งสามารถรวมการหาข้อสรุปเกี่ยวกับความแตกต่างและความเท่าเทียมกันเพื่อที่หนึ่งไม่ได้รับการยินยอม (หรือมหันต์!) ภาระการพิสูจน์ในหลักฐานของผลกระทบกับหลักฐานของการขาดของผลกระทบ หลักฐานการขาดผลกระทบมาจากตัวอย่างเช่น:

  1. การทดสอบด้านเดียวสองรายการเพื่อความเท่าเทียมกัน (TOST)
  2. การทดสอบที่ทรงพลังที่สุดสม่ำเสมอเพื่อความเท่าเทียมกันและ
  3. ช่วงความเชื่อมั่นเข้าใกล้ความเท่าเทียม (เช่นถ้า12αα

สิ่งที่วิธีการเหล่านี้ใช้ร่วมกันทั้งหมดเป็นการตัดสินใจเบื้องต้น เกี่ยวกับขนาดของเอฟเฟกต์ที่สร้างความแตกต่างที่เกี่ยวข้องและสมมติฐานว่างในกรอบของความแตกต่างอย่างน้อยใหญ่เท่ากับสิ่งที่ถือว่ามีความเกี่ยวข้อง

0+0

ความเป็นไปได้สี่ประการจากการทดสอบแบบรวมเพื่อความแตกต่างและการทดสอบเพื่อความเท่าเทียม

สังเกตุมุมบนซ้าย: การทดสอบแบบเอาชนะเป็นสิ่งที่ใช่คุณปฏิเสธสมมติฐานว่างไม่แตกต่างกัน แต่คุณยังปฏิเสธสมมติฐานว่างเปล่าของความแตกต่างที่เกี่ยวข้องดังนั้นใช่มีความแตกต่าง แต่คุณมีการตัดสินใจก่อนว่าคุณไม่สนใจ มันเพราะมันเล็กเกินไป

ตอบคำถาม 3:ดูคำตอบที่ 2


2
คำตอบเช่นนี้คือสาเหตุที่ฉันมาที่นี่ต่อ ขอขอบคุณ!
blz

2
1αα2α

เพื่อเสริมคำตอบสำหรับคำถามที่ 1 โพสต์บล็อกที่เกี่ยวข้องจาก Cosma Shalizi

2
ฉันแปลกใจนิดหน่อยที่ทุกคนพบว่าคำถามนี้มีประโยชน์มากแม้ว่าคำตอบสำหรับคำถามที่ 1 จะเป็นคำตอบที่เหมาะสมกว่าโดย Michael Lew - Alexis เนื่องจากดูเหมือนชัดเจนว่าการเข้าพักอาจเป็นไปได้บางทีคุณอาจแก้ไขคำตอบของคุณได้ ที่จะบอกว่าการพูดทางคณิตศาสตร์การทดสอบสมมติฐานนั้นจริง ๆ แล้วไม่ใช่ BIASED ด้วยขนาดตัวอย่างขนาดใหญ่ตามที่นิยามโดยทั่วไปของอคติ (ในทางกลับกันขนาดของตัวอย่างขนาดเล็กอาจเป็นปัญหาได้)!
Florian Hartig

3
ฉันเข้าใจปัญหาและฉันเห็นด้วยกับการประเมิน - มันผิดปกติหรือทำให้เข้าใจผิดที่จะทำการทดสอบสมมติฐานเมื่อ! H0 มีแนวโน้มเป็นอนันต์ในตอนแรกและคุณมีอำนาจใกล้กับ 1 แต่นั่นไม่ได้ทำให้การทดสอบลำเอียง เว้นแต่ว่านิยามอคติของคุณคือวิธีการที่ให้ผลลัพธ์ที่ถูกต้องสำหรับคำถามที่คุณคิดว่าไม่ควรถาม
Florian Hartig

21

การทดสอบเป็นประจำกับกลุ่มตัวอย่างจำนวนมากไม่แสดงอคติต่อการปฏิเสธสมมติฐานว่างถ้าสมมติฐานว่างเป็นจริง หากสมมติฐานของการทดสอบนั้นถูกต้องและสมมติฐานว่างนั้นเป็นจริงดังนั้นไม่มีความเสี่ยงของกลุ่มตัวอย่างขนาดใหญ่ที่นำไปสู่การปฏิเสธสมมติฐานว่างมากกว่าตัวอย่างขนาดเล็ก หากโมฆะไม่เป็นความจริงเราก็ยินดีที่จะปฏิเสธมันดังนั้นความจริงที่ว่ากลุ่มตัวอย่างขนาดใหญ่มักจะปฏิเสธโมฆะเท็จบ่อยกว่าตัวอย่างเล็ก ๆ ไม่ใช่ 'อคติ' แต่พฤติกรรมที่เหมาะสม

ความกลัวของ 'การทดลองที่เกินกำลัง' นั้นขึ้นอยู่กับการสันนิษฐานว่ามันไม่ใช่เรื่องดีที่จะปฏิเสธสมมติฐานว่างเมื่อมันเกือบเป็นจริง แต่ถ้ามันเกือบจะเป็นจริงแล้วมันผิดจริง! ปฏิเสธออกไป แต่อย่าล้มเหลวในการสังเกตขนาดและผลของการสังเกต อาจมีขนาดเล็กมากและไม่คุ้มค่าในการพิจารณาอย่างจริงจัง แต่การตัดสินใจในเรื่องนั้นจะต้องทำหลังจากพิจารณาข้อมูลจากภายนอกการทดสอบสมมติฐาน


2
00+really frickin' tiny

6
@Alexis อ่านย่อหน้าที่สองอีกครั้ง ฉันเห็นด้วยอย่างยิ่งว่าสิ่งเล็ก ๆ น้อย ๆ ที่ frickin ไม่สำคัญอย่างมีนัยสำคัญ แต่ก็ยังไม่เป็นศูนย์เหตุผล
Michael Lew

6
ขออภัยสำหรับความคิดเห็นที่ไม่มีประโยชน์ต่อสาธารณะ แต่ @MichaelLew ฉันชอบคำตอบของคุณจริงๆ ประโยคแรกนั้นค่อนข้างสำคัญและฉันไม่คิดว่ามันจะถูกอธิบายอย่างมีประสิทธิภาพในคำตอบของอเล็กซิส (ซึ่งก็ดีเช่นกัน)
Richard Hardy
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.