ทำไมนักสถิติบอกว่าผลลัพธ์ที่ไม่สำคัญหมายความว่า“ คุณไม่สามารถปฏิเสธโมฆะ” ได้เมื่อเทียบกับการยอมรับสมมติฐานว่าง


44

การทดสอบทางสถิติแบบดั้งเดิมเช่นการทดสอบตัวอย่างสองตัวอย่างให้ความสำคัญกับการพยายามกำจัดสมมติฐานที่ไม่มีความแตกต่างระหว่างฟังก์ชั่นของสองตัวอย่างอิสระ จากนั้นเราเลือกระดับความเชื่อมั่นและบอกว่าหากความแตกต่างของค่าเฉลี่ยอยู่เกินระดับ 95% เราสามารถปฏิเสธสมมติฐานว่างได้ ถ้าไม่ใช่เรา "ไม่สามารถปฏิเสธสมมติฐานว่างได้" นี่ดูเหมือนจะบอกเป็นนัยว่าเราไม่สามารถยอมรับได้เช่นกัน หมายความว่าเราไม่แน่ใจว่าสมมุติฐานว่างเป็นจริงหรือไม่?

ตอนนี้ฉันต้องการออกแบบการทดสอบโดยที่สมมติฐานของฉันคือหน้าที่ของสองตัวอย่างนั้นเหมือนกัน (ซึ่งตรงกันข้ามกับการทดสอบสถิติแบบดั้งเดิมโดยที่สมมติฐานนั้นคือทั้งสองตัวอย่างนั้นแตกต่างกัน) สมมุติฐานว่างของฉันกลายเป็นว่าทั้งสองตัวอย่างต่างกัน ฉันจะออกแบบการทดสอบได้อย่างไร? มันจะง่ายเหมือนการบอกว่าถ้า p-value น้อยกว่า 5% เราสามารถยอมรับสมมติฐานที่ว่าไม่มีความแตกต่างอย่างมีนัยสำคัญ?



ความแตกต่างของค่าเฉลี่ยอยู่เหนือระดับ 95% เราสามารถปฏิเสธสมมติฐานว่างได้ 95% ไม่ใช่ "ระดับ" ที่นี่ใน 95 กรณีจาก 100 กรณี (การเปรียบเทียบ) ความแตกต่างในสถิติตัวอย่างเกิดขึ้นเนื่องจากการสุ่มตัวอย่างความผันผวน หมายความว่ายอมรับค่า null ที่ alpha = .05 การพูดระดับ 95% ไม่ถูกต้อง
Subhash C. Davar

คำตอบ:


44

เดิมสมมติฐานว่างเป็นค่าจุด (มันเป็นเรื่องปกติแต่ในความเป็นจริงสามารถเป็นค่าจุดใด.) สมมติฐานทางเลือกคือมูลค่าที่แท้จริงเป็นค่าอื่นที่ไม่ใช่ค่า Null ใด ๆ เพราะตัวแปรต่อเนื่อง (เช่นความแตกต่างของค่าเฉลี่ย) สามารถใช้ค่าที่ใกล้เคียงกับค่า Null แต่ยังคงไม่เท่ากันและทำให้สมมติฐานว่างเป็นเท็จไม่สามารถพิสูจน์สมมติฐานดั้งเดิมได้ 0

ลองนึกภาพสมมติฐานของคุณเป็นและความแตกต่างของค่าเฉลี่ยคุณสังเกตคือ0.01 มันสมเหตุสมผลหรือไม่ที่จะสมมุติว่าสมมติฐานว่างเป็นจริง? คุณยังไม่รู้ มันจะมีประโยชน์หากรู้ว่าช่วงความมั่นใจของเราเป็นอย่างไร พูดเถอะว่าช่วงความเชื่อมั่น 95% คือ( - 4.99 , 5.01 ) ตอนนี้เราควรสรุปว่ามูลค่าที่แท้จริงคือ0หรือไม่ ฉันจะไม่รู้สึกสบายใจที่บอกว่าเพราะ CI กว้างมากและมีค่าที่ไม่เป็นศูนย์ขนาดใหญ่จำนวนมากที่เราอาจสงสัยว่ามีเหตุผลสอดคล้องกับข้อมูลของเรา สมมุติว่าเรารวบรวมข้อมูลมากขึ้นและตอนนี้ค่าเฉลี่ยที่เราสังเกตได้คือ0.0100.01(4.99, 5.01)00.01แต่ 95% CI คือ ) ความแตกต่างของค่าเฉลี่ยที่สังเกตได้ยังคงเหมือนเดิม (ซึ่งน่าประหลาดใจถ้ามันเกิดขึ้นจริง) แต่ช่วงความมั่นใจตอนนี้ไม่รวมค่าว่าง แน่นอนว่านี่เป็นเพียงการทดลองทางความคิด แต่ควรทำให้ความคิดพื้นฐานชัดเจน เราไม่สามารถพิสูจน์ได้ว่าคุณค่าที่แท้จริงคือคุณค่าของจุดใด ๆ เราสามารถพิสูจน์ได้ว่าเป็นค่าบางจุดเท่านั้น ในการทดสอบสมมติฐานทางสถิติความจริงที่ว่า p-value คือ> 0.05 (และ 95% CI รวมศูนย์) หมายความว่าเราไม่แน่ใจว่าสมมติฐานว่างเป็นจริงหรือไม่(0.005, 0.015)

สำหรับกรณีที่เป็นรูปธรรมของคุณคุณไม่สามารถสร้างการทดสอบโดยที่สมมติฐานทางเลือกคือความแตกต่างเฉลี่ยคือและสมมติฐานว่างเป็นอย่างอื่นที่ไม่ใช่ศูนย์ สิ่งนี้ละเมิดตรรกะของการทดสอบสมมติฐาน มันสมเหตุสมผลอย่างสมบูรณ์ว่ามันเป็นสมมติฐานทางวิทยาศาสตร์ที่สำคัญของคุณ แต่มันไม่สามารถเป็นสมมุติฐานทางเลือกของคุณในสถานการณ์การทดสอบสมมติฐาน 0

แล้วคุณจะทำอย่างไร ในสถานการณ์นี้คุณใช้การทดสอบความเท่าเทียมกัน (คุณอาจต้องการอ่านหัวข้อของเราบางส่วนในหัวข้อนี้โดยคลิกที่แท็กที่ ) กลยุทธ์โดยทั่วไปคือใช้วิธีการทดสอบสองด้าน สั้นมากคุณเลือกช่วงเวลาที่คุณจะพิจารณาว่าความแตกต่างเฉลี่ยที่แท้จริงอาจเป็น0สำหรับทุกสิ่งที่คุณสนใจคุณต้องทำการทดสอบด้านเดียวเพื่อดูว่าค่าที่สังเกตได้นั้นน้อยกว่าขอบเขตบนของช่วงเวลานั้นหรือไม่และการทดสอบด้านเดียวอีกครั้งเพื่อดูว่ามันมีค่ามากกว่าขอบเขตล่างหรือไม่ หากการทดสอบทั้งสองนี้มีความสำคัญคุณก็ปฏิเสธสมมติฐานที่ว่าค่าที่แท้จริงนั้นอยู่นอกช่วงเวลาที่คุณสนใจ หากหนึ่ง (หรือทั้งสองอย่าง) ไม่มีนัยสำคัญคุณไม่สามารถปฏิเสธสมมติฐานที่ว่าค่าจริงอยู่นอกช่วงเวลา

ตัวอย่างเช่นสมมติว่ามีอะไรก็ตามในช่วงเวลาใกล้เคียงกับศูนย์มากจนคุณคิดว่ามันเท่ากับศูนย์สำหรับจุดประสงค์ของคุณดังนั้นคุณใช้มันเป็นสมมุติฐานที่แท้จริงของคุณ ทีนี้ลองจินตนาการว่าคุณได้รับผลลัพธ์แรกที่อธิบายไว้ข้างต้น แม้ว่า0.01(0.02, 0.02)0.010(0.02, 0.02)ซึ่งอาจดูน่าสับสนในตอนแรก แต่ก็สอดคล้องกับตรรกะของการทดสอบสมมติฐานทั้งหมด)


1
H0H0

1
H0H0:δ0δ>0<0

1
H0

4
δ0δ0H0:δ0

1
H0:δ<0H0:δ=0δ>0δ<0จริง ๆ แล้วสามารถนำไปสู่การยอมรับหนึ่งในนั้น (หรือผลสรุปไม่ได้) บวกการทดสอบด้านเดียวทำให้รู้สึกมากขึ้นจากมุมมองของเบย์ บวกกับการทำนายทางวิทยาศาสตร์ควรมีทิศทาง ฉันคิดว่าฉันเริ่มคิดว่าการทดสอบด้านเดียวไม่ได้รับความนิยมเพียงพอ
อะมีบาพูดว่า Reinstate Monica

28

พิจารณากรณีที่สมมุติฐานว่างคือเหรียญ 2 หัวนั่นคือความน่าจะเป็นของหัวคือ 1 ทีนี้ข้อมูลก็คือผลลัพธ์ของการพลิกเหรียญในครั้งเดียวและมองเห็นหัว ผลลัพธ์นี้มีค่า p-1.0 ซึ่งมากกว่าค่าอัลฟาที่สมเหตุสมผลทุกตัว นี่หมายความว่าเหรียญ 2 หัวหรือไม่? อาจเป็นได้ แต่มันอาจเป็นเหรียญที่ยุติธรรมและเราเห็นหัวเนื่องจากมีโอกาส (จะเกิดขึ้น 50% ของเวลาด้วยเหรียญยุติธรรม) ดังนั้นค่า p สูงในกรณีนี้บอกว่าข้อมูลที่สังเกตนั้นสอดคล้องกับค่า Null อย่างสมบูรณ์ แต่ก็สอดคล้องกับความเป็นไปได้อื่น ๆ

เช่นเดียวกับคำตัดสินว่า "ไม่ผิด" ในศาลอาจหมายถึงว่าจำเลยเป็นผู้บริสุทธิ์ แต่อาจเป็นเพราะจำเลยมีความผิด แต่ไม่มีหลักฐานเพียงพอ เช่นเดียวกับสมมติฐานว่างที่เราล้มเหลวในการปฏิเสธเพราะ null อาจเป็นจริงหรืออาจเป็นเพราะเราไม่มีหลักฐานเพียงพอที่จะปฏิเสธแม้ว่ามันจะเป็นเท็จ


3
ฉันชอบตัวอย่าง "ไม่ผิด" การก้าวไปอีกขั้นหนึ่งอีกครั้งกรณีเปิดใหม่โดยใช้หลักฐานดีเอ็นเอที่เราไม่ทราบวิธีการใช้ในอดีตและมีความเชื่อมั่นบางอย่างพลิกคว่ำเป็นตัวอย่างที่สมบูรณ์แบบของการเพิ่มข้อมูลเพิ่มเติมอาจเป็นสิ่งที่จำเป็นต้องมีหลักฐานเพียงพอ
Thomas Speidel

7

การขาดหลักฐานไม่ใช่หลักฐานของการขาดงาน (ชื่อของ Altman, Bland paper บน BMJ) ค่า P จะให้หลักฐานการขาดงานเมื่อเราพิจารณาว่ามีนัยสำคัญเท่านั้น มิฉะนั้นพวกเขาจะไม่บอกอะไรเรา ดังนั้นการขาดหลักฐาน กล่าวอีกนัยหนึ่ง: เราไม่รู้และอาจมีข้อมูลมากขึ้น


5

H0

H1H0

H0

หากเรามีตัวอย่างสองตัวอย่างเราคาดว่าจะมีการกระจายตัวเหมือนกันสมมุติฐานว่างของเราคือตัวอย่างจะเหมือนกัน หากเรามีตัวอย่างสองตัวอย่างที่เราคาดหวังว่าจะแตกต่างกัน (อย่างดุเดือด) สมมติฐานว่างของเราคือพวกมันแตกต่างกัน


และถ้าเราไม่มีความคาดหวัง .. อาจเป็นได้ว่าเราไม่รู้ นอกจากนี้กฎการตัดสินใจจะทำงานอย่างไรถ้าเราต้องการปฏิเสธสมมติฐานที่ว่าทั้งสองตัวอย่างแตกต่างกันอย่างไร
ryu576

ในกรณีที่คุณไม่มีความคาดหวังคุณต้องการเก็บข้อผิดพลาดทั้งสองประเภทให้เล็ก แต่ก็ไม่สามารถทำได้ คุณต้องการตัวแปรเพิ่มเติม (เช่นการเพิ่มขนาดตัวอย่าง) เพื่อทำมัน
SomeEE

2
เนื่องจากเราสามารถปฏิเสธโมฆะได้ แต่ไม่สามารถพิสูจน์ได้ว่าเป็นจริงโมฆะมักจะตรงกันข้ามกับสิ่งที่เราต้องการพิสูจน์หรือถือว่าเป็นจริง หากเราเชื่อว่ามีความแตกต่างค่า null จะไม่แตกต่างกันเพื่อให้คุณสามารถพิสูจน์ได้
Greg Snow

@ Greg นั่นเป็นวิธีการที่ดีถ้าคุณรู้ว่าคนไหนที่คุณต้องการเป็นจริงซึ่งอาจเป็นกรณีปกติ
SomeEE

1
"สิ่งที่คุณคาดหวัง" และ "ความแตกต่าง" ไม่สามารถเป็นสมมติฐานเชิงสถิติได้เลยเพราะมันไม่ใช่เชิงปริมาณ ที่ได้รับการ crux ของเรื่อง: ความไม่สมดุลในบทบาทระหว่าง null และสมมติฐานทางเลือกเกิดขึ้นจากความสามารถในการตรวจสอบการกระจายตัวอย่างของสถิติการทดสอบภายใต้ null เมื่อเทียบกับความต้องการ parameterize การกระจายตามขนาดผลภายใต้ สมมติฐานทางเลือก หรือเป็นกรณีที่เรา "ลดข้อผิดพลาด Type I": ที่ไม่เคยเกิดขึ้น (ค่าต่ำสุดคือ 0 เสมอ) การทดสอบหาสมดุลระหว่างอัตราความผิดพลาด Type I และ II
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.