จะทดสอบสมมติฐานที่ไม่มีความแตกต่างของกลุ่มได้อย่างไร?


39

ลองนึกภาพคุณมีการศึกษาที่มีสองกลุ่ม (เช่นชายและหญิง) ดูตัวแปรตามตัวเลข (เช่นคะแนนการทดสอบสติปัญญา) และคุณมีสมมติฐานว่าไม่มีความแตกต่างของกลุ่ม

คำถาม:

  • วิธีที่ดีในการทดสอบว่าไม่มีความแตกต่างของกลุ่มคืออะไร
  • คุณจะกำหนดขนาดตัวอย่างที่จำเป็นในการทดสอบอย่างเพียงพอโดยไม่มีความแตกต่างของกลุ่มอย่างไร

ความคิดเริ่มต้น:

  • มันจะไม่เพียงพอที่จะทำแบบทดสอบ t-test เพราะความล้มเหลวในการปฏิเสธสมมติฐานว่างไม่ได้หมายความว่าพารามิเตอร์ของดอกเบี้ยมีค่าเท่ากับหรือใกล้เคียงกับศูนย์ โดยเฉพาะอย่างยิ่งกรณีที่มีตัวอย่างขนาดเล็ก
  • ฉันสามารถดูช่วงความมั่นใจ 95% และตรวจสอบว่าค่าทั้งหมดอยู่ในช่วงที่มีขนาดเล็กพอสมควร อาจบวกหรือลบ 0.3 ส่วนเบี่ยงเบนมาตรฐาน

คุณหมายถึงอะไรโดย "สิ่งนี้ถือว่าสมมติฐานว่างเปล่าเป็นจริง"
robin girard

หากคุณต้องการควบคุมความน่าจะเป็นในการประกาศอย่างผิด ๆ "มีความแตกต่าง" คุณจำเป็นต้องแยกสมมติฐานสองข้อ (ฉันได้พูดถึงฉันแล้วฉันรักคำพูดนี้: stats.stackexchange.com/questions/726/ ...... ;)
robin girard

@ หมุนค่า p ของการทดสอบนัยสำคัญสมมุติฐานว่างคือความน่าจะเป็นที่เห็นหรือเป็นข้อมูลที่รุนแรงกว่าที่สังเกตว่าสมมุติฐานว่างเป็นจริง แต่บางทีฉันอาจจะใช้คำพูดที่ดีกว่า
Jeromy Anglim

@ Robin ฉันแก้ไขคำถามเพื่อพยายามทำให้ประเด็นของฉันชัดเจนขึ้น
Jeromy Anglim

คำตอบ:


20

ฉันคิดว่าคุณกำลังถามเกี่ยวกับการทดสอบความเท่าเทียมกัน โดยพื้นฐานแล้วคุณต้องตัดสินใจว่าความแตกต่างขนาดใหญ่นั้นเป็นที่ยอมรับได้สำหรับคุณที่จะสรุปได้ว่าทั้งสองกลุ่มมีความเท่าเทียมกันอย่างมีประสิทธิภาพ การตัดสินใจนั้นกำหนดขีด จำกัด ของช่วงความมั่นใจ 95% (หรืออื่น ๆ ) และทำการคำนวณขนาดตัวอย่างบนพื้นฐานนี้

มีทั้งเล่มในหัวข้อ

ธรรมดามากทางคลินิก "เทียบเท่า" ของการทดสอบความเท่าเทียมคือการทดสอบความไม่ด้อยกว่า / การพิจารณาคดี ในกรณีนี้คุณ "ชอบ" กลุ่มหนึ่งมากกว่าอีกกลุ่มหนึ่ง (การรักษาที่จัดตั้งขึ้น) และออกแบบการทดสอบของคุณเพื่อแสดงว่าการรักษาใหม่ไม่ได้ด้อยกว่าการรักษาที่กำหนดไว้ในระดับหลักฐานทางสถิติบางระดับ

ฉันคิดว่าฉันต้องให้เครดิตHarvey Motulskyสำหรับเว็บไซต์GraphPad.com (ใต้"Library" )


16

นอกเหนือจากความเป็นไปได้ที่กล่าวถึงการทดสอบความเท่าเทียมบางประเภทซึ่งส่วนใหญ่แล้วความรู้ของฉันส่วนใหญ่มักถูกกำหนดเส้นทางในประเพณีประจำเก่าที่ดีมีความเป็นไปได้ที่จะทำการทดสอบซึ่งให้ปริมาณของหลักฐานใน ความโปรดปรานของ null-hyptheses คือการทดสอบแบบเบส์

การดำเนินการทดสอบแบบเบส์สามารถพบได้ที่นี่: Wetzels, R. , Raaijmakers, JGW, Jakab, E. , & Wagenmakers, E.-J (2009) วิธีหาปริมาณการสนับสนุนและต่อต้านสมมติฐานว่าง: การใช้ WinBUGS ที่ยืดหยุ่นของการทดสอบแบบเบย์แบบเริ่มต้น แถลงการณ์ทางจิตวิทยาและรีวิว, 16, 752-760

นอกจากนี้ยังมีการสอนเกี่ยวกับวิธีการทำทั้งหมดใน R:

http://www.ruudwetzels.com/index.php?src=SDtest


ทางเลือกอื่น (อาจเป็นวิธีที่ทันสมัยกว่า) ของการทดสอบแบบเบย์ (พร้อมรหัส) ในบทความนี้โดย Kruschke:

Kruschke, JK (2013) การประมาณค่าแบบเบย์แทนการทดสอบที วารสารจิตวิทยาการทดลอง: ทั่วไป , 142 (2), 573–603 ดอย: 10.1037 / a0029146


อุปกรณ์ประกอบฉากทั้งหมดสำหรับคำตอบนี้ (ก่อนเพิ่มเติม Kruschke) ควรไปหา David Kellen เพื่อนร่วมงานของฉัน ฉันขโมยคำตอบของเขาจากคำถามนี้


ฉันสงสัยว่าบางคนจะให้แนวทางแบบเบย์หรือไม่ ยอดเยี่ยม ขอบคุณ
Jeromy Anglim

1
มันอาจจะคุ้มค่าที่จะอัพเดทคำตอบนี้เพื่อรวมการอ้างอิงไปยังแพ็คเกจ BayesFactor ที่ยอดเยี่ยมสำหรับ R.
crsh

13

ตามคำตอบของ Thylacoleo ฉันได้ทำการวิจัยเล็กน้อย

เท่าเทียมแพคเกจใน R มีtost()ฟังก์ชั่น

ดูที่ Robinson and Frose (2004) " การตรวจสอบแบบจำลองโดยใช้การทดสอบความเท่าเทียม " สำหรับข้อมูลเพิ่มเติม


ขอบคุณสำหรับลิงค์และตัวชี้ไปยังequivalenceแพ็คเกจ
chl

8

มีเอกสารสองสามฉบับที่ฉันรู้ว่าอาจเป็นประโยชน์กับคุณ:

Tryon, WW (2001) การประเมินความแตกต่างทางสถิติความเท่าเทียมและความไม่แน่นอนโดยใช้ช่วงความมั่นใจเชิงอนุมาน: วิธีการทางเลือกแบบบูรณาการในการดำเนินการทดสอบสมมติฐานสมมุติฐานว่าง วิธีการทางจิตวิทยา, 6, 371-386 ( PDF ฟรี )

และการแก้ไข:
Tryon, WW, & Lewis, C. (2008) วิธีช่วงเวลาความเชื่อมั่นแบบอนุมานของการสร้างความเท่าเทียมกันทางสถิติที่แก้ไขปัจจัยการลดของ Tryon (2001) วิธีการทางจิตวิทยา, 13, 272-278 ( PDF ฟรี )

นอกจากนี้:

Seaman, MA & Serlin, RC (1998) E quivalence ช่วงความเชื่อมั่นสำหรับการเปรียบเทียบสองกลุ่มหมายถึง วิธีการทางจิตวิทยาเล่ม 3 (4), 403-411


มีเอกสารมากมายและแม้แต่หนังสือในหัวข้อนี้
Michael Chernick

7

ฉันเพิ่งคิดเกี่ยวกับวิธีทางเลือกของ "การทดสอบความเท่าเทียมกัน" โดยยึดตามระยะห่างระหว่างการแจกแจงสองแบบแทนที่จะเป็นระหว่างวิธีการของพวกเขา

มีวิธีการบางอย่างที่ให้ช่วงความมั่นใจสำหรับการทับซ้อนของการแจกแจงแบบเกาส์สอง:ป้อนคำอธิบายรูปภาพที่นี่

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1และP_2P2

นั่นหมายความว่าตัวอย่างเช่นถ้าแล้วน่าจะเป็นที่ได้รับจากและของเหตุการณ์ใด ๆ ไม่แตกต่างกันมากขึ้นกว่า 0.1พูดประมาณสองกระจายทำให้การคาดการณ์เดียวกันถึง\%O(P1,P2)>0.9P1P20.110%

ดังนั้นแทนที่จะใช้เกณฑ์การยอมรับตามค่าวิกฤตสำหรับความแตกต่างระหว่างค่าเฉลี่ยและเช่นเดียวกับในการทดสอบความเท่าเทียมแบบคลาสสิกเราสามารถตั้งค่าเป็นค่าวิกฤตสำหรับความแตกต่างระหว่างความน่าจะเป็นของการทำนายที่กำหนดโดย การแจกแจงสองแบบμ1μ2

ฉันคิดว่ามีความได้เปรียบในแง่ของ "ความเป็นกลาง" ของเกณฑ์ ค่าวิกฤตของควรได้รับจากผู้เชี่ยวชาญของปัญหาจริง: นี่ควรเป็นค่าที่มากกว่าความแตกต่างที่มีความสำคัญในทางปฏิบัติ แต่บางครั้งก็ไม่มีใครมีความรู้ที่แข็งแกร่งเกี่ยวกับปัญหาที่แท้จริงและไม่มีผู้เชี่ยวชาญที่สามารถให้คุณค่าที่สำคัญ การใช้ค่าวิกฤตแบบดั้งเดิมเกี่ยวกับอาจเป็นวิธีหนึ่งในการตัดสินไม่ได้ขึ้นอยู่กับปัญหาทางกายภาพภายใต้การพิจารณา|μ1μ2|TV(P1,P2)

ในกรณีที่มีความแปรปรวน Gaussian เดียวกันซ้อนทับกันเป็นหนึ่งต่อหนึ่งที่เกี่ยวข้องกับความแตกต่างของค่าเฉลี่ยมาตรฐานซิก}|μ1μ2|σ


คุณมีทรัพยากรใดที่แสดงการทับซ้อนกันที่ถูกใช้ในปัญหาจริงหรือไม่ สิ่งนี้ฟังดูมีแนวโน้มที่น่าเหลือเชื่อ แต่ก็ไม่ชัดเจนสำหรับฉันว่าจะนำไปใช้ในปัญหาจริงได้อย่างไร (ซึ่งข้อสรุปของคุณอาจถูกลบหลายขั้นตอนจาก "การกระจายนี้ค่อนข้างคล้ายกับ X" ดังนั้นจึงยากที่จะเห็นว่า ทีวี 10% แปลเป็นขนาดของผลกระทบต่อการอนุมาน)
Stumpy Joe Pete

1
@StumpyJoePete ฉันได้เขียนอะไรบางอย่างที่เหมือนกันในบล็อกของฉัน: stla.github.io/stlapblog/posts/ …
Stéphane Laurent

5

ในวิทยาศาสตร์การแพทย์มันจะดีกว่าที่จะใช้วิธีช่วงความมั่นใจเมื่อเทียบกับการทดสอบด้านเดียวสอง (tost) ฉันยังแนะนำการทำกราฟประมาณการจุด CIs และระยะขอบที่เท่ากันที่กำหนดไว้ล่วงหน้าเพื่อทำให้สิ่งที่ชัดเจนมาก

คำถามของคุณน่าจะได้รับการแก้ไขด้วยวิธีการดังกล่าว

แนวทางของ CONSORT สำหรับการศึกษาที่ไม่ด้อยกว่า / เท่าเทียมกันนั้นค่อนข้างมีประโยชน์ในเรื่องนี้

ดูPiaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ และกลุ่ม CONSORT การรายงานความไม่ด้อยกว่าและการทดลองแบบสุ่มที่เทียบเท่า: ส่วนขยายของคำสั่ง CONSORT JAMA 2549, 8 มี.ค. ; 295 (10): 1152-60 (ลิงก์ไปยังข้อความเต็ม)


1
ฉันไม่จำเป็นต้องพูดว่าความมั่นใจเป็นสิ่งที่ควรทำ ในความเป็นจริงช่วงความมั่นใจตรงกับการทดสอบสมมติฐาน TOST สามารถทำได้โดยการดูช่วงความเชื่อมั่นที่ได้รับโดยการตัดช่วงความเชื่อมั่นทั้งสองด้านที่สอดคล้องกับการทดสอบด้านเดียวทั้งสองที่ใช้ในกระบวนการ
Michael Chernick

4

ใช่. นี่คือการทดสอบความเท่าเทียมกัน โดยทั่วไปคุณจะกลับสมมติฐานว่างและทางเลือกและยึดขนาดตัวอย่างบนกำลังงานเพื่อแสดงให้เห็นว่าความแตกต่างของค่าเฉลี่ยอยู่ภายในหน้าต่างของความเท่าเทียมกัน Blackwelder เรียกมันว่า "พิสูจน์สมมติฐานว่าง" โดยทั่วไปจะทำในการทดลองทางคลินิกด้านยาที่มีการทดสอบความเท่าเทียมกันของยาสามัญกับยาที่ออกวางตลาดหรือเปรียบเทียบกับยาสูตรใหม่ที่ได้รับอนุมัติแล้ว (มักเรียกว่าชีวสมมูล) รุ่นด้านเดียวเรียกว่าไม่ด้อยกว่า บางครั้งยาเสพติดสามารถได้รับการอนุมัติโดยเพียงแค่แสดงให้เห็นว่ายาใหม่ไม่ได้ด้อยกว่าคู่แข่งทางการตลาด Shao และ Pigeot ได้พัฒนาวิธี bootstrap ที่สอดคล้องกับชีวสมมูลโดยใช้ crossover design


0

ความแตกต่าง Bootstrap (เช่นความแตกต่างระหว่างค่าเฉลี่ย) ระหว่างกลุ่มตัวอย่าง 2 กลุ่มและตรวจสอบนัยสำคัญทางสถิติ รายละเอียดเพิ่มเติมของวิธีการนี้แม้ว่าจะอยู่ในบริบทที่แตกต่างกันสามารถดูได้ที่นี่http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/


1
คุณกำลังทำให้เข้าใจผิดว่าการยอมรับสมมติฐานว่างไม่แตกต่างกันและค้นหาหลักฐานที่แสดงว่าปริมาณสองปริมาณเท่ากัน
Alexis
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.