เมื่อทำการทดสอบแบบทีทำไมคนเราต้องการสมมติ (หรือทดสอบ) ความแปรปรวนที่เท่ากันแทนที่จะใช้การประมาณเวลช์ของ df เสมอ


47

ดูเหมือนว่าเมื่อข้อสันนิษฐานของความเป็นเนื้อเดียวกันของความแปรปรวนพบว่าผลลัพธ์จาก Welch ที่ปรับ t-test และ t-test มาตรฐานจะใกล้เคียงกัน ทำไมไม่ใช้ Welch ที่ปรับแล้วเสมอ

คำตอบ:


33

ฉันต้องการที่จะต่อต้านอีกสองคำตอบขึ้นอยู่กับกระดาษ (เยอรมัน) โดยKubinger, Rasch และ Moder (2009)

พวกเขาโต้แย้งบนพื้นฐานของการ "กระจาย" จากการแจกแจงไม่ว่าจะเป็นการประชุมหรือไม่ตรงตามสมมติฐานที่กำหนดโดย t-test (ความเป็นปกติและความแปรปรวนของความแปรปรวน) ที่เวลช์ - การทดสอบทำได้ดีพอ ๆ กันเมื่อพบกับสมมติฐาน ความน่าจะเป็นของการยอมรับข้อผิดพลาด alpha และเบต้า) แต่มีประสิทธิภาพสูงกว่าการทดสอบ t-test หากสมมติฐานไม่เป็นไปตามโดยเฉพาะอย่างยิ่งในแง่ของพลังงาน ดังนั้นพวกเขาแนะนำให้ใช้การทดสอบการเชื่อมถ้าขนาดตัวอย่างเกิน 30

ในฐานะที่เป็น meta-comment: สำหรับผู้ที่สนใจในสถิติ (เช่นฉันและอาจเป็นอย่างอื่นมากที่สุดที่นี่) การโต้แย้งบนพื้นฐานของข้อมูล (เป็นของฉัน) อย่างน้อยควรนับอย่างเท่าเทียมกันว่าเป็นข้อโต้แย้งโดยยึดตามเหตุผลทางทฤษฎี


อัปเดต:
หลังจากคิดเกี่ยวกับหัวข้อนี้อีกครั้งฉันพบคำแนะนำเพิ่มเติมสองข้อที่ใหม่กว่านี้ช่วยในเรื่องของฉัน ดูเอกสารต้นฉบับ (อย่างน้อยที่สุดก็มีให้ฉันฟรี) สำหรับข้อโต้แย้งที่นำไปสู่ข้อเสนอแนะเหล่านี้

คำแนะนำแรกมาจาก Graeme D. Ruxton ในปี 2549: " ถ้าคุณต้องการเปรียบเทียบแนวโน้มกลางของประชากร 2 กลุ่มจากตัวอย่างของข้อมูลที่ไม่เกี่ยวข้องดังนั้นควรใช้การทดสอบความแปรปรวนที่ไม่เท่ากันเสมอเพื่อทดสอบ t-test ของนักเรียน หรือการทดสอบ Mann-Whitney U. "
ใน:
Ruxton, GD 2006 ไม่เท่ากันแปรปรวน t-test เป็นทางเลือกที่จะป้อแป้นักศึกษา t-test และทดสอบ Behav Ecol 17, 688–690

คำแนะนำที่สอง (เก่ากว่า) มาจาก Coombs และคณะ (1996, หน้า 148.): " สรุปอิสระทดสอบตัวอย่างทีเป็นที่ยอมรับโดยทั่วไปในแง่ของการควบคุมความคลาดเคลื่อนประเภทที่ให้มีขนาดใหญ่พอตัวอย่างขนาดเท่ากันแม้เมื่อสมมติฐานประชากรแปรปรวนเท่ากับการละเมิด.สำหรับที่ไม่เท่ากัน ตัวอย่างขนาดเล็กอย่างไรก็ตามทางเลือกที่ไม่ถือว่ามีความแปรปรวนของประชากรเท่าเทียมกันเป็นที่นิยมใช้การทดสอบลำดับที่สองของเจมส์เมื่อการแจกแจงเป็นแบบสมมาตรสั้นหรือปกติทางเลือกที่มีแนวโน้ม ได้แก่ Wilcox H และ Yuen ซึ่งหมายถึงการทดสอบ การควบคุมอัตราความผิดพลาด Type I ที่กว้างกว่าการทดสอบ Welch หรือการทดสอบ James และมีพลังอำนาจมากขึ้นเมื่อข้อมูลมีความยาวเป็นพิเศษ (เน้นเพิ่ม)
ใน:
คูมบ์ส WT, Algina เจ Oltman D. 1996 Univariate และหลายตัวแปรรถโดยสารสมมติฐานทดสอบเลือกที่จะควบคุมอัตราความผิดพลาดประเภทที่เมื่อความแปรปรวนประชากรไม่จำเป็นต้องเท่ากัน Rev Educ Res 66: 137–79


3
การตอบสนอง Meta: จุดดี แต่ข้อมูลของคุณอาจไม่ทำงานเหมือนของฉัน! :-)
whuber

เฮนริกคุณจะรังเกียจไหมถ้าฉันแก้ไขคำตอบเป็น: (1) เปลี่ยนคำศัพท์โดยเรียกการทดสอบ t-test ของนักเรียนและ t-test ของ Welch (ดังที่ฉันพบในวรรณคดีส่วนใหญ่); (2) รวมบทความอื่นที่เสนอไว้ในการอภิปราย: rips-irsp.com/article/10.5334/irsp.82 (เน้นการตั้งค่าที่เกิดขึ้นเมื่อคุณเลือกการทดสอบตามการทดสอบความเป็นเนื้อเดียวกันของ Levene)
บรูโน่

13

แน่นอนว่าใคร ๆ ก็สามารถทำการทดสอบทั้งคู่และเริ่มใช้การทดสอบแบบเบย์ (การทดสอบอัตราส่วนป่าเถื่อน -Deyey) ซึ่งสามารถอธิบายความแปรปรวนที่ไม่เท่ากันและไม่เท่ากัน สมมติฐานว่าง (ซึ่งหมายความว่าไม่มีอีกต่อไป "ไม่สามารถปฏิเสธ" พูดคุย)

การทดสอบนี้ง่ายมาก (และรวดเร็ว) ในการติดตั้งและมีกระดาษที่อธิบายให้ผู้อ่านที่ไม่คุ้นเคยกับสถิติแบบเบย์อย่างชัดเจนถึงวิธีการใช้พร้อมกับสคริปต์ R โดยทั่วไปคุณสามารถแทรกข้อมูลส่งคำสั่งไปยังคอนโซล R:

Wetzels, R. , Raaijmakers, JGW, Jakab, E. , & Wagenmakers, E.-J. (2009) วิธีการหาปริมาณการสนับสนุนสำหรับและต่อต้านสมมติฐานที่ว่างเปล่า: การปรับใช้ WinBUGS ที่ยืดหยุ่นของการทดสอบแบบเบย์แบบดีฟอลต์

นอกจากนี้ยังมีบทช่วยสอนทั้งหมดนี้พร้อมข้อมูลตัวอย่าง:

http://www.ruudwetzels.com/index.php?src=SDtest

ฉันรู้ว่านี่ไม่ใช่การตอบสนองโดยตรงกับสิ่งที่ถาม แต่ฉันคิดว่าผู้อ่านอาจสนุกกับการมีทางเลือกที่ดีนี้

ไชโย


8
พวก Bayesian เหล่านี้เสมอ ...
Henrik

3
ทางเลือกแบบเบย์อีกทางหนึ่งสำหรับการทดสอบแบบ t คือแบบประเมินที่ดีที่สุดของ Kruschke (การประมาณแบบเบย์แทนที่การทดสอบแบบที) ข้อมูลเพิ่มเติมที่นี่: indiana.edu/~kruschke/BEST รุ่นออนไลน์ที่นี่: sumsar.net/best_online
Rasmus Bååth

7

เพราะผลลัพธ์ที่แน่นอนจะดีกว่าการประมาณและหลีกเลี่ยงกรณีขอบแปลก ๆ ที่การประมาณอาจนำไปสู่ผลลัพธ์ที่แตกต่างกว่าวิธีที่แน่นอน

วิธี Welch ไม่ใช่วิธีที่รวดเร็วกว่าในการทำแบบทดสอบเก่า ๆ แต่เป็นการประมาณปัญหาที่ยากมากเป็นอย่างมาก: วิธีการสร้างแบบทดสอบ t-t ภายใต้ความแปรปรวนที่ไม่เท่ากัน กรณีความแปรปรวนที่เท่ากันนั้นเป็นที่เข้าใจง่ายและถูกต้องดังนั้นจึงควรใช้เมื่อเป็นไปได้เสมอ


6
ฉันคิดว่าฉันเห็นด้วยกับ John Tukey มากขึ้น - " ดีกว่าคำตอบที่ถูกต้องสำหรับคำถามที่ถูกต้องซึ่งมักจะคลุมเครือกว่าคำตอบที่ถูกต้องสำหรับคำถามที่ผิดซึ่งสามารถทำให้แม่นยำ "
Glen_b

4
ความแปรปรวนแบบเท่ากัน (นักเรียน) การทดสอบตัวเองนั้นเป็นเพียงการประมาณ (ไม่เข้าใจ) เมื่อความแปรปรวนตัวอย่างประชากรไม่เท่ากัน ดังนั้นหากไม่ทราบว่าค่าความแปรปรวนของประชากรเท่ากันจะเป็นการดีกว่าที่จะใช้การประมาณการกระจายตัวตัวอย่างที่ถูกต้อง (Welch-Satterthwaite) มากกว่าการใช้การแจกแจงที่แม่นยำอย่างสมบูรณ์แบบซึ่งไม่ได้ใช้กับตัวแบบข้อมูล
whuber

4

สองเหตุผลที่ฉันนึกถึง:

  1. T ของนักเรียนทั่วไปค่อนข้างแข็งแกร่งต่อความแตกต่างของความแข็งแรงถ้าขนาดตัวอย่างเท่ากัน

  2. ถ้าคุณเชื่อมั่นเบื้องต้นว่าข้อมูลที่เป็น homoscedastic แล้วคุณจะสูญเสียอะไรและอาจได้รับจำนวนเงินขนาดเล็กของการใช้พลังงานโดยใช้ Studen'ts T แทนทีเวลช์

เหตุผลหนึ่งที่ฉันจะไม่ให้คือเสื้อนักเรียนนั้นแน่นอนและเสื้อของ Welch ไม่ใช่ IMHO ความถูกต้องของ T ของนักเรียนเป็นนักวิชาการเพราะมันเป็นเพียงที่แน่นอนสำหรับการกระจายข้อมูลได้ตามปกติและไม่มีข้อมูลที่แท้จริงคือว่าการกระจายตามปกติ ฉันไม่สามารถนึกถึงปริมาณที่ผู้คนวัดและวิเคราะห์ทางสถิติได้จริงซึ่งการกระจายนั้นน่าจะได้รับการสนับสนุนจากจำนวนจริงทั้งหมด ตัวอย่างเช่นมีเพียงอะตอมจำนวนมากในจักรวาลและปริมาณบางอย่างไม่สามารถลบได้ ดังนั้นเมื่อคุณใช้การทดสอบ T แบบใด ๆ กับข้อมูลจริงคุณกำลังทำการประมาณค่า แต่อย่างใด


2
(1) ไม่ถูกต้องเมื่อความแปรปรวนของประชากรพื้นฐานแตกต่างกันอย่างมาก ในกรณีที่รุนแรง - เพื่อดูว่าทำไมจึงเป็นเช่นนี้ - พิจารณาสิ่งที่เกิดขึ้นเมื่อประชากรหนึ่งไม่มีความแปรปรวนเลย นักเรียน t นั้นจะทำการเปรียบเทียบข้อมูลจากประชากรอื่นกับค่าคงที่ แต่มันจะคิดว่ามันมีอิสระเป็นสองเท่าขององศา ข้อผิดพลาดที่เกิดขึ้นนั้นเทียบเท่ากับการใช้การทดสอบ Z
whuber

ขณะนี้เป็นจริง @whuber มันเป็นกรณีที่รุนแรงมากเท่านั้น ฉันแค่ดูความแตกต่างความแปรปรวน 1e6: 1 และ p ≈ .053 ดังนั้นมันสามารถเกิดขึ้นได้ แต่ฉันก็ยังเถียงว่ามันแข็งแกร่งพอสมควรกับ N.
John

@John อัตราส่วนความแปรปรวน 1e6: 1 มีขนาดใหญ่มากไม่ว่านั้นจะเป็นอย่างไร เสื้อนักเรียนมีแนวโน้มที่จะทำให้เข้าใจผิดในกรณีนี้ ni
whuber

@whuber ฉันแค่แนะนำว่าในขณะที่ความคิดเห็นของคุณข้างต้นเป็นจริงทางเทคนิคการแก้ไข Welch ไม่ได้เป็นวิธีการแก้ปัญหาที่คุณเป็นตัวอย่างและมันก็ไม่ได้สำคัญอย่างยิ่งต่อความแข็งแกร่งของการทดสอบในแง่ของอัตราอัลฟ่า (ซึ่งหมายถึง (1) โดยปกติหมายถึง) ตามที่คุณแนะนำเมื่อความแปรปรวนที่ไม่เท่ากัน (รุนแรง) เป็นปัญหาคุณมีปัญหาอื่น ๆ แต่นั่นเป็นหัวข้อที่แตกต่างกันจริงๆ
John

3

ความจริงที่ว่าบางสิ่งที่ซับซ้อนมากขึ้นจะช่วยลดความซับซ้อนให้น้อยลงเมื่อตรวจสอบสมมติฐานบางอย่างว่าไม่เพียงพอที่จะทำให้วิธีการที่ง่ายขึ้น


4
โดยเฉพาะนักเรียนที่มีความกังวล
Matt Parker

2

ฉันจะใช้มุมมองตรงข้ามที่นี่ ทำไมต้องกังวลกับการทดสอบ Welch เมื่อการทดสอบนักเรียนแบบไม่มีคู่มาตรฐานให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด ฉันศึกษาเรื่องนี้มาระยะหนึ่งแล้วฉันก็สำรวจสถานการณ์ต่าง ๆ ในความพยายามที่จะทำลายการทดสอบทีและสนับสนุนการทดสอบเวลช์ ในการทำเช่นนั้นฉันใช้ขนาดตัวอย่างสูงกว่าถึง 5 เท่าสำหรับกลุ่มหนึ่งเทียบกับอีกกลุ่มหนึ่ง และฉันสำรวจความแปรปรวนสูงกว่า 25 เท่าสำหรับกลุ่มหนึ่งเทียบกับอีกกลุ่มหนึ่ง และมันก็ไม่ได้สร้างความแตกต่างที่เป็นสาระสำคัญใด ๆ การทดสอบแบบไม่จับคู่ t ยังคงสร้างช่วงของค่า p ที่เกือบจะเหมือนกับการทดสอบ Welch

คุณสามารถดูงานของฉันได้ที่ลิงค์ต่อไปนี้และมุ่งเน้นไปที่สไลด์ 5 และ 6 โดยเฉพาะ

http://www.slideshare.net/gaetanlion/unpaired-t-test-family


ฉันขอโทษคุณสร้างความแตกต่างอะไรระหว่างสูตรตัวอย่างขนาดใหญ่และสูตรตัวอย่างขนาดเล็ก คุณกำลังคำนวณความแปรปรวนโดยใช้สูตรประชากรในกลุ่มตัวอย่างขนาดใหญ่แทนที่จะใช้ค่าประมาณตัวอย่างของความแปรปรวนประชากรหรือไม่
russellpierce

แบบทดสอบนักเรียนที่ไม่มีคู่มีสองสูตร สูตรตัวอย่างขนาดใหญ่ถูกนำไปใช้กับตัวอย่างที่มีการสังเกตมากกว่า 30 ครั้ง สูตรตัวอย่างขนาดเล็กจะใช้กับตัวอย่างที่มีการสังเกตน้อยกว่า 30 ข้อ ความแตกต่างที่สำคัญในสูตรเหล่านั้นคือวิธีที่พวกเขาคำนวณข้อผิดพลาดมาตรฐานที่รวมไว้ สูตรตัวอย่างขนาดเล็กมีความซับซ้อนและขัดข้องมากขึ้น และในความเป็นจริงมันสร้างความแตกต่างน้อยมาก ฉันมีการทดสอบหลายครั้ง นั่นเป็นเหตุผลที่ฉันคิดว่าคนส่วนใหญ่ลืมเกี่ยวกับความแตกต่างนี้ และพวกเขาใช้เวลาส่วนใหญ่กับสูตรตัวอย่างขนาดใหญ่
Sympa

0

เป็นความจริงที่ว่าคุณสมบัติของนักทดสอบที่ถูกแก้ไขของ Welch นั้นดีกว่าแบบทดสอบ T อย่างน้อยสำหรับข้อผิดพลาด ฉันยอมรับว่าเพียงอย่างเดียวเป็นข้อโต้แย้งที่ดีสำหรับการทดสอบ Welch อย่างไรก็ตามฉันมักจะลังเลที่จะแนะนำการแก้ไข Welch เพราะการใช้งานมักเป็นการหลอกลวง ซึ่งเป็นที่ยอมรับไม่ได้เป็นคำวิจารณ์ของการทดสอบตัวเอง

เหตุผลที่ฉันไม่แนะนำให้ใช้การแก้ไข Welch ก็เพราะว่ามันไม่ได้แค่เปลี่ยนองศาอิสระและการกระจายเชิงทฤษฎีในภายหลังซึ่งค่า p ถูกดึงออกมา มันทำให้การทดสอบที่ไม่ใช่พารามิเตอร์ ในการทำการทดสอบ t-test ของ Welch ที่ถูกแก้ไขยังคงมีความแปรปรวนของสระว่ายน้ำราวกับว่าสามารถทำการแปรปรวนเท่ากัน แต่จากนั้นให้เปลี่ยนขั้นตอนการทดสอบขั้นสุดท้ายซึ่งหมายความว่าไม่สามารถสันนิษฐานได้ว่าการแปรปรวนเท่ากันหรือ สิ่งนี้ทำให้เป็นการทดสอบแบบไม่อิงพารามิเตอร์เนื่องจากความแปรปรวนแบบพูลนั้นถือว่าไม่ได้เป็นตัวแทนของประชากรและคุณยอมรับว่าคุณแค่ทดสอบค่าที่สังเกตได้

ในและของตัวเองไม่มีอะไรผิดปกติกับที่ อย่างไรก็ตามฉันพบว่าเป็นการหลอกลวงเพราะก) โดยทั่วไปแล้วจะไม่มีการรายงานที่เฉพาะเจาะจงเพียงพอ; และ b) คนที่ใช้มันมักจะคิดว่ามันสลับกันได้กับการทดสอบ t วิธีเดียวที่ฉันเคยรู้ว่ามันทำในเอกสารที่ตีพิมพ์คือเมื่อฉันเห็น DF แปลก ๆ สำหรับการแจกแจงแบบที นั่นเป็นวิธีเดียวที่ Rexton (อ้างอิงในคำตอบของเฮนริก) สามารถบอกได้ในการทบทวน น่าเสียดายที่ธรรมชาติที่ไม่มีพารามิเตอร์ของการทดสอบที่ถูกแก้ไขของ Welch นั้นเกิดขึ้นไม่ว่าจะมีการเปลี่ยนแปลงองศาอิสระหรือไม่ก็ตาม (เช่นแม้ว่าความแปรปรวนตัวอย่างจะเท่ากัน) แต่ปัญหาการรายงานนี้มีอาการของความจริงที่ว่าคนส่วนใหญ่ที่ใช้การแก้ไข Welch ไม่รู้จักการเปลี่ยนแปลงการทดสอบนี้เกิดขึ้น

ดังนั้นด้วยเหตุนี้ฉันเชื่อว่าหากคุณจะแนะนำการทดสอบที่ไม่ใช่พารามิเตอร์อย่าใช้การทดสอบที่มักจะปรากฏพารามิเตอร์หรืออย่างน้อยก็ชัดเจนเกี่ยวกับสิ่งที่คุณกำลังทำ ชื่อทางการของการทดสอบควรเป็น T-test ที่ถูกต้องแบบพาราเมตริก หากมีคนรายงานว่าวิธีนี้ฉันจะมีความสุขมากขึ้นกับคำแนะนำของเฮนริก


ฉันไม่พบคำตอบที่คุณสนับสนุนเพราะเหตุใดการทดสอบ Welch จึงอาจ "หลอกลวง" คุณสามารถอธิบายพื้นฐานสำหรับสิ่งนั้นได้ไหม
whuber

บางทีการแก้ไขของฉันจะอธิบายสิ่งต่าง ๆ @whuber ฉันควรจะชัดเจนว่ามันไม่รับประกันว่าจะหลอกลวง แต่มักจะเป็นทั้งผู้ใช้ของการทดสอบและผู้อ่านผลการทดสอบ
John

1
ขอขอบคุณ. นอกเหนือจากปัญหาการรายงาน - ซึ่งไม่น่าเป็นไปได้ที่จะระบุว่าเป็นความผิดของการทดสอบ - ดูเหมือนว่าจะมีข้อคัดค้านบางส่วนในส่วนของคุณที่การทดสอบ Welch นั้นไม่ใช่แบบพารามิเตอร์ มีอะไรที่เป็นไปได้ในเรื่องนี้ Ceteris paribusที่จะต้องพิจารณาให้ได้เปรียบไม่ใช่ปัญหา
whuber

1
มันเป็นความแตกต่างที่โดยทั่วไปไม่ชัดเจน ฉันยอมรับในคำตอบที่ไม่ได้อยู่ในตัวของมันเองและเป็นปัญหา แต่คนส่วนใหญ่มักจะปฏิบัติต่อมันแบบพาราเมตริกซึ่งเป็นข้อผิดพลาด ฉันไม่คิดว่าที่นี่เป็นสถานที่ที่จะมีการอภิปรายเกี่ยวกับประโยชน์หรือค่าใช้จ่ายของการทดสอบที่ไม่ใช่พารามิเตอร์ นอกจากนี้ยังไม่ได้กล่าวถึงในหัวข้อและอาจเป็นปัญหาสำหรับคนจำนวนมาก ในฐานะที่เป็นกันชั้นเรียนสถิติอินโทรของเราสองคนสอนควบคู่กับการทดสอบนักเรียนและส่งเสริม แต่มีส่วนที่แยกต่างหากทั้งหมดในการทดสอบที่ไม่ใช่พารามิเตอร์
John

คุณสามารถอธิบายสิ่งที่คุณหมายถึงโดย "ทำให้การทดสอบที่ไม่ใช่พารามิเตอร์"?
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.