ดูเหมือนว่าเมื่อข้อสันนิษฐานของความเป็นเนื้อเดียวกันของความแปรปรวนพบว่าผลลัพธ์จาก Welch ที่ปรับ t-test และ t-test มาตรฐานจะใกล้เคียงกัน ทำไมไม่ใช้ Welch ที่ปรับแล้วเสมอ
ดูเหมือนว่าเมื่อข้อสันนิษฐานของความเป็นเนื้อเดียวกันของความแปรปรวนพบว่าผลลัพธ์จาก Welch ที่ปรับ t-test และ t-test มาตรฐานจะใกล้เคียงกัน ทำไมไม่ใช้ Welch ที่ปรับแล้วเสมอ
คำตอบ:
ฉันต้องการที่จะต่อต้านอีกสองคำตอบขึ้นอยู่กับกระดาษ (เยอรมัน) โดยKubinger, Rasch และ Moder (2009)
พวกเขาโต้แย้งบนพื้นฐานของการ "กระจาย" จากการแจกแจงไม่ว่าจะเป็นการประชุมหรือไม่ตรงตามสมมติฐานที่กำหนดโดย t-test (ความเป็นปกติและความแปรปรวนของความแปรปรวน) ที่เวลช์ - การทดสอบทำได้ดีพอ ๆ กันเมื่อพบกับสมมติฐาน ความน่าจะเป็นของการยอมรับข้อผิดพลาด alpha และเบต้า) แต่มีประสิทธิภาพสูงกว่าการทดสอบ t-test หากสมมติฐานไม่เป็นไปตามโดยเฉพาะอย่างยิ่งในแง่ของพลังงาน ดังนั้นพวกเขาแนะนำให้ใช้การทดสอบการเชื่อมถ้าขนาดตัวอย่างเกิน 30
ในฐานะที่เป็น meta-comment: สำหรับผู้ที่สนใจในสถิติ (เช่นฉันและอาจเป็นอย่างอื่นมากที่สุดที่นี่) การโต้แย้งบนพื้นฐานของข้อมูล (เป็นของฉัน) อย่างน้อยควรนับอย่างเท่าเทียมกันว่าเป็นข้อโต้แย้งโดยยึดตามเหตุผลทางทฤษฎี
อัปเดต:
หลังจากคิดเกี่ยวกับหัวข้อนี้อีกครั้งฉันพบคำแนะนำเพิ่มเติมสองข้อที่ใหม่กว่านี้ช่วยในเรื่องของฉัน ดูเอกสารต้นฉบับ (อย่างน้อยที่สุดก็มีให้ฉันฟรี) สำหรับข้อโต้แย้งที่นำไปสู่ข้อเสนอแนะเหล่านี้
คำแนะนำแรกมาจาก Graeme D. Ruxton ในปี 2549: " ถ้าคุณต้องการเปรียบเทียบแนวโน้มกลางของประชากร 2 กลุ่มจากตัวอย่างของข้อมูลที่ไม่เกี่ยวข้องดังนั้นควรใช้การทดสอบความแปรปรวนที่ไม่เท่ากันเสมอเพื่อทดสอบ t-test ของนักเรียน หรือการทดสอบ Mann-Whitney U. "
ใน:
Ruxton, GD 2006 ไม่เท่ากันแปรปรวน t-test เป็นทางเลือกที่จะป้อแป้นักศึกษา t-test และทดสอบ
Behav Ecol 17, 688–690
คำแนะนำที่สอง (เก่ากว่า) มาจาก Coombs และคณะ (1996, หน้า 148.): " สรุปอิสระทดสอบตัวอย่างทีเป็นที่ยอมรับโดยทั่วไปในแง่ของการควบคุมความคลาดเคลื่อนประเภทที่ให้มีขนาดใหญ่พอตัวอย่างขนาดเท่ากันแม้เมื่อสมมติฐานประชากรแปรปรวนเท่ากับการละเมิด.สำหรับที่ไม่เท่ากัน ตัวอย่างขนาดเล็กอย่างไรก็ตามทางเลือกที่ไม่ถือว่ามีความแปรปรวนของประชากรเท่าเทียมกันเป็นที่นิยมใช้การทดสอบลำดับที่สองของเจมส์เมื่อการแจกแจงเป็นแบบสมมาตรสั้นหรือปกติทางเลือกที่มีแนวโน้ม ได้แก่ Wilcox H และ Yuen ซึ่งหมายถึงการทดสอบ การควบคุมอัตราความผิดพลาด Type I ที่กว้างกว่าการทดสอบ Welch หรือการทดสอบ James และมีพลังอำนาจมากขึ้นเมื่อข้อมูลมีความยาวเป็นพิเศษ (เน้นเพิ่ม)
ใน:
คูมบ์ส WT, Algina เจ Oltman D. 1996 Univariate และหลายตัวแปรรถโดยสารสมมติฐานทดสอบเลือกที่จะควบคุมอัตราความผิดพลาดประเภทที่เมื่อความแปรปรวนประชากรไม่จำเป็นต้องเท่ากัน Rev Educ Res 66: 137–79
แน่นอนว่าใคร ๆ ก็สามารถทำการทดสอบทั้งคู่และเริ่มใช้การทดสอบแบบเบย์ (การทดสอบอัตราส่วนป่าเถื่อน -Deyey) ซึ่งสามารถอธิบายความแปรปรวนที่ไม่เท่ากันและไม่เท่ากัน สมมติฐานว่าง (ซึ่งหมายความว่าไม่มีอีกต่อไป "ไม่สามารถปฏิเสธ" พูดคุย)
การทดสอบนี้ง่ายมาก (และรวดเร็ว) ในการติดตั้งและมีกระดาษที่อธิบายให้ผู้อ่านที่ไม่คุ้นเคยกับสถิติแบบเบย์อย่างชัดเจนถึงวิธีการใช้พร้อมกับสคริปต์ R โดยทั่วไปคุณสามารถแทรกข้อมูลส่งคำสั่งไปยังคอนโซล R:
นอกจากนี้ยังมีบทช่วยสอนทั้งหมดนี้พร้อมข้อมูลตัวอย่าง:
http://www.ruudwetzels.com/index.php?src=SDtest
ฉันรู้ว่านี่ไม่ใช่การตอบสนองโดยตรงกับสิ่งที่ถาม แต่ฉันคิดว่าผู้อ่านอาจสนุกกับการมีทางเลือกที่ดีนี้
ไชโย
เพราะผลลัพธ์ที่แน่นอนจะดีกว่าการประมาณและหลีกเลี่ยงกรณีขอบแปลก ๆ ที่การประมาณอาจนำไปสู่ผลลัพธ์ที่แตกต่างกว่าวิธีที่แน่นอน
วิธี Welch ไม่ใช่วิธีที่รวดเร็วกว่าในการทำแบบทดสอบเก่า ๆ แต่เป็นการประมาณปัญหาที่ยากมากเป็นอย่างมาก: วิธีการสร้างแบบทดสอบ t-t ภายใต้ความแปรปรวนที่ไม่เท่ากัน กรณีความแปรปรวนที่เท่ากันนั้นเป็นที่เข้าใจง่ายและถูกต้องดังนั้นจึงควรใช้เมื่อเป็นไปได้เสมอ
สองเหตุผลที่ฉันนึกถึง:
T ของนักเรียนทั่วไปค่อนข้างแข็งแกร่งต่อความแตกต่างของความแข็งแรงถ้าขนาดตัวอย่างเท่ากัน
ถ้าคุณเชื่อมั่นเบื้องต้นว่าข้อมูลที่เป็น homoscedastic แล้วคุณจะสูญเสียอะไรและอาจได้รับจำนวนเงินขนาดเล็กของการใช้พลังงานโดยใช้ Studen'ts T แทนทีเวลช์
เหตุผลหนึ่งที่ฉันจะไม่ให้คือเสื้อนักเรียนนั้นแน่นอนและเสื้อของ Welch ไม่ใช่ IMHO ความถูกต้องของ T ของนักเรียนเป็นนักวิชาการเพราะมันเป็นเพียงที่แน่นอนสำหรับการกระจายข้อมูลได้ตามปกติและไม่มีข้อมูลที่แท้จริงคือว่าการกระจายตามปกติ ฉันไม่สามารถนึกถึงปริมาณที่ผู้คนวัดและวิเคราะห์ทางสถิติได้จริงซึ่งการกระจายนั้นน่าจะได้รับการสนับสนุนจากจำนวนจริงทั้งหมด ตัวอย่างเช่นมีเพียงอะตอมจำนวนมากในจักรวาลและปริมาณบางอย่างไม่สามารถลบได้ ดังนั้นเมื่อคุณใช้การทดสอบ T แบบใด ๆ กับข้อมูลจริงคุณกำลังทำการประมาณค่า แต่อย่างใด
ความจริงที่ว่าบางสิ่งที่ซับซ้อนมากขึ้นจะช่วยลดความซับซ้อนให้น้อยลงเมื่อตรวจสอบสมมติฐานบางอย่างว่าไม่เพียงพอที่จะทำให้วิธีการที่ง่ายขึ้น
ฉันจะใช้มุมมองตรงข้ามที่นี่ ทำไมต้องกังวลกับการทดสอบ Welch เมื่อการทดสอบนักเรียนแบบไม่มีคู่มาตรฐานให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด ฉันศึกษาเรื่องนี้มาระยะหนึ่งแล้วฉันก็สำรวจสถานการณ์ต่าง ๆ ในความพยายามที่จะทำลายการทดสอบทีและสนับสนุนการทดสอบเวลช์ ในการทำเช่นนั้นฉันใช้ขนาดตัวอย่างสูงกว่าถึง 5 เท่าสำหรับกลุ่มหนึ่งเทียบกับอีกกลุ่มหนึ่ง และฉันสำรวจความแปรปรวนสูงกว่า 25 เท่าสำหรับกลุ่มหนึ่งเทียบกับอีกกลุ่มหนึ่ง และมันก็ไม่ได้สร้างความแตกต่างที่เป็นสาระสำคัญใด ๆ การทดสอบแบบไม่จับคู่ t ยังคงสร้างช่วงของค่า p ที่เกือบจะเหมือนกับการทดสอบ Welch
คุณสามารถดูงานของฉันได้ที่ลิงค์ต่อไปนี้และมุ่งเน้นไปที่สไลด์ 5 และ 6 โดยเฉพาะ
เป็นความจริงที่ว่าคุณสมบัติของนักทดสอบที่ถูกแก้ไขของ Welch นั้นดีกว่าแบบทดสอบ T อย่างน้อยสำหรับข้อผิดพลาด ฉันยอมรับว่าเพียงอย่างเดียวเป็นข้อโต้แย้งที่ดีสำหรับการทดสอบ Welch อย่างไรก็ตามฉันมักจะลังเลที่จะแนะนำการแก้ไข Welch เพราะการใช้งานมักเป็นการหลอกลวง ซึ่งเป็นที่ยอมรับไม่ได้เป็นคำวิจารณ์ของการทดสอบตัวเอง
เหตุผลที่ฉันไม่แนะนำให้ใช้การแก้ไข Welch ก็เพราะว่ามันไม่ได้แค่เปลี่ยนองศาอิสระและการกระจายเชิงทฤษฎีในภายหลังซึ่งค่า p ถูกดึงออกมา มันทำให้การทดสอบที่ไม่ใช่พารามิเตอร์ ในการทำการทดสอบ t-test ของ Welch ที่ถูกแก้ไขยังคงมีความแปรปรวนของสระว่ายน้ำราวกับว่าสามารถทำการแปรปรวนเท่ากัน แต่จากนั้นให้เปลี่ยนขั้นตอนการทดสอบขั้นสุดท้ายซึ่งหมายความว่าไม่สามารถสันนิษฐานได้ว่าการแปรปรวนเท่ากันหรือ สิ่งนี้ทำให้เป็นการทดสอบแบบไม่อิงพารามิเตอร์เนื่องจากความแปรปรวนแบบพูลนั้นถือว่าไม่ได้เป็นตัวแทนของประชากรและคุณยอมรับว่าคุณแค่ทดสอบค่าที่สังเกตได้
ในและของตัวเองไม่มีอะไรผิดปกติกับที่ อย่างไรก็ตามฉันพบว่าเป็นการหลอกลวงเพราะก) โดยทั่วไปแล้วจะไม่มีการรายงานที่เฉพาะเจาะจงเพียงพอ; และ b) คนที่ใช้มันมักจะคิดว่ามันสลับกันได้กับการทดสอบ t วิธีเดียวที่ฉันเคยรู้ว่ามันทำในเอกสารที่ตีพิมพ์คือเมื่อฉันเห็น DF แปลก ๆ สำหรับการแจกแจงแบบที นั่นเป็นวิธีเดียวที่ Rexton (อ้างอิงในคำตอบของเฮนริก) สามารถบอกได้ในการทบทวน น่าเสียดายที่ธรรมชาติที่ไม่มีพารามิเตอร์ของการทดสอบที่ถูกแก้ไขของ Welch นั้นเกิดขึ้นไม่ว่าจะมีการเปลี่ยนแปลงองศาอิสระหรือไม่ก็ตาม (เช่นแม้ว่าความแปรปรวนตัวอย่างจะเท่ากัน) แต่ปัญหาการรายงานนี้มีอาการของความจริงที่ว่าคนส่วนใหญ่ที่ใช้การแก้ไข Welch ไม่รู้จักการเปลี่ยนแปลงการทดสอบนี้เกิดขึ้น
ดังนั้นด้วยเหตุนี้ฉันเชื่อว่าหากคุณจะแนะนำการทดสอบที่ไม่ใช่พารามิเตอร์อย่าใช้การทดสอบที่มักจะปรากฏพารามิเตอร์หรืออย่างน้อยก็ชัดเจนเกี่ยวกับสิ่งที่คุณกำลังทำ ชื่อทางการของการทดสอบควรเป็น T-test ที่ถูกต้องแบบพาราเมตริก หากมีคนรายงานว่าวิธีนี้ฉันจะมีความสุขมากขึ้นกับคำแนะนำของเฮนริก