วิธีเลือกระหว่างการทดสอบ t-test หรือ non-parametric เช่น Wilcoxon ในกลุ่มตัวอย่างขนาดเล็ก


96

สมมติฐานบางอย่างสามารถทดสอบได้โดยใช้นักศึกษาของT -test (อาจจะใช้การแก้ไขเวลช์การแปรปรวนไม่เท่ากันในกรณีที่สองตัวอย่าง) หรือโดยการทดสอบไม่ใช่ตัวแปรเช่น Wilcoxon จับคู่ลงนามในการทดสอบการจัดอันดับการทดสอบ Wilcoxon-Mann-Whitney U, หรือการทดสอบเครื่องหมายจับคู่ เราจะตัดสินใจอย่างมีหลักการเกี่ยวกับการทดสอบใดที่เหมาะสมที่สุดโดยเฉพาะอย่างยิ่งหากขนาดตัวอย่างเป็น "เล็ก"

หลายตำราเบื้องต้นและบันทึกการบรรยายให้ "ผัง" วิธีการที่ปกติมีการตรวจสอบ (อย่างใดอย่างหนึ่ง - inadvisedly - โดยการทดสอบภาวะปกติหรือวงกว้างมากขึ้นโดยพล็อต QQหรือคล้ายกัน) ที่จะตัดสินใจระหว่างT -test หรือการทดสอบไม่ใช่ตัวแปร สำหรับ unpaired สองตัวอย่างT -test อาจจะมีการตรวจสอบต่อไปสำหรับความสม่ำเสมอของความแปรปรวนในการตัดสินใจว่าจะใช้การแก้ไขเวลช์ ปัญหาหนึ่งของวิธีนี้คือวิธีการตัดสินใจที่จะใช้การทดสอบขึ้นอยู่กับข้อมูลที่สังเกตและวิธีการนี้มีผลต่อประสิทธิภาพ (พลังงานอัตราความผิดพลาดประเภทที่ 1) ของการทดสอบที่เลือก

ปัญหาอีกประการหนึ่งคือความยากลำบากในการตรวจสอบมาตรฐานอยู่ในชุดข้อมูลขนาดเล็ก: การทดสอบอย่างเป็นทางการมีพลังงานต่ำดังนั้นการละเมิดอาจไม่ถูกตรวจจับได้ดี แม้การละเมิดที่ร้ายแรงจะไม่สามารถตรวจจับได้เช่นหากมีการกระจายการผสม แต่ไม่มีการสังเกตจากส่วนประกอบหนึ่งของส่วนผสม ซึ่งแตกต่างจากขนาดใหญ่เราไม่สามารถพึ่งพาความปลอดภัยของทฤษฎีขีด จำกัด กลางและบรรทัดฐานเชิงเส้นกำกับของสถิติการทดสอบและการแจกแจงแบบtn

หลักการหนึ่งในการตอบสนองต่อสิ่งนี้คือ "ปลอดภัยไว้ก่อน": ไม่มีทางที่จะพิสูจน์ความน่าเชื่อถือของสมมติฐานในตัวอย่างเล็ก ๆ อีกประการหนึ่งคือการพิจารณาเหตุใด ๆ สมมติว่าปกติในทางทฤษฎี (เช่นตัวแปรคือผลรวมของส่วนประกอบสุ่มหลาย CLT ใช้) หรือสังเกตุ (เช่นการศึกษาก่อนหน้านี้ด้วยขนาดใหญ่แนะนำตัวแปรเป็นเรื่องปกติ) และใช้T -test เฉพาะในกรณีที่พื้นที่ดังกล่าวอยู่ . แต่นี้มักจะมีเพียง justifies ประมาณภาวะปกติและในองศาต่ำของเสรีภาพมันยากที่จะตัดสินว่าใกล้ปกติที่จะต้องมีการหลีกเลี่ยงการไม่ถูกต้องT -testn

คำแนะนำส่วนใหญ่ในการเลือกการทดสอบแบบ t-test หรือ non-parametric ในประเด็นเรื่องภาวะปกติ แต่ตัวอย่างขนาดเล็กก็มีปัญหาด้านข้างเช่นกัน:

  • หากดำเนินการทดสอบตัวอย่างที่ไม่เกี่ยวข้องหรือไม่ใช้การทดสอบ t ว่าจะใช้การแก้ไข Welchหรือไม่ บางคนใช้การทดสอบสมมติฐานเพื่อความเท่าเทียมกันของความแปรปรวน แต่ที่นี่จะมีพลังงานต่ำ คนอื่นตรวจสอบว่า SDs นั้น "สมเหตุสมผล" ปิดหรือไม่ (ตามเกณฑ์ต่าง ๆ ) จะปลอดภัยกว่าหรือไม่ที่จะใช้การแก้ไข Welch สำหรับตัวอย่างเล็ก ๆ เสมอเว้นแต่จะมีเหตุผลที่ดีที่จะเชื่อว่าความแปรปรวนของประชากรเท่ากันหรือไม่

  • ถ้าคุณเห็นทางเลือกของวิธีการเป็นค้าออกระหว่างอำนาจและความทนทานที่อ้างเกี่ยวกับประสิทธิภาพ asymptotic ของวิธีการที่ไม่ใช่ตัวแปรมีความช่วยเหลือ กฎของหัวแม่มือว่า " การทดสอบ Wilcoxon มีอำนาจ 95% ของการทดสอบ t-test หากข้อมูลเป็นเรื่องปกติและมักจะมีประสิทธิภาพมากกว่าถ้าข้อมูลไม่ได้ดังนั้นเพียงแค่ใช้ Wilcoxon" บางครั้งก็ได้ยิน แต่ ถ้า 95% ใช้ได้กับขนาดใหญ่เท่านั้นนี่คือเหตุผลที่สมบูรณ์สำหรับตัวอย่างขนาดเล็กn

  • ตัวอย่างขนาดเล็กอาจทำให้ยากมากหรือเป็นไปไม่ได้ในการประเมินว่าการแปลงเหมาะสมสำหรับข้อมูลหรือไม่เนื่องจากเป็นการยากที่จะบอกว่าข้อมูลที่ถูกแปลงเป็นของการแจกแจงปกติ (เพียงพอ) หรือไม่ ดังนั้นหากพล็อต QQ แสดงข้อมูลที่เบ้ในทางบวกซึ่งดูสมเหตุสมผลกว่าหลังจากการบันทึกมันปลอดภัยไหมที่จะใช้การทดสอบ t-data กับข้อมูลที่บันทึกไว้? ในตัวอย่างที่มีขนาดใหญ่กว่านี้น่าดึงดูดมาก แต่ด้วยเล็ก ๆฉันอาจจะไม่สนใจเว้นแต่จะมีเหตุให้คาดหวังว่าจะมีการแจกแจงล็อกปกติในตอนแรกn

  • สิ่งที่เกี่ยวกับการตรวจสอบสมมติฐานสำหรับ non-parametrics แหล่งข้อมูลบางแห่งแนะนำให้ตรวจสอบการกระจายแบบสมมาตรก่อนที่จะใช้การทดสอบ Wilcoxon (ถือว่าเป็นการทดสอบที่ตั้งมากกว่าการควบคุมแบบสุ่ม) ซึ่งทำให้เกิดปัญหาคล้ายกันในการตรวจสอบความเป็นมาตรฐาน หากเหตุผลที่เราใช้การทดสอบแบบไม่อิงพารามิเตอร์ในตอนแรกคือการเชื่อฟังแบบตาบอดต่อมนต์ของ "ปลอดภัยไว้ก่อน" จากนั้นความยากลำบากในการประเมินความเบ้จากตัวอย่างขนาดเล็กจะนำเราไปสู่การทดสอบสัญญาณที่จับคู่ต่ำลง .

ในใจปัญหาตัวอย่างเล็ก ๆ เหล่านี้มีวิธีที่ดีที่จะกล่าวอ้างในการตัดสินใจเมื่อทำการทดสอบระหว่างtและ non-parametric

มีคำตอบที่ยอดเยี่ยมหลายคำ แต่การตอบสนองเมื่อพิจารณาทางเลือกอื่นในการจัดอันดับการทดสอบเช่นการทดสอบการเรียงสับเปลี่ยน


2
ฉันควรอธิบายว่า "วิธีการเลือกการทดสอบ" แบบไหน - ตำราแนะนำมักจะใช้ผังงาน สำหรับข้อมูลที่ไม่ได้คู่อาจ: "1. ใช้วิธีการบางอย่างเพื่อตรวจสอบว่าตัวอย่างทั้งสองมีการกระจายตามปกติ (ถ้าไม่ไปที่ 3), 2 ใช้วิธีการบางอย่างเพื่อตรวจสอบความแปรปรวนที่ไม่เท่ากัน: ถ้าเป็นเช่นนั้น หากไม่มีการแก้ไขของ Welch ให้ดำเนินการโดยไม่มีการแก้ไข 3. ลองเปลี่ยนข้อมูลให้เป็นมาตรฐาน (ถ้าผลงานเป็น 2 ไปที่ 4) 4. ทำการทดสอบ U แทน (อาจเป็นไปได้หลังจากตรวจสอบสมมติฐานต่าง ๆ ) " แต่ขั้นตอนเหล่านี้ดูเหมือนจะไม่น่าพอใจสำหรับ n ตัวเล็ก ๆ เพราะฉันหวังว่า Q ของฉันจะอธิบาย!
Silverfish

2
คำถามที่น่าสนใจ (+1) และการย้ายที่กล้าหาญเพื่อตั้งค่าความโปรดปราน มองไปข้างหน้าสำหรับคำตอบที่น่าสนใจ โดยวิธีการสิ่งที่ฉันมักจะเห็นการใช้ในสาขาของฉันคือการทดสอบการเปลี่ยนรูป (แทนการทดสอบ t- หรือ Mann-Whitney-Wilcoxon) ฉันคิดว่ามันอาจจะถือว่าเป็นคู่แข่งที่คู่ควรเช่นกัน นอกจากนั้นคุณไม่เคยระบุสิ่งที่คุณหมายถึงโดย "ตัวอย่างขนาดเล็ก"
อะมีบา

1
@Alexis หนังสือหลายเล่มที่อ้างว่าการทดสอบ Wilcoxon ถือว่าสมมาตรเกี่ยวกับค่ามัธยฐานอย่างน้อยถ้าผลลัพธ์ถูกมองว่าเป็นคำแถลงเกี่ยวกับที่ตั้ง (บางคนแนะนำให้เขียนกล่องเพื่อตรวจสอบ: ดูการสนทนาของฉันกับเกล็นเหนือ / คำตอบของ Frank Harrell ด้านล่าง ขั้นตอน) นอกจากนี้บางแหล่งข่าวระบุว่าวิลคอกซัน - แมนน์ - วิทนีย์ยูถือว่าการกระจายกลุ่มแตกต่างกันโดยการแปลเท่านั้น (และแนะนำให้ตรวจสอบด้วยตาเปล่าบนฮิสโตแกรมหรือ CDF เชิงประจักษ์) ซิก การทดสอบของคุณอาจเกิดจากรูปทรงที่แตกต่างกันแม้ว่าค่ามัธยฐานจะเท่ากัน ดูเอกสารที่อ้างถึงในความคิดเห็นภายใต้คำตอบของ Frank Harrell
Silverfish

3
@Silverfish "หากผลลัพธ์ถูกมองว่าเป็นคำแถลงเกี่ยวกับสถานที่" นั่นเป็นข้อแม้ที่สำคัญเนื่องจากการทดสอบเหล่านี้ส่วนใหญ่จะเป็นคำแถลงเกี่ยวกับหลักฐานของ H . การกำหนดสมมติฐานเพิ่มเติมเพื่อกระจายขอบเขตการอนุมานเพิ่มเติม (เช่นการทดสอบเพื่อหาค่ามัธยฐาน) แต่โดยทั่วไปไม่จำเป็นสำหรับการทดสอบ 0:P(XA>XB)=0.5
อเล็กซิส

2
มันอาจจะคุ้มค่าที่จะสำรวจว่า "ข้อบกพร่อง" พลัง "95% สำหรับเหตุผลของ Wilcoxon" นั้นมีไว้สำหรับกลุ่มตัวอย่างขนาดเล็ก (ส่วนหนึ่งขึ้นอยู่กับว่าอะไรคือสิ่งที่ใครทำและมีขนาดเล็กแค่ไหน) ตัวอย่างเช่นหากคุณมีความสุขที่จะทำการทดสอบที่ระดับ 5.5% แทนที่จะเป็น 5% นั่นควรจะเป็นระดับความสำคัญที่เหมาะสมที่สุดที่ใกล้เคียงได้ซึ่งก็มักจะมีกำลังพอสมควร แน่นอนหนึ่งครั้ง - ในช่วง "การคำนวณพลังงาน" ก่อนที่คุณจะรวบรวมข้อมูล - หาสถานการณ์ที่อาจเกิดขึ้นและรับรู้ถึงคุณสมบัติของวิลคอกซันที่ขนาดตัวอย่างที่คุณกำลังพิจารณา
Glen_b

คำตอบ:


67

ฉันจะเปลี่ยนลำดับของคำถามเกี่ยวกับ

ฉันพบหนังสือเรียนและบันทึกการบรรยายไม่เห็นด้วยบ่อยครั้งและต้องการให้ระบบทำงานผ่านทางเลือกที่สามารถแนะนำได้อย่างปลอดภัยว่าเป็นแนวปฏิบัติที่ดีที่สุดและโดยเฉพาะอย่างยิ่งตำราหรือกระดาษที่สามารถอ้างถึงได้

น่าเสียดายที่การอภิปรายบางอย่างของปัญหานี้ในหนังสือและอื่น ๆ ขึ้นอยู่กับภูมิปัญญาที่ได้รับ บางครั้งที่ได้รับภูมิปัญญามีเหตุผลบางครั้งก็น้อยดังนั้น (อย่างน้อยในแง่ที่ว่ามันมีแนวโน้มที่จะมุ่งเน้นไปที่ปัญหาขนาดเล็กเมื่อปัญหาใหญ่จะถูกละเว้น); เราควรตรวจสอบเหตุผลที่เสนอสำหรับคำแนะนำ (หากมีเหตุผลใด ๆ ที่เสนอ) ด้วยความระมัดระวัง

คำแนะนำส่วนใหญ่ในการเลือกการทดสอบแบบ t-test หรือ non-parametric ในประเด็นเรื่องภาวะปกติ

นั่นเป็นเรื่องจริง แต่มันค่อนข้างเข้าใจผิดด้วยเหตุผลหลายประการที่ฉันตอบในคำตอบนี้

หากดำเนินการทดสอบตัวอย่างที่ไม่เกี่ยวข้องหรือไม่ใช้การทดสอบ t ว่าจะใช้การแก้ไข Welch หรือไม่

สิ่งนี้ (เพื่อใช้หากคุณไม่มีเหตุผลที่จะคิดว่าผลต่างควรเท่ากัน) คือคำแนะนำของการอ้างอิงจำนวนมาก ฉันชี้ไปที่คำตอบนี้

บางคนใช้การทดสอบสมมติฐานเพื่อความเท่าเทียมกันของความแปรปรวน แต่ที่นี่จะมีพลังงานต่ำ โดยทั่วไปฉันแค่มองว่าตัวอย่าง SDs นั้น "สมเหตุสมผล" ใกล้หรือไม่ (ซึ่งค่อนข้างเป็นอัตนัยดังนั้นจะต้องมีหลักการที่ดีกว่าในการทำมัน) แต่อีกครั้งด้วย n ต่ำอาจเป็นไปได้ว่า SDs ของประชากรค่อนข้างไกลออกไป นอกเหนือจากตัวอย่าง

จะปลอดภัยกว่าหรือไม่ที่จะใช้การแก้ไข Welch สำหรับตัวอย่างเล็ก ๆ เสมอเว้นแต่จะมีเหตุผลที่ดีที่จะเชื่อว่าความแปรปรวนของประชากรเท่ากันหรือไม่ นั่นคือสิ่งที่คำแนะนำคือ คุณสมบัติของการทดสอบได้รับผลกระทบจากตัวเลือกตามการทดสอบสมมติฐาน

การอ้างอิงบางอย่างเกี่ยวกับเรื่องนี้สามารถเห็นได้ที่นี่และที่นี่ถึงแม้จะมีมากกว่านั้นที่พูดสิ่งที่คล้ายกัน

ปัญหาความแตกต่างที่เท่ากันมีลักษณะคล้ายกับปัญหาปกติ - ผู้คนต้องการทดสอบคำแนะนำแนะนำการเลือกการทดสอบเกี่ยวกับผลการทดสอบอาจส่งผลเสียต่อผลการทดสอบที่ตามมาทั้งสองแบบ - ดีกว่าที่จะไม่คิดว่าอะไร คุณไม่สามารถพิสูจน์ได้อย่างเพียงพอ (โดยการให้เหตุผลเกี่ยวกับข้อมูลโดยใช้ข้อมูลจากการศึกษาอื่น ๆ ที่เกี่ยวข้องกับตัวแปรเดียวกันและอื่น ๆ )

อย่างไรก็ตามมีความแตกต่าง หนึ่งคือ - อย่างน้อยก็ในแง่ของการกระจายตัวของสถิติทดสอบภายใต้สมมติฐานว่าง (และด้วยเหตุนี้ระดับความแข็งแกร่งของมัน) - ไม่ใช่ภาวะปกติมีความสำคัญน้อยกว่าในกลุ่มตัวอย่างขนาดใหญ่ (อย่างน้อยในแง่ของระดับนัยสำคัญแม้ว่าอำนาจอาจ ยังคงเป็นปัญหาหากคุณต้องการค้นหาเอฟเฟกต์ขนาดเล็ก) ในขณะที่ผลกระทบของความแปรปรวนที่ไม่เท่ากันภายใต้สมมติฐานความแปรปรวนที่เท่ากันไม่ได้หายไปกับตัวอย่างขนาดใหญ่

วิธีการแบบใดที่สามารถแนะนำสำหรับการเลือกแบบทดสอบที่เหมาะสมที่สุดเมื่อขนาดตัวอย่างคือ "เล็ก"

ด้วยการทดสอบสมมติฐานสิ่งที่สำคัญ (ภายใต้เงื่อนไขบางอย่าง) เป็นหลักสองสิ่ง:

  • อัตราความผิดพลาดจริงของฉันคืออะไร?

  • พฤติกรรมพลังงานเป็นอย่างไร

เราต้องจำไว้ว่าถ้าเราเปรียบเทียบสองขั้นตอนการเปลี่ยนอันแรกจะเปลี่ยนอันที่สอง (นั่นคือหากพวกเขาไม่ได้ดำเนินการในระดับนัยสำคัญที่แท้จริงเหมือนกันคุณคาดหวังว่าที่สูงกว่านั้นเกี่ยวข้องกับ พลังงานที่สูงขึ้น)α

ด้วยปัญหาตัวอย่างเล็ก ๆ เหล่านี้ในใจมีรายการตรวจสอบที่ดีสำหรับการทำงานเมื่อตัดสินใจระหว่างการทดสอบแบบ t และ non-parametric

ฉันจะพิจารณาหลายสถานการณ์ที่ฉันจะให้คำแนะนำโดยพิจารณาทั้งความเป็นไปได้ของความไม่เป็นมาตรฐานและความแตกต่างที่ไม่เท่ากัน ในทุกกรณีใช้การทดสอบ t-test เพื่อบ่งบอกถึงการทดสอบ Welch:

  • n ขนาดกลาง - ใหญ่

ไม่ปกติ (หรือไม่ทราบ) น่าจะมีความแปรปรวนใกล้เคียงกัน:

ถ้าการกระจายแบบเทลด์หนักคุณมักจะดีกว่ากับแมนน์ - วิทนีย์ถึงแม้ว่ามันจะหนักเพียงเล็กน้อย แต่การทดสอบ t ควรจะโอเค ด้วยหางแสงการทดสอบ t อาจ (มัก) เป็นที่ต้องการ การทดสอบการเปลี่ยนรูปเป็นทางเลือกที่ดี (คุณสามารถทดสอบการเปลี่ยนรูปได้โดยใช้สถิติแบบทีถ้าคุณชอบมาก) การทดสอบ Bootstrap ก็เหมาะสมเช่นกัน

ไม่ปกติ (หรือไม่ทราบ), ความแปรปรวนไม่เท่ากัน (หรือความสัมพันธ์แปรปรวนที่ไม่รู้จัก):

ถ้าการกระจายแบบเทลด์หนักคุณมักจะดีกว่ากับ Mann-Whitney - ถ้าความไม่เท่าเทียมกันของความแปรปรวนเกี่ยวข้องกับความไม่เท่าเทียมของค่าเฉลี่ยเท่านั้น - เช่นถ้า H0 เป็นความจริงความแตกต่างในการแพร่กระจายก็ควรไม่อยู่ GLM มักเป็นตัวเลือกที่ดีโดยเฉพาะอย่างยิ่งหากมีความเบ้และการแพร่กระจายเกี่ยวข้องกับค่าเฉลี่ย การทดสอบการเปลี่ยนรูปเป็นอีกทางเลือกหนึ่งโดยมีข้อแม้ที่คล้ายคลึงกับการทดสอบตามระดับ การทดสอบ Bootstrap เป็นไปได้ที่ดีที่นี่

Zimmerman และ Zumbo (1993)แนะนำ Welch-t-test ในตำแหน่งที่พวกเขากล่าวว่าทำงานได้ดีกว่า Wilcoxon-Mann-Whitney ในกรณีที่ความแปรปรวนไม่เท่ากัน[1]

  • n มีขนาดเล็กปานกลาง

การทดสอบยศเป็นค่าเริ่มต้นที่เหมาะสมที่นี่หากคุณคาดหวังว่าจะไม่ได้มาตรฐาน หากคุณมีข้อมูลภายนอกเกี่ยวกับรูปร่างหรือความแปรปรวนคุณอาจพิจารณา GLM หากคุณคาดหวังว่าสิ่งต่าง ๆ ไม่ควรอยู่ไกลจากปกติการทดสอบเสื้ออาจไม่เป็นผล

  • เล็กมาก

เนื่องจากปัญหาในการรับระดับนัยสำคัญที่เหมาะสมการทดสอบการเปลี่ยนรูปหรือการทดสอบระดับอาจไม่เหมาะสมและในขนาดที่เล็กที่สุดการทดสอบ t อาจเป็นตัวเลือกที่ดีที่สุด (มีความเป็นไปได้ที่จะทำให้มีความแข็งแกร่งเล็กน้อย) อย่างไรก็ตามมีข้อโต้แย้งที่ดีสำหรับการใช้อัตราความผิดพลาดประเภทที่สูงขึ้นกับกลุ่มตัวอย่างขนาดเล็ก (ไม่เช่นนั้นคุณจะปล่อยให้อัตราความผิดพลาด Type II เพิ่มขึ้นในขณะที่ค่าคงที่ประเภทข้อผิดพลาด I คงที่) ดูที่ Winter (2013)ด้วย[2]

คำแนะนำจะต้องได้รับการแก้ไขบ้างเมื่อการแจกแจงมีความเบ้อย่างรุนแรงและไม่ต่อเนื่องกันเช่นรายการมาตราส่วน Likert ซึ่งการสังเกตส่วนใหญ่อยู่ในหมวดหมู่สุดท้าย จากนั้น Wilcoxon-Mann-Whitney ไม่จำเป็นต้องเป็นทางเลือกที่ดีกว่าการทดสอบ t

การจำลองสามารถช่วยแนะนำทางเลือกเพิ่มเติมเมื่อคุณมีข้อมูลบางอย่างเกี่ยวกับสถานการณ์ที่อาจเกิดขึ้น

ฉันขอขอบคุณที่นี่เป็นหัวข้อตลอดกาล แต่คำถามส่วนใหญ่เกี่ยวกับชุดข้อมูลเฉพาะของผู้ถามบางครั้งเป็นการอภิปรายทั่วไปของอำนาจและบางครั้งจะทำอย่างไรถ้าการทดสอบสองครั้งไม่เห็นด้วย แต่ฉันต้องการให้กระบวนการเลือกการทดสอบที่ถูกต้องใน สถานที่แรก!

ปัญหาหลักคือความยากลำบากในการตรวจสอบสมมติฐานปกติในชุดข้อมูลขนาดเล็ก:

มันเป็นเรื่องยากที่จะตรวจสอบปกติในชุดข้อมูลที่มีขนาดเล็กและมีขอบเขตบางอย่างที่เป็นปัญหาสำคัญ แต่ผมคิดว่ามีปัญหาที่มีความสำคัญที่เราต้องพิจารณา ปัญหาพื้นฐานคือการพยายามประเมินความเป็นมาตรฐานเป็นพื้นฐานของการเลือกระหว่างการทดสอบจะส่งผลเสียต่อคุณสมบัติของการทดสอบที่คุณเลือกระหว่าง

การทดสอบอย่างเป็นทางการสำหรับภาวะปกติจะมีพลังงานต่ำดังนั้นการละเมิดอาจไม่ถูกตรวจพบ (โดยส่วนตัวแล้วฉันจะไม่ทดสอบเพื่อจุดประสงค์นี้และฉันไม่ได้อยู่คนเดียวอย่างชัดเจน แต่ฉันพบว่านี่ใช้น้อยเมื่อลูกค้าต้องการทดสอบบรรทัดฐานเพราะนั่นคือสิ่งที่ตำราเรียนหรือบันทึกการบรรยายเก่าหรือเว็บไซต์ที่พวกเขาพบครั้งเดียว ควรแจ้งให้ทราบล่วงหน้านี่เป็นจุดหนึ่งที่จะมีการอ้างอิงที่น่าเชื่อถือยิ่งขึ้น)

นี่คือตัวอย่างของการอ้างอิง (มีอื่น ๆ ) ซึ่งไม่ชัดเจน (Fay และ Proschan, 2010 ):[3]

ทางเลือกระหว่าง t- และ WMW DR ไม่ควรยึดตามการทดสอบตามปกติ

พวกเขามีความชัดเจนในทำนองเดียวกันเกี่ยวกับการไม่ทดสอบความเท่าเทียมกันของความแปรปรวน

เพื่อทำให้เรื่องแย่ลงมันไม่ปลอดภัยที่จะใช้ทฤษฎีขีด จำกัด กลางในฐานะเครือข่ายความปลอดภัย: สำหรับขนาดเล็กเราไม่สามารถเชื่อถือได้จากมาตรฐานเชิงเส้นกำกับที่สะดวกของสถิติการทดสอบและการแจกแจงแบบ t

หรือแม้กระทั่งในกลุ่มตัวอย่างขนาดใหญ่ - ค่าเฉลี่ยเชิงเส้นกำกับของตัวเศษไม่ได้บอกเป็นนัยว่าสถิติเชิงสถิติจะมีการแจกแจงแบบที อย่างไรก็ตามนั่นอาจไม่สำคัญมากนักเนื่องจากคุณยังควรมีมาตรฐานเชิงเส้นกำกับ (เช่น CLT สำหรับตัวเศษและทฤษฎีของ Slutsky แนะนำว่าในที่สุดสถิติสถิติควรเริ่มดูเป็นปกติถ้าเงื่อนไขสำหรับทั้งคู่)

หลักการหนึ่งที่ตอบสนองต่อสิ่งนี้คือ "ปลอดภัยไว้ก่อน": เนื่องจากไม่มีวิธีที่จะตรวจสอบความน่าเชื่อถือของสมมติฐานเชิงบรรทัดฐานในตัวอย่างขนาดเล็กได้

นั่นคือคำแนะนำที่การอ้างอิงที่ฉันพูดถึง (หรือลิงก์ไปยังที่กล่าวถึง) ให้

อีกวิธีหนึ่งที่ฉันเห็น แต่ไม่สบายใจคือทำการตรวจสอบด้วยตาเปล่าและดำเนินการทดสอบ t-test หากไม่พบสิ่งใดที่ไม่ดี ("ไม่มีเหตุผลที่จะปฏิเสธความเป็นปกติ" โดยไม่สนใจพลังงานต่ำของเช็คนี้) ความชอบส่วนบุคคลของฉันคือการพิจารณาว่ามีเหตุผลใด ๆ สำหรับการสมมติบรรทัดฐานทางทฤษฎีหรือไม่ (เช่นตัวแปรคือผลรวมขององค์ประกอบสุ่มหลายรายการและ CLT ใช้) หรือเชิงประจักษ์ (เช่นการศึกษาก่อนหน้านี้ที่มีขนาดใหญ่กว่า

ทั้งคู่เป็นข้อโต้แย้งที่ดีโดยเฉพาะเมื่อสำรองข้อมูลด้วยความจริงที่ว่า t-test นั้นมีความแข็งแกร่งพอสมควรเมื่อเทียบกับค่าเบี่ยงเบนปานกลางจากค่าปกติ (เราควรจำไว้ว่า "การเบี่ยงเบนระดับปานกลาง" เป็นวลีที่ยุ่งยากการเบี่ยงเบนบางอย่างจากภาวะปกติอาจส่งผลกระทบต่อประสิทธิภาพการทำงานของการทดสอบทีค่อนข้างเล็กน้อยแม้ว่าการเบี่ยงเบนเหล่านั้นมีขนาดเล็กมาก การทดสอบนั้นมีความแข็งแกร่งน้อยกว่าการเบี่ยงเบนบางอย่างมากกว่าการทดสอบอื่น ๆ เราควรระลึกไว้เสมอเมื่อใดก็ตามที่เรากำลังพูดถึงการเบี่ยงเบนเล็กน้อยจากภาวะปกติ)

อย่างไรก็ตามระวังให้ใช้ถ้อยคำ "แนะนำตัวแปรเป็นเรื่องปกติ" การมีเหตุผลที่สอดคล้องกับภาวะปกติไม่ใช่สิ่งเดียวกันกับความปกติ เรามักจะปฏิเสธความเป็นจริงที่เกิดขึ้นจริงโดยไม่จำเป็นต้องแม้แต่มองเห็นข้อมูลตัวอย่างเช่นถ้าข้อมูลไม่สามารถลบได้การแจกแจงไม่ปกติ โชคดีที่สิ่งสำคัญอยู่ใกล้กับสิ่งที่เราอาจมีจริงจากการศึกษาก่อนหน้านี้หรือเหตุผลเกี่ยวกับวิธีการประกอบข้อมูลซึ่งก็คือการเบี่ยงเบนจากปกติควรมีขนาดเล็ก

ถ้าเป็นเช่นนั้นฉันจะใช้การทดสอบแบบ t ถ้าข้อมูลผ่านการตรวจสอบด้วยภาพและมิฉะนั้นจะยึดติดกับพารามิเตอร์ที่ไม่ใช่ แต่พื้นที่ทางทฤษฎีหรือเชิงประจักษ์มักจะแสดงให้เห็นถึงการคาดคะเนความปกติโดยประมาณและในระดับที่ต่ำเสรีภาพมันยากที่จะตัดสินว่าใกล้ปกติมันต้องเพื่อหลีกเลี่ยงการทำให้การทดสอบ t

นั่นคือสิ่งที่เราสามารถประเมินผลกระทบของความเป็นธรรมได้อย่างง่ายดาย (เช่นผ่านการจำลองตามที่ฉันได้กล่าวไว้ก่อนหน้านี้) จากสิ่งที่ฉันเห็นความเบ้ดูเหมือนว่าจะมีความสำคัญมากกว่าหางที่มีน้ำหนักมาก (แต่ในทางกลับกันฉันได้เห็นการเรียกร้องของสิ่งที่ตรงกันข้าม - แม้ว่าฉันจะไม่รู้ว่ามันมีพื้นฐานมาจากอะไร)

สำหรับผู้ที่เห็นทางเลือกของวิธีการที่เป็นการแลกเปลี่ยนระหว่างอำนาจและความทนทานการอ้างถึงประสิทธิภาพเชิงซีมโทติคของวิธีการแบบไม่อิงพารามิเตอร์นั้นไม่ช่วยเหลือ ตัวอย่างเช่นกฎง่ายๆที่ "การทดสอบ Wilcoxon มีพลังของการทดสอบ t-test ประมาณ 95% ถ้าข้อมูลเป็นเรื่องปกติจริง ๆ และมักจะมีประสิทธิภาพมากกว่าถ้าข้อมูลไม่ได้ดังนั้นเพียงแค่ใช้ Wilcoxon" บางครั้ง ได้ยิน แต่ถ้า 95% ใช้ได้กับ n ขนาดใหญ่เท่านั้นนี่คือเหตุผลที่มีข้อบกพร่องสำหรับตัวอย่างที่เล็กกว่า

แต่เราสามารถตรวจสอบพลังงานตัวอย่างเล็กน้อยได้อย่างง่ายดาย! มันเป็นเรื่องง่ายมากพอที่จะจำลองเพื่อให้ได้เส้นโค้งอำนาจเป็นที่นี่
(อีกครั้งโปรดดู de Winter (2013) )[2]

หลังจากทำการจำลองสถานการณ์เช่นนี้ในสถานการณ์ต่าง ๆ ทั้งในกรณีที่มีสองตัวอย่างและหนึ่งตัวอย่าง / จับคู่ต่างกันประสิทธิภาพของตัวอย่างขนาดเล็กที่ปกติในทั้งสองกรณีดูเหมือนว่าจะต่ำกว่าประสิทธิภาพเชิงซีโมติก แต่เล็กน้อยประสิทธิภาพ จากอันดับที่ลงนามและการทดสอบ Wilcoxon-Mann-Whitney ยังคงสูงมากแม้ในขนาดตัวอย่างที่เล็กมาก

อย่างน้อยนั่นคือถ้าการทดสอบเสร็จในระดับนัยสำคัญที่แท้จริงเดียวกัน คุณไม่สามารถทำการทดสอบ 5% กับตัวอย่างที่มีขนาดเล็กมาก (และอย่างน้อยก็ไม่ใช่โดยไม่มีการทดสอบแบบสุ่ม) แต่ถ้าคุณเตรียมที่จะทำ (พูด) การทดสอบ 5.5% หรือ 3.2% แทนการทดสอบยศ ถือได้เป็นอย่างดีเมื่อเทียบกับการทดสอบทีในระดับความสำคัญนั้น

ตัวอย่างขนาดเล็กอาจทำให้ยากมากหรือเป็นไปไม่ได้ในการประเมินว่าการแปลงเหมาะสมสำหรับข้อมูลหรือไม่เนื่องจากเป็นการยากที่จะบอกว่าข้อมูลที่ถูกแปลงเป็นของการแจกแจงปกติ (เพียงพอ) หรือไม่ ดังนั้นหากพล็อต QQ แสดงข้อมูลที่เบ้ในทางบวกซึ่งดูสมเหตุสมผลกว่าหลังจากการบันทึกมันปลอดภัยไหมที่จะใช้การทดสอบ t-data กับข้อมูลที่บันทึกไว้? ในตัวอย่างที่มีขนาดใหญ่กว่านี้น่าดึงดูดมาก แต่ด้วย n ตัวเล็ก ๆ ฉันอาจจะไม่สนใจเว้นแต่จะมีเหตุให้คาดหวังว่าจะมีการแจกแจงล็อกปกติในตอนแรก

มีทางเลือกอื่น: สร้างสมมติฐานที่แตกต่างกัน ตัวอย่างเช่นหากมีข้อมูลที่เบ้ตัวอย่างเช่นในบางสถานการณ์อาจพิจารณาการกระจายของแกมม่าหรือตระกูลที่เบ้อื่น ๆ เป็นการประมาณที่ดีกว่า - ในกลุ่มตัวอย่างขนาดใหญ่พอสมควรเราอาจใช้ GLM แต่ในกลุ่มตัวอย่างขนาดเล็กมาก อาจจำเป็นต้องดูการทดสอบตัวอย่างขนาดเล็ก - ในหลายกรณีการจำลองอาจมีประโยชน์

ทางเลือกที่ 2: เพิ่มความแข็งแกร่งให้กับการทดสอบ t-test (แต่การดูแลเกี่ยวกับทางเลือกของกระบวนการที่มีประสิทธิภาพเพื่อที่จะไม่แยกแยะการกระจายตัวของสถิติการทดสอบอย่างหนัก) - สิ่งนี้มีข้อดีกว่ากระบวนการที่ไม่ใช่พารามิเตอร์ขนาดเล็กมากตัวอย่างเช่นความสามารถ เพื่อพิจารณาการทดสอบที่มีอัตราความผิดพลาดต่ำกว่าประเภทที่ 1

ที่นี่ฉันกำลังคิดตามบรรทัดการใช้พูดตัวประมาณค่า M ของตำแหน่ง (และตัวประมาณค่าที่เกี่ยวข้องของมาตราส่วน) ในสถิติ t เพื่อปรับค่าได้อย่างราบรื่นเมื่อเทียบกับส่วนเบี่ยงเบนจากค่าปกติ บางสิ่งบางอย่างคล้ายกับ Welch เช่น:

xySp

โดยที่และ ,ฯลฯ เป็นการประเมินสถานที่และมาตราส่วนตามลำดับSp2=sx2nx+sy2nyxsx

ฉันจะตั้งเป้าหมายที่จะลดแนวโน้มของสถิติให้เหลือน้อยที่สุดดังนั้นฉันจะหลีกเลี่ยงสิ่งต่าง ๆ เช่นการตัดแต่งและ Winsorizing เนื่องจากถ้าข้อมูลต้นฉบับไม่ต่อเนื่องการตัดแต่ง ฯลฯ จะทำให้เรื่องนี้รุนแรงขึ้น โดยใช้วิธีการประมาณค่าชนิด M ด้วยฟังก์ชันราบรื่นคุณจะได้รับเอฟเฟกต์ที่คล้ายกันโดยไม่ทำให้เกิดความแตกต่าง โปรดทราบว่าเรากำลังพยายามจัดการกับสถานการณ์ที่มีขนาดเล็กมากจริง ๆ (ประมาณ 3-5 ในแต่ละตัวอย่างพูด) ดังนั้นแม้การประมาณค่า M อาจมีปัญหาψn

ตัวอย่างเช่นคุณสามารถใช้การจำลองที่ปกติเพื่อรับค่า p (ถ้าขนาดตัวอย่างมีขนาดเล็กมากฉันแนะนำว่า over bootstrapping - หากขนาดตัวอย่างไม่เล็กมาก bootstrap ที่นำมาใช้อย่างระมัดระวังอาจทำได้ค่อนข้างดี แต่จากนั้นเราก็อาจกลับไปที่ Wilcoxon-Mann-Whitney) มีปัจจัยที่ปรับขนาดเช่นเดียวกับการปรับ df เพื่อให้ได้สิ่งที่ฉันคิดว่าจะเป็นการประมาณที่เหมาะสม ซึ่งหมายความว่าเราควรได้รับคุณสมบัติที่เราต้องการใกล้เคียงกับปกติและควรมีความทนทานที่เหมาะสมในบริเวณใกล้เคียงปกติ มีหลายประเด็นที่เกิดขึ้นซึ่งจะอยู่นอกขอบเขตของคำถามปัจจุบัน แต่ฉันคิดว่าในตัวอย่างเล็ก ๆ ผลประโยชน์ควรมีมากกว่าค่าใช้จ่ายและความพยายามพิเศษที่จำเป็น

[ฉันไม่ได้อ่านวรรณกรรมเกี่ยวกับสิ่งนี้เป็นเวลานานมากดังนั้นฉันจึงไม่มีการอ้างอิงที่เหมาะสมที่จะเสนอในคะแนนนั้น]

แน่นอนถ้าคุณไม่คาดหวังว่าการกระจายจะค่อนข้างปกติ แต่คล้ายกับการกระจายตัวอื่น ๆ คุณสามารถทำการทดสอบที่เหมาะสมสำหรับการทดสอบพาราเมตริกที่แตกต่างกันได้

ถ้าคุณต้องการตรวจสอบสมมติฐานสำหรับ non-parametrics แหล่งข้อมูลบางแห่งแนะนำให้ตรวจสอบการกระจายแบบสมมาตรก่อนที่จะใช้การทดสอบ Wilcoxon ซึ่งจะทำให้เกิดปัญหาคล้ายกันในการตรวจสอบความเป็นมาตรฐาน

จริง ฉันถือว่าคุณหมายถึงการทดสอบระดับที่เซ็นชื่อ * ในกรณีที่ใช้งานกับข้อมูลที่จับคู่หากคุณพร้อมที่จะสมมติว่าการแจกแจงสองแบบนั้นมีรูปร่างเดียวกันนอกเหนือจากการเปลี่ยนตำแหน่งคุณจะปลอดภัยเนื่องจากความแตกต่างควรเป็นแบบสมมาตร ที่จริงแล้วเราไม่ต้องการสิ่งนั้นมากนัก สำหรับการทดสอบในการทำงานคุณต้องมีสมมาตรภายใต้ศูนย์ ไม่จำเป็นต้องอยู่ภายใต้ทางเลือกอื่น (เช่นพิจารณาสถานการณ์ที่จับคู่กับการแจกแจงแบบต่อเนื่องที่มีรูปร่างเหมือนกันบิดเบือนในครึ่งเส้นบวกซึ่งเครื่องชั่งแตกต่างกันภายใต้ทางเลือก แต่ไม่ใช่ภายใต้ค่า null; กรณีนั้น) การตีความการทดสอบนั้นง่ายกว่าหากมีการเปลี่ยนตำแหน่ง

* (ชื่อ Wilcoxon มีความสัมพันธ์กับการทดสอบอันดับหนึ่งและสองตัวอย่าง - การจัดอันดับที่ลงนามและผลรวมอันดับด้วยการทดสอบ U ของพวกเขา Mann และ Whitney สรุปสถานการณ์ที่ศึกษาโดย Wilcoxon และแนะนำแนวคิดใหม่ที่สำคัญสำหรับการประเมินการแจกแจงโมฆะ ลำดับความสำคัญระหว่างผู้แต่งสองคนใน Wilcoxon-Mann-Whitney นั้นชัดเจนว่า Wilcoxon - อย่างน้อยถ้าเราพิจารณาเพียงแค่ Wilcoxon กับ Mann & Whitney Wilcoxon จะไปเป็นคนแรกในหนังสือของฉันอย่างไรก็ตามดูเหมือนว่ากฎของ Stigler จะชนะฉันอีกครั้ง ควรแบ่งปันบางส่วนของลำดับความสำคัญนั้นกับผู้ให้ข้อมูลก่อนหน้านี้จำนวนหนึ่งและ (นอกเหนือจากแมนน์และวิทนีย์) ควรแบ่งปันเครดิตกับผู้ค้นพบหลายคนที่มีการทดสอบที่เทียบเท่า [4] [5])

อ้างอิง

[1]: Zimmerman DW และ Zumbo BN, (1993), การ
จัดอันดับการเปลี่ยนแปลงและพลังของนักเรียน t-test และ Welch t′-test สำหรับประชากรที่ไม่ปกติ,
วารสารจิตวิทยาการทดลองของแคนาดา, 47 : 523–39

[2]: JCF de Winter (2013),
"การใช้การทดสอบ t-test ของนักเรียนด้วยขนาดตัวอย่างที่เล็กมาก"
การประเมินการปฏิบัติ, การวิจัยและการประเมินผล , 18 : 10, สิงหาคม, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Michael P. Fay และ Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney หรือ t-test? บนสมมติฐานสำหรับการทดสอบสมมติฐานและการตีความที่หลากหลายของกฎการตัดสินใจ"
Stat Surv ; 4 : 1–39
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW และ Johnston, JE (2012),
"การทดสอบผลรวมอันดับสองตัวอย่าง: การพัฒนาในช่วงต้น"
วารสารอิเล็กทรอนิกส์สำหรับประวัติศาสตร์ความน่าจะเป็นและสถิติ , Vol.8, ธันวาคม
pdf

[5]: Kruskal, WH (1957),
"บันทึกประวัติศาสตร์ในการทดสอบสองตัวอย่างวิลค็อกสันunpaired,"
วารสารสมาคมสถิติอเมริกัน , 52 , 356–360


สองสิ่งที่ฉันต้องการชี้แจง มีหลายจุดที่คุณพูดถึงเช่น "ถ้าการแจกแจงเป็นแบบเทลด์หนัก ... " (หรือเบ้ ฯลฯ ) - น่าจะอ่านได้ว่า "ถ้ามีเหตุผลที่จะถือว่าการแจกแจงจะเทลด์หนัก" (จากทฤษฎี / การศึกษาก่อนหน้า / อะไรก็ตาม) มากกว่า "ถ้าตัวอย่างเป็นแบบเทลด์อย่างหนัก" มิฉะนั้นเราจะกลับมาที่การทดสอบหลายขั้นตอนอีกครั้งซึ่งเป็นสิ่งที่เราพยายามหลีกเลี่ยง? (สำหรับฉันแล้วดูเหมือนว่าประเด็นสำคัญในหัวข้อนี้คือวิธีการปรับความเชื่อหรือข้อสมมติฐานเกี่ยวกับการแจกแจงโดยไม่ต้องอ่านตัวอย่างมากเกินไป)
Silverfish

ใช่ว่าควรเข้าใจว่า "ประชากรเป็นที่รู้กันดีว่ามีประชากรหนาแน่นหรืออาจคาดว่าสมเหตุสมผลที่จะมีน้ำหนักมาก" นั่นรวมถึงสิ่งต่าง ๆ เช่นทฤษฎี (หรือบางครั้งก็มีเหตุผลทั่วไปเกี่ยวกับสถานการณ์ที่ยังไม่ถึงสถานะของทฤษฎี ) ความรู้จากผู้เชี่ยวชาญและการศึกษาก่อนหน้า มันไม่ได้แนะนำให้ทดสอบความหนักเบา ในสถานการณ์ที่ไม่เป็นที่รู้จักก็อาจคุ้มค่าที่จะตรวจสอบว่าสิ่งเลวร้ายอาจอยู่ภายใต้การแจกแจงที่หลากหลายซึ่งอาจเป็นไปได้สำหรับสถานการณ์เฉพาะที่คุณมี
Glen_b

โอกาสใด ๆ ที่คำตอบที่ยอดเยี่ยมนี้สามารถรวมรายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับตัวเลือกที่อาจจะ "เพิ่มประสิทธิภาพ" การทดสอบ t?
Silverfish

Silverfish - ฉันไม่แน่ใจว่าฉันตอบคำถามของคุณอย่างเพียงพอเพื่อขอรายละเอียดเกี่ยวกับการทำให้เป็นจริงหรือไม่ ฉันจะเพิ่มอีกเล็กน้อยในขณะนี้
Glen_b

ขอบคุณมากสำหรับการเพิ่มฉันคิดว่ามันเพิ่มคุณภาพของคำตอบนี้เป็นอย่างมาก ตอนนี้คำถามนี้ได้รับการแก้ไขเล็กน้อยและสร้างชุดของการตอบสนองที่ดีฉันต้องการที่จะให้คำถามต้นฉบับที่ดีคัดลอกแก้ไขและลบสิ่งที่อาจทำให้เข้าใจผิด (เพื่อประโยชน์ของผู้อ่านที่ไม่ได้อ่านที่ผ่านมา คำถาม!). มันไม่เป็นไรเมื่อฉันทำเช่นนั้นสำหรับฉันที่จะแก้ไขคำตอบของคุณที่เหมาะสมเพื่อให้คำพูดตรงกับคำถามที่จัดใหม่?
Silverfish

22

ในมุมมองของฉันแนวทางหลักการตระหนักดีว่า (1) การทดสอบและการประเมินผลกราฟิกของภาวะปกติมีความไวไม่เพียงพอและการตีความกราฟมักไม่ได้มีวัตถุประสงค์ (2) กระบวนการหลายขั้นตอนมีลักษณะการดำเนินงานที่ไม่แน่นอน (3) ภายใต้สถานการณ์ที่การทดสอบพารามิเตอร์มีพลังงานที่เหมาะสมและ (4) การเปลี่ยนแปลงที่เหมาะสมของไม่ได้เป็นฟังก์ชั่นระบุตัวตนและไม่ใช่พารามิเตอร์k t PYk- การทดสอบตัวอย่างไม่เปลี่ยนแปลงกับการแปลงที่เลือก (ไม่ใช่สำหรับการทดสอบตัวอย่างเดียวเช่นการทดสอบยศ Wilcoxon ที่ลงนาม) เกี่ยวกับ (2) กระบวนการหลายขั้นตอนเป็นปัญหาโดยเฉพาะอย่างยิ่งในด้านต่าง ๆ เช่นการพัฒนายาที่หน่วยงานกำกับดูแลเช่น FDA มีความกังวลอย่างถูกต้องเกี่ยวกับการจัดการผลที่เป็นไปได้ ตัวอย่างเช่นนักวิจัยที่ไร้ยางอายอาจลืมรายงานการทดสอบความสะดวกสบายได้อย่างสะดวกสบายหากผลการทดสอบ -test มีค่าต่ำtP

การนำทั้งหมดนี้มารวมกันบางแนวทางที่แนะนำมีดังนี้:

  1. หากไม่มีเหตุผลที่น่าสนใจที่จะสมมติว่ามีการแจกแจงแบบเกาส์ก่อนที่จะตรวจสอบข้อมูลและไม่จำเป็นต้องทำการปรับค่าความแปรปรวนร่วมให้ใช้การทดสอบแบบไม่มีพารามิเตอร์
  2. หากจำเป็นต้องปรับค่าความแปรปรวนร่วมให้ใช้การวางนัยทั่วไปแบบกึ่งถดถอยของการทดสอบระดับที่คุณต้องการ สำหรับการทดสอบ Wilcoxon นี่เป็นรูปแบบอัตราต่อรองแบบสัดส่วนและสำหรับการทดสอบคะแนนปกตินี่คือการถดถอยตามลำดับแบบโปรบิต

คำแนะนำเหล่านี้ค่อนข้างทั่วไปแม้ว่าระยะทางของคุณอาจแตกต่างกันไปสำหรับตัวอย่างขนาดเล็กบางขนาด แต่เรารู้ว่าสำหรับตัวอย่างขนาดใหญ่ประสิทธิภาพเชิงสัมพัทธ์ของการทดสอบ Wilcoxon 2-sample และการทดสอบระดับที่มีการเซ็นชื่อเทียบกับ -test (หากความแปรปรวนที่เท่ากันมีอยู่ในกรณีตัวอย่าง 2- ตัวอย่าง) คือและ ประสิทธิภาพเชิงสัมพัทธ์ของการทดสอบอันดับมักมากกว่า 1.0 เมื่อการแจกแจงแบบเกาส์ไม่ถือ สำหรับฉันแล้วการสูญเสียข้อมูลในการใช้การทดสอบระดับน้อยมากเมื่อเทียบกับผลกำไรความแข็งแกร่งและอิสระจากการระบุการเปลี่ยนแปลงของไปได้3t Y3πY

การทดสอบแบบไม่มีพารามิเตอร์สามารถทำงานได้ดีแม้ว่าสมมติฐานในแง่ดีของพวกเขาจะไม่พอใจ สำหรับปัญหาตัวอย่าง -test การจัดอันดับไม่ได้ตั้งสมมติฐานเกี่ยวกับการแจกแจงสำหรับกลุ่มที่กำหนด พวกเขาตั้งสมมติฐานว่าการกระจายตัวของกลุ่มนั้นเชื่อมโยงกันอย่างไรถ้าคุณต้องการให้การทดสอบนั้นดีที่สุด สำหรับ a link แบบจำลองความน่าจะเป็นแบบสะสมการแจกแจงจะถือว่าเป็นอันตรายตามสัดส่วน สำหรับโมเดลความน่าจะเป็นแบบสะสมของ logit link (model odds ตามสัดส่วน) การแจกแจงจะถูกเชื่อมต่อโดยสมมติฐานที่ได้สัดส่วน: นั่นคือการบันทึกของฟังก์ชันการแจกแจงสะสมจะขนานกัน รูปร่างของการแจกแจงอย่างใดอย่างหนึ่งไม่เกี่ยวข้อง รายละเอียดอาจพบได้ในk - บันทึก- บันทึกkklogloghttp://biostat.mc.vanderbilt.edu/CourseBios330ในบทที่ 15 ของเอกสารประกอบคำบรรยาย

สมมติฐานสองประเภทของวิธีการทางสถิติที่ใช้บ่อยซึ่งได้รับการพิจารณาบ่อยครั้ง ข้อแรกคือข้อสมมติฐานที่จำเป็นในการสร้างวิธีการรักษาข้อผิดพลาดประเภทที่ 1 ข้อที่สองเกี่ยวข้องกับการรักษาข้อผิดพลาด type II (optimality; sensitivity) ฉันเชื่อว่าวิธีที่ดีที่สุดในการเปิดเผยสมมติฐานที่จำเป็นสำหรับการทดสอบครั้งที่สองคือการทดสอบแบบไม่มีพารามิเตอร์ในรูปแบบเซมาราเมทริกตามที่ได้กล่าวไว้ข้างต้น การเชื่อมต่อที่แท้จริงระหว่างสองเกิดจากการทดสอบคะแนน Rao ที่มีประสิทธิภาพที่เกิดขึ้นจากรูปแบบ semiparametric ตัวเศษของการทดสอบคะแนนจากโมเดลอัตราต่อรองสำหรับกรณีสองตัวอย่างนั้นเป็นสถิติผลรวมอันดับ


1
ขอบคุณสำหรับสิ่งนี้ฉันรู้สึกเห็นอกเห็นใจต่อปรัชญาของคำตอบนี้มากตัวอย่างเช่นมีแหล่งข้อมูลจำนวนมากแนะนำให้ฉันอย่างน้อยก็ควรตรวจสอบข้อมูลลูกตาเพื่อความเป็นปกติก่อนตัดสินใจทำการทดสอบ แต่ขั้นตอนแบบหลายขั้นตอนแบบนี้ชัดเจนแม้ว่าจะมีผลต่อการทดสอบ
Silverfish

1
ข้อความค้นหาบางส่วน: (1) สมมติว่ามีเหตุผลที่ดีที่จะสมมติการแจกแจงแบบเกาส์เป็นเบื้องต้น (เช่นการศึกษาก่อนหน้า) ดังนั้นเราจึงชอบการทดสอบ t สำหรับขนาดเล็กไม่มีประเด็นที่จะพยายามประเมินความเป็นบรรทัดฐาน - ไม่มีทางที่จะตรวจพบการละเมิด แต่สำหรับหรือมากกว่านั้นพล็อต QQ อาจปรากฏขึ้นได้เช่นหากมีความเบ้รุนแรง ปรัชญาของการหลีกเลี่ยงขั้นตอนหลายขั้นตอนนั้นหมายความว่าเราควรพิสูจน์สมมติฐานเชิงบรรทัดฐานของเราแล้วดำเนินการต่อโดยไม่ตรวจสอบการกระจายข้อมูลของเราอย่างชัดเจนหรือไม่? ในกรณีตัวอย่างkเราควรสมมติความแปรปรวนที่ไม่เท่ากันโดยปริยายแทนที่จะลองตรวจสอบหรือไม่ n = 15nn=15
Silverfish

3
(+1) ฉันสงสัยว่าอะไรคือสิ่งที่คุณใช้ในการทดสอบการเปลี่ยนแปลงกับ Mann-Whitney-Wilcoxon (ฉันหมายถึงการทดสอบการเปลี่ยนแปลงแบบ Monte Carlo เมื่อฉลากกลุ่มถูกสับเช่นครั้งและคำนวณโดยตรง จำนวนของ shuffles ทำให้เกิดความแตกต่างของกลุ่มใหญ่กว่า) หน้า10000p
อะมีบา

4
การทดสอบการเรียงสับเปลี่ยนเป็นวิธีในการควบคุมข้อผิดพลาดประเภท I แต่ไม่ได้ระบุประเภทข้อผิดพลาด II การทดสอบการเปลี่ยนรูปตามสถิติย่อย (เช่นค่าเฉลี่ยและความแปรปรวนเมื่อข้อมูลมาจากการแจกแจงแบบเกาส์ - เกาส์) จะได้รับพลังงาน
Frank Harrell

3
ใช่บทที่ 15 ในเอกสารประกอบคำบรรยายจะขยายออกเป็นบทใหม่ในหนังสือฉบับที่ 2 ที่กำลังจะมาถึงซึ่งฉันจะส่งให้กับสำนักพิมพ์ในเดือนหน้า
Frank Harrell

13

Rand Wilcox ในสิ่งพิมพ์และหนังสือของเขาทำประเด็นสำคัญบางอย่างซึ่งหลายรายการถูกระบุโดย Frank Harrell และ Glen_b ในโพสต์ก่อนหน้า

  1. ค่าเฉลี่ยไม่จำเป็นต้องเป็นปริมาณที่เราต้องการอ้างถึง อาจมีปริมาณอื่น ๆ ที่ดีกว่าการเป็นแบบอย่างการสังเกตทั่วไป
  2. สำหรับการทดสอบแบบ t กำลังไฟต่ำแม้สำหรับการออกเดินทางเล็กน้อยจากปกติ
  3. สำหรับการทดสอบแบบ t การทดสอบความน่าจะเป็นที่สังเกตได้นั้นอาจแตกต่างจากเล็กน้อย

ข้อเสนอแนะสำคัญคือ:

  1. ทางเลือกที่แข็งแกร่งคือการเปรียบเทียบวิธีการที่ถูกตัดหรือเครื่องคิดเลข M โดยใช้การทดสอบ t Wilcox แนะนำวิธีการลด 20%
  2. วิธีการทดลองเชิงประจักษ์นั้นมีประโยชน์มากกว่าในทางทฤษฎี ( Owen, 2001 ) แต่ไม่จำเป็นต้องเป็นเช่นนั้นสำหรับ n ถึงปานกลางถึง n
  3. การทดสอบการเรียงสับเปลี่ยนเป็นสิ่งที่ดีหากต้องการควบคุมข้อผิดพลาด Type I แต่ไม่สามารถรับ CI ได้
  4. สำหรับหลาย ๆ สถานการณ์ Wilcox เสนอ bootstrap-t เพื่อเปรียบเทียบวิธีการที่ถูกตัด ใน R สิ่งนี้ถูกนำไปใช้ในฟังก์ชันyuenbt , yhbtในแพ็คเกจWRS
  5. เปอร์เซ็นไทล์บูตสแตรปอาจจะดีกว่าเปอร์เซ็นไทล์เมื่อปริมาณของการตัดมีค่า> / = 20% ใน R จะมีการใช้งานในฟังก์ชันpb2genในแพ็คเกจWRSดังกล่าว

ข้ออ้างอิงที่ดีสองข้อคือ Wilcox ( 2010 ) และ Wilcox ( 2012 )


8

แบรดลีย์ในงานทดสอบสถิติการแจกฟรี (1968, pp. 17–24)นำความแตกต่างสิบสามข้อระหว่างสิ่งที่เขาเรียกว่าการทดสอบแบบ "คลาสสิค" และ "การแจกฟรี" โปรดทราบว่าแบรดลีย์สร้างความแตกต่างระหว่าง "ไม่มีพารามิเตอร์" และ "แจกฟรี"แต่สำหรับวัตถุประสงค์ของคำถามของคุณความแตกต่างนี้ไม่เกี่ยวข้อง สิ่งที่รวมอยู่ในสิบสามนั้นเป็นองค์ประกอบที่ไม่เพียง แต่เกี่ยวข้องกับการทดสอบ แต่รวมถึงการใช้งาน เหล่านี้รวมถึง:

  • การเลือกระดับความสำคัญ:การทดสอบแบบดั้งเดิมมีระดับความสำคัญต่อเนื่อง การทดสอบที่ไม่มีการแจกแจงมักจะมีการสังเกตอย่างไม่ต่อเนื่องของระดับนัยสำคัญดังนั้นการทดสอบแบบดั้งเดิมให้ความยืดหยุ่นมากขึ้นในการตั้งค่าระดับดังกล่าว
  • ความถูกต้องเชิงตรรกะของเขตการปฏิเสธ: พื้นที่การปฏิเสธการทดสอบที่ไม่มีการแจกจ่ายสามารถเข้าใจได้ง่ายกว่า (ไม่จำเป็นต้องราบรื่นหรือต่อเนื่อง) และอาจทำให้เกิดความสับสนว่าการทดสอบนั้นควรปฏิเสธสมมติฐานว่าง
  • ประเภทของสถิติที่สามารถทดสอบได้:เพื่ออ้างถึงแบรดลีย์โดยตรง: " สถิติที่กำหนดในแง่ของการดำเนินการเกี่ยวกับคณิตศาสตร์เมื่อสังเกตขนาดสามารถทดสอบได้ด้วยเทคนิคแบบดั้งเดิมซึ่ง wheras เหล่านั้นกำหนดโดยความสัมพันธ์คำสั่ง (อันดับ) หรือหมวดหมู่ความถี่ ฯลฯ วิธีการแจกฟรีวิธีและความแปรปรวนเป็นตัวอย่างของอดีตและค่ามัธยฐานและค่าพิสัยระหว่างควอไทล์ของยุคหลัง "โดยเฉพาะอย่างยิ่งเมื่อต้องรับมือกับการแจกแจงแบบไม่ปกติความสามารถในการทดสอบสถิติอื่น ๆ จะมีค่า .
  • ความสามารถในการทดสอบของการโต้ตอบที่มีลำดับสูงกว่า:ง่ายกว่าภายใต้การทดสอบแบบดั้งเดิมมากกว่าการทดสอบแบบกระจาย
  • อิทธิพลของขนาดตัวอย่าง:นี่เป็นสิ่งสำคัญในความคิดของฉัน เมื่อขนาดตัวอย่างมีขนาดเล็ก (แบรดลีย์บอกว่าประมาณ n = 10) มันอาจเป็นเรื่องยากมากที่จะตรวจสอบว่าสมมติฐานที่อิงจากการทดสอบแบบดั้งเดิมถูกละเมิดหรือไม่ การทดสอบแบบกระจายไม่มีข้อสันนิษฐานเหล่านี้ที่จะถูกละเมิด ยิ่งกว่านั้นแม้ว่าเมื่อสมมติฐานไม่ได้ถูกละเมิดการทดสอบแบบกระจายก็มักจะใช้งานง่ายและมีประสิทธิภาพเกือบเท่าการทดสอบ ดังนั้นสำหรับตัวอย่างขนาดเล็ก (น้อยกว่า 10 มีความเป็นไปได้มากถึง 30) แบรดลีย์สนับสนุนการทดสอบที่ไม่มีการแจกแจงเป็นประจำ สำหรับตัวอย่างขนาดใหญ่ทฤษฎีขีด จำกัด กลางมีแนวโน้มที่จะครอบงำการละเมิดพารามิเตอร์ซึ่งค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างจะมีแนวโน้มที่จะเป็นปกติและการทดสอบพาราเมตริกอาจเหนือกว่าในแง่ของประสิทธิภาพ
  • ขอบเขตของการใช้:โดยปราศจากการแจกแจงการทดสอบดังกล่าวสามารถใช้กับกลุ่มประชากรที่มีขนาดใหญ่กว่าการทดสอบแบบดั้งเดิมที่สมมติว่ามีการแจกแจงแบบเฉพาะ
  • ความสามารถในการตรวจจับการละเมิดข้อสันนิษฐานของการแจกแจงแบบต่อเนื่อง:ง่ายต่อการมองเห็นในการทดสอบที่ไม่มีการแจกแจง
  • ผลของการละเมิดข้อสันนิษฐานของการกระจายอย่างต่อเนื่อง:หากการสันนิษฐานถูกละเมิดการทดสอบจะไม่แน่นอน แบรดลีย์ใช้เวลาอธิบายว่าขอบเขตของความไม่แน่นอนนั้นสามารถประมาณค่าได้สำหรับการทดสอบแบบกระจาย แต่ไม่มีวิธีการทดสอบแบบดั้งเดิมที่คล้ายคลึงกัน

1
ขอบคุณสำหรับการอ้างอิง! งานของแบรดลีย์ดูเหมือนจะค่อนข้างเก่าดังนั้นฉันสงสัยว่ามันจะไม่ได้ผลมากนักในการศึกษาการจำลองสถานการณ์สมัยใหม่เพื่อเปรียบเทียบประสิทธิภาพและอัตราความผิดพลาด Type I / II ในสถานการณ์ต่าง ๆ ? ฉันยังสนใจในสิ่งที่เขาแนะนำเกี่ยวกับการทดสอบ Brunner-Munzel - ควรใช้แทนการทดสอบ U หรือไม่หากความแปรปรวนของทั้งสองกลุ่มไม่เท่ากัน?
Silverfish

1
แบรดลีย์พูดคุยเกี่ยวกับประสิทธิภาพแม้ว่าส่วนใหญ่จะอยู่ในบริบทของประสิทธิภาพเชิงสัมพัทธ์ บางครั้งเขานำแหล่งข้อมูลมาเพื่อแถลงการณ์เกี่ยวกับประสิทธิภาพของขนาดตัวอย่างที่ จำกัด แต่เนื่องจากงานดังกล่าวมาจากปี 1968 ฉันจึงมั่นใจว่าการวิเคราะห์ที่ดีขึ้นนั้นได้ดำเนินการมาแล้วตั้งแต่นั้นมา ถ้าฉันพูดถูก Brunner และ Munzel เขียนบทความของพวกเขาในปี 2000ซึ่งอธิบายว่าทำไมไม่มีการกล่าวถึงใน Bradley
Avraham

ใช่ว่าจะอธิบายอย่างแน่นอน! :) คุณรู้หรือไม่ว่ามีการสำรวจล่าสุดมากกว่าแบรดลีย์หรือไม่?
Silverfish

การค้นหาสั้น ๆ แสดงให้เห็นว่ามีข้อความล่าสุดจำนวนมากเกี่ยวกับสถิติที่ไม่ใช่พารามิเตอร์ ตัวอย่างเช่น: วิธีการทางสถิติแบบไม่อิงพารามิเตอร์ (Hollander และคณะ, 2013), การทดสอบสมมติฐานแบบไม่อิงพารามิเตอร์: อันดับและวิธีการเรียงสับเปลี่ยนกับแอปพลิเคชันใน R (Bonnini et al, 2014), การอนุมานทางสถิติแบบไม่อิงพารามิเตอร์รุ่นที่ห้า มีคนอื่นอีกหลายคนที่เกิดขึ้นในการค้นหาที่แตกต่างกัน ฉันไม่มีข้อแนะนำใด ๆ ขอโทษ
Avraham

5

เริ่มตอบคำถามที่น่าสนใจนี้

สำหรับข้อมูลที่ไม่ได้จับคู่:

ประสิทธิภาพของการทดสอบตำแหน่งสองตัวอย่างห้าครั้งสำหรับการแจกแจงแบบเบ้ด้วยความแปรปรวนที่ไม่เท่ากันโดย Morten W. Fagerland, Leiv Sandvik (ด้านหลัง paywall) ทำการทดลองหลายชุดด้วยการทดสอบ 5 แบบ (การทดสอบที, Welch U, Yuen-Welch, Wilcoxon-Mann -Whitney และ Brunner-Munzel) สำหรับการรวมกันของขนาดตัวอย่างอัตราส่วนตัวอย่างที่แตกต่างกันตามปกติและอื่น ๆ ท้ายที่สุดกระดาษแนะนำ Welch U โดยทั่วไป

แต่ภาคผนวก A ของกระดาษจะแสดงรายการผลลัพธ์สำหรับขนาดตัวอย่างแต่ละชุด และสำหรับกลุ่มตัวอย่างขนาดเล็ก (m = 10 n = 10 หรือ 25) ผลลัพธ์มีความสับสนมากขึ้น (ตามที่คาดไว้) - ในการประเมินผลลัพธ์ของฉัน (ไม่ใช่ของผู้เขียน) Welch U, Brunner-Munzel การทดสอบ t ทำได้ดีใน m = 10 และ n = 10

นี่คือสิ่งที่ฉันรู้

สำหรับวิธีการแก้ปัญหา "เร็ว" ฉันใช้เพื่ออ้างถึงการเพิ่มความตระหนักของแพทย์เกี่ยวกับผลกระทบของสถิติที่มีต่อผลการวิจัย: พลังเปรียบเทียบของการทดสอบ t-test และการทดสอบอันดับวิลคอกซันในการทดสอบประยุกต์ขนาดเล็ก (เช่นเดียวกับด้านหลัง paywall) และตรงไปที่ Wilcoxon ไม่ว่าขนาดตัวอย่างจะเป็นอะไรก็ตาม แต่ตัวบอกข้อแม้นั้นเราควรเลือกการทดสอบแบบไม่มีพารามิเตอร์เมื่อเปรียบเทียบการแจกแจงแบบไม่ปกติสองแบบหรือไม่ โดย Eva Skovlund และ Grete U. Fensta

ฉันยังไม่พบผลลัพธ์ที่คล้ายกันสำหรับข้อมูลที่จับคู่


ฉันขอขอบคุณการอ้างอิง! สำหรับคำชี้แจงคือ "Welch U" ที่ถูกอ้างถึงการทดสอบเดียวกันที่รู้จักกันในชื่อ "Welch t" หรือ "Welch-Aspin t" หรือ (อย่างที่ฉันอาจเรียกได้ว่าไม่เหมาะสมในคำถาม) "ทดสอบกับ Welch correction" ?
Silverfish

เท่าที่ฉันเข้าใจจากกระดาษ Welch U ไม่ใช่ Welch-Aspin ปกติ - มันไม่ได้ใช้สมการ Welch – Satterthwaite สำหรับดีกรีอิสระ แต่สูตรที่มีความแตกต่างของลูกบาศก์และสแควร์ของตัวอย่าง ขนาด.
Jacques Wainer

มันยังคงเป็น t-test แม้ว่าจะมีชื่อหรือไม่ ทุกที่อื่นฉันค้นหา "Welch U" ฉันดูเหมือนจะพบว่ามันหมายถึง Welch-Aspin ซึ่งเป็นที่น่าผิดหวัง
Silverfish

3

พิจารณาลิงค์ต่อไปนี้:

การทดสอบตามปกติคือ 'ไร้ประโยชน์เป็นหลัก' หรือไม่?

ความต้องการและวิธีที่ดีที่สุดในการกำหนดความปกติของข้อมูล

เพื่อลดความซับซ้อนของสิ่งต่าง ๆ เนื่องจากการทดสอบแบบไม่มีพารามิเตอร์นั้นดีพอสำหรับข้อมูลปกติทำไมไม่ลองใช้มันสำหรับกลุ่มตัวอย่างขนาดเล็กเสมอไป


1

การจำลองความแตกต่างของค่าเฉลี่ยของประชากรแกมมา

เปรียบเทียบการทดสอบ t-test กับการทดสอบ Mann Whitney

สรุปผล

  • เมื่อความแปรปรวนของประชากรทั้งสองเหมือนกันการทดสอบแมนน์วิตนีย์มีพลังที่แท้จริงมากกว่า แต่ยังมีข้อผิดพลาดประเภท 1 ที่แท้จริงมากกว่าการทดสอบที
  • สำหรับตัวอย่างขนาดใหญ่ N = 1,000 ข้อผิดพลาดจริงขั้นต่ำประเภท 1 สำหรับการทดสอบ Mann Whitney คือ 9% ในขณะที่การทดสอบ t มีประเภท 1 จริง 5% ตามที่กำหนดไว้ในการตั้งค่าการทดสอบ (ปฏิเสธสำหรับค่า p ต่ำกว่า 5%)H0
  • เมื่อความแปรปรวนของประชากรสองคนแตกต่างกันการทดสอบแมนน์วิทนีย์จะนำไปสู่ข้อผิดพลาดประเภท 1 ที่มีขนาดใหญ่แม้เมื่อค่าเฉลี่ยเท่ากัน สิ่งนี้คาดว่าจะเกิดขึ้นเนื่องจากการทดสอบ Mann Whitney สำหรับความแตกต่างของการแจกแจงไม่ใช่วิธีการ
  • การทดสอบ t นั้นแข็งแกร่งต่อความแตกต่างของความแปรปรวน แต่วิธีการที่เหมือนกัน

การทดลอง 1) วิธีที่แตกต่างความแปรปรวนเดียวกัน

พิจารณาการแจกแจงแกมม่าสองครั้งโดยใช้พารามิเตอร์ k (รูปร่าง) และมาตราส่วนพร้อมพารามิเตอร์θ

  • X1 : แกมม่าที่มีและดังนั้นหมายถึงและความแปรปรวนk=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2 : แกมม่าที่มีและและความแปรปรวนk=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

เราจะได้รับการทดสอบสำหรับความแตกต่างในวิธีการของตัวอย่างจากและX_2ที่นี่การตั้งค่าถูกเลือกเพื่อให้และมีความแปรปรวนเดียวกันดังนั้นระยะทางโคเฮนที่แท้จริงคือ 0.5X1X2X1X2

d=(.85.5)/.5=0.5

เราจะเปรียบเทียบวิธีการทดสอบสองวิธี: สองตัวอย่าง t-test และ Mann Whitney ไม่ใช่การทดสอบแบบพารามิเตอร์และจำลอง Type I และ Power ที่แท้จริงของการทดสอบเหล่านี้สำหรับขนาดตัวอย่างที่แตกต่างกัน (สมมติว่าเราปฏิเสธสมมติฐานว่างสำหรับค่า <0.05)p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

ประเภทที่ 1 ข้อผิดพลาดจริงจะถูกคำนวณเป็น:และพลังที่แท้จริงจะถูกคำนวณเป็น:H_1) เราจำลองการทดสอบหลายพันรายการโดยใช้การแจกแจงที่แท้จริงของและP(reject|H0)P(reject|H1)H0H1

แหล่งที่มา:

การกระจายประชากร

ป้อนคำอธิบายรูปภาพที่นี่

ผลการจำลอง

ป้อนคำอธิบายรูปภาพที่นี่

อภิปรายผล

  • ตามปกติแล้วค่าเฉลี่ยตัวอย่างจะไม่ได้รับการแจกแจงสำหรับขนาดตัวอย่างขนาดเล็ก ( ) ตามที่แสดงโดยการแจกแจงความเบ้และความโด่ง สำหรับขนาดตัวอย่างที่ใหญ่กว่าการแจกแจงเป็นเรื่องปกติN=10
  • สำหรับตัวอย่างทุกขนาดการทดสอบ Mann Whitney มีพลังมากกว่าการทดสอบ t และในบางกรณีอาจมี 2
  • สำหรับทุกขนาดตัวอย่างการทดสอบ Mann Whitney มีข้อผิดพลาดประเภทที่ 1 มากขึ้นและสิ่งนี้โดยปัจจัยหรือ 2 - 3
  • t-test มีพลังงานต่ำสำหรับตัวอย่างขนาดเล็ก

พูดคุย : เมื่อความแปรปรวนของประชากรสองคนนั้นเหมือนกันการทดสอบแมนน์วิทนีย์มีประสิทธิภาพสูงกว่าการทดสอบ t ในแง่ของพลังงานสำหรับขนาดตัวอย่างขนาดเล็ก แต่มีอัตราความผิดพลาดประเภทที่ 1 สูงกว่า


การทดลองที่ 2: ความแปรปรวนต่างกันค่าเฉลี่ยเดียวกัน

  • X1 : แกมม่าที่มีและดังนั้นหมายถึงและความแปรปรวนk=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2 : แกมม่าที่มีและและความแปรปรวนk=0.25θ=2 E[X2]=.5Var[X2]=1

ที่นี่เราจะไม่สามารถใช้พลังงานคอมพิวเตอร์ได้เนื่องจากการจำลองนั้นไม่มีสถานการณ์จริง อย่างไรก็ตามเราสามารถคำนวณข้อผิดพลาดประเภท 1 เมื่อและเมื่อH1Var[X1]=Var[X2]Var[X1]Var[X2]

ผลการสนทนาจากการจำลองแสดงให้เห็นว่าการทดสอบแบบทดสอบมีความทนทานต่อความแปรปรวนที่แตกต่างกันมากและข้อผิดพลาดประเภท I ใกล้เคียงกับ 5% สำหรับทุกขนาดตัวอย่าง ตามที่คาดไว้การทดสอบแมนน์วิทนีย์ทำงานได้ไม่ดีในกรณีนี้เนื่องจากไม่ได้ทดสอบความแตกต่างในค่าเฉลี่ย แต่สำหรับความแตกต่างในการแจกแจง

ป้อนคำอธิบายรูปภาพที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.