ฉันจะเปลี่ยนลำดับของคำถามเกี่ยวกับ
ฉันพบหนังสือเรียนและบันทึกการบรรยายไม่เห็นด้วยบ่อยครั้งและต้องการให้ระบบทำงานผ่านทางเลือกที่สามารถแนะนำได้อย่างปลอดภัยว่าเป็นแนวปฏิบัติที่ดีที่สุดและโดยเฉพาะอย่างยิ่งตำราหรือกระดาษที่สามารถอ้างถึงได้
น่าเสียดายที่การอภิปรายบางอย่างของปัญหานี้ในหนังสือและอื่น ๆ ขึ้นอยู่กับภูมิปัญญาที่ได้รับ บางครั้งที่ได้รับภูมิปัญญามีเหตุผลบางครั้งก็น้อยดังนั้น (อย่างน้อยในแง่ที่ว่ามันมีแนวโน้มที่จะมุ่งเน้นไปที่ปัญหาขนาดเล็กเมื่อปัญหาใหญ่จะถูกละเว้น); เราควรตรวจสอบเหตุผลที่เสนอสำหรับคำแนะนำ (หากมีเหตุผลใด ๆ ที่เสนอ) ด้วยความระมัดระวัง
คำแนะนำส่วนใหญ่ในการเลือกการทดสอบแบบ t-test หรือ non-parametric ในประเด็นเรื่องภาวะปกติ
นั่นเป็นเรื่องจริง แต่มันค่อนข้างเข้าใจผิดด้วยเหตุผลหลายประการที่ฉันตอบในคำตอบนี้
หากดำเนินการทดสอบตัวอย่างที่ไม่เกี่ยวข้องหรือไม่ใช้การทดสอบ t ว่าจะใช้การแก้ไข Welch หรือไม่
สิ่งนี้ (เพื่อใช้หากคุณไม่มีเหตุผลที่จะคิดว่าผลต่างควรเท่ากัน) คือคำแนะนำของการอ้างอิงจำนวนมาก ฉันชี้ไปที่คำตอบนี้
บางคนใช้การทดสอบสมมติฐานเพื่อความเท่าเทียมกันของความแปรปรวน แต่ที่นี่จะมีพลังงานต่ำ โดยทั่วไปฉันแค่มองว่าตัวอย่าง SDs นั้น "สมเหตุสมผล" ใกล้หรือไม่ (ซึ่งค่อนข้างเป็นอัตนัยดังนั้นจะต้องมีหลักการที่ดีกว่าในการทำมัน) แต่อีกครั้งด้วย n ต่ำอาจเป็นไปได้ว่า SDs ของประชากรค่อนข้างไกลออกไป นอกเหนือจากตัวอย่าง
จะปลอดภัยกว่าหรือไม่ที่จะใช้การแก้ไข Welch สำหรับตัวอย่างเล็ก ๆ เสมอเว้นแต่จะมีเหตุผลที่ดีที่จะเชื่อว่าความแปรปรวนของประชากรเท่ากันหรือไม่ นั่นคือสิ่งที่คำแนะนำคือ คุณสมบัติของการทดสอบได้รับผลกระทบจากตัวเลือกตามการทดสอบสมมติฐาน
การอ้างอิงบางอย่างเกี่ยวกับเรื่องนี้สามารถเห็นได้ที่นี่และที่นี่ถึงแม้จะมีมากกว่านั้นที่พูดสิ่งที่คล้ายกัน
ปัญหาความแตกต่างที่เท่ากันมีลักษณะคล้ายกับปัญหาปกติ - ผู้คนต้องการทดสอบคำแนะนำแนะนำการเลือกการทดสอบเกี่ยวกับผลการทดสอบอาจส่งผลเสียต่อผลการทดสอบที่ตามมาทั้งสองแบบ - ดีกว่าที่จะไม่คิดว่าอะไร คุณไม่สามารถพิสูจน์ได้อย่างเพียงพอ (โดยการให้เหตุผลเกี่ยวกับข้อมูลโดยใช้ข้อมูลจากการศึกษาอื่น ๆ ที่เกี่ยวข้องกับตัวแปรเดียวกันและอื่น ๆ )
อย่างไรก็ตามมีความแตกต่าง หนึ่งคือ - อย่างน้อยก็ในแง่ของการกระจายตัวของสถิติทดสอบภายใต้สมมติฐานว่าง (และด้วยเหตุนี้ระดับความแข็งแกร่งของมัน) - ไม่ใช่ภาวะปกติมีความสำคัญน้อยกว่าในกลุ่มตัวอย่างขนาดใหญ่ (อย่างน้อยในแง่ของระดับนัยสำคัญแม้ว่าอำนาจอาจ ยังคงเป็นปัญหาหากคุณต้องการค้นหาเอฟเฟกต์ขนาดเล็ก) ในขณะที่ผลกระทบของความแปรปรวนที่ไม่เท่ากันภายใต้สมมติฐานความแปรปรวนที่เท่ากันไม่ได้หายไปกับตัวอย่างขนาดใหญ่
วิธีการแบบใดที่สามารถแนะนำสำหรับการเลือกแบบทดสอบที่เหมาะสมที่สุดเมื่อขนาดตัวอย่างคือ "เล็ก"
ด้วยการทดสอบสมมติฐานสิ่งที่สำคัญ (ภายใต้เงื่อนไขบางอย่าง) เป็นหลักสองสิ่ง:
เราต้องจำไว้ว่าถ้าเราเปรียบเทียบสองขั้นตอนการเปลี่ยนอันแรกจะเปลี่ยนอันที่สอง (นั่นคือหากพวกเขาไม่ได้ดำเนินการในระดับนัยสำคัญที่แท้จริงเหมือนกันคุณคาดหวังว่าที่สูงกว่านั้นเกี่ยวข้องกับ พลังงานที่สูงขึ้น)α
ด้วยปัญหาตัวอย่างเล็ก ๆ เหล่านี้ในใจมีรายการตรวจสอบที่ดีสำหรับการทำงานเมื่อตัดสินใจระหว่างการทดสอบแบบ t และ non-parametric
ฉันจะพิจารณาหลายสถานการณ์ที่ฉันจะให้คำแนะนำโดยพิจารณาทั้งความเป็นไปได้ของความไม่เป็นมาตรฐานและความแตกต่างที่ไม่เท่ากัน ในทุกกรณีใช้การทดสอบ t-test เพื่อบ่งบอกถึงการทดสอบ Welch:
ไม่ปกติ (หรือไม่ทราบ) น่าจะมีความแปรปรวนใกล้เคียงกัน:
ถ้าการกระจายแบบเทลด์หนักคุณมักจะดีกว่ากับแมนน์ - วิทนีย์ถึงแม้ว่ามันจะหนักเพียงเล็กน้อย แต่การทดสอบ t ควรจะโอเค ด้วยหางแสงการทดสอบ t อาจ (มัก) เป็นที่ต้องการ การทดสอบการเปลี่ยนรูปเป็นทางเลือกที่ดี (คุณสามารถทดสอบการเปลี่ยนรูปได้โดยใช้สถิติแบบทีถ้าคุณชอบมาก) การทดสอบ Bootstrap ก็เหมาะสมเช่นกัน
ไม่ปกติ (หรือไม่ทราบ), ความแปรปรวนไม่เท่ากัน (หรือความสัมพันธ์แปรปรวนที่ไม่รู้จัก):
ถ้าการกระจายแบบเทลด์หนักคุณมักจะดีกว่ากับ Mann-Whitney - ถ้าความไม่เท่าเทียมกันของความแปรปรวนเกี่ยวข้องกับความไม่เท่าเทียมของค่าเฉลี่ยเท่านั้น - เช่นถ้า H0 เป็นความจริงความแตกต่างในการแพร่กระจายก็ควรไม่อยู่ GLM มักเป็นตัวเลือกที่ดีโดยเฉพาะอย่างยิ่งหากมีความเบ้และการแพร่กระจายเกี่ยวข้องกับค่าเฉลี่ย การทดสอบการเปลี่ยนรูปเป็นอีกทางเลือกหนึ่งโดยมีข้อแม้ที่คล้ายคลึงกับการทดสอบตามระดับ การทดสอบ Bootstrap เป็นไปได้ที่ดีที่นี่
Zimmerman และ Zumbo (1993)แนะนำ Welch-t-test ในตำแหน่งที่พวกเขากล่าวว่าทำงานได้ดีกว่า Wilcoxon-Mann-Whitney ในกรณีที่ความแปรปรวนไม่เท่ากัน[1]
การทดสอบยศเป็นค่าเริ่มต้นที่เหมาะสมที่นี่หากคุณคาดหวังว่าจะไม่ได้มาตรฐาน หากคุณมีข้อมูลภายนอกเกี่ยวกับรูปร่างหรือความแปรปรวนคุณอาจพิจารณา GLM หากคุณคาดหวังว่าสิ่งต่าง ๆ ไม่ควรอยู่ไกลจากปกติการทดสอบเสื้ออาจไม่เป็นผล
เนื่องจากปัญหาในการรับระดับนัยสำคัญที่เหมาะสมการทดสอบการเปลี่ยนรูปหรือการทดสอบระดับอาจไม่เหมาะสมและในขนาดที่เล็กที่สุดการทดสอบ t อาจเป็นตัวเลือกที่ดีที่สุด (มีความเป็นไปได้ที่จะทำให้มีความแข็งแกร่งเล็กน้อย) อย่างไรก็ตามมีข้อโต้แย้งที่ดีสำหรับการใช้อัตราความผิดพลาดประเภทที่สูงขึ้นกับกลุ่มตัวอย่างขนาดเล็ก (ไม่เช่นนั้นคุณจะปล่อยให้อัตราความผิดพลาด Type II เพิ่มขึ้นในขณะที่ค่าคงที่ประเภทข้อผิดพลาด I คงที่) ดูที่ Winter (2013)ด้วย[2]
คำแนะนำจะต้องได้รับการแก้ไขบ้างเมื่อการแจกแจงมีความเบ้อย่างรุนแรงและไม่ต่อเนื่องกันเช่นรายการมาตราส่วน Likert ซึ่งการสังเกตส่วนใหญ่อยู่ในหมวดหมู่สุดท้าย จากนั้น Wilcoxon-Mann-Whitney ไม่จำเป็นต้องเป็นทางเลือกที่ดีกว่าการทดสอบ t
การจำลองสามารถช่วยแนะนำทางเลือกเพิ่มเติมเมื่อคุณมีข้อมูลบางอย่างเกี่ยวกับสถานการณ์ที่อาจเกิดขึ้น
ฉันขอขอบคุณที่นี่เป็นหัวข้อตลอดกาล แต่คำถามส่วนใหญ่เกี่ยวกับชุดข้อมูลเฉพาะของผู้ถามบางครั้งเป็นการอภิปรายทั่วไปของอำนาจและบางครั้งจะทำอย่างไรถ้าการทดสอบสองครั้งไม่เห็นด้วย แต่ฉันต้องการให้กระบวนการเลือกการทดสอบที่ถูกต้องใน สถานที่แรก!
ปัญหาหลักคือความยากลำบากในการตรวจสอบสมมติฐานปกติในชุดข้อมูลขนาดเล็ก:
มันเป็นเรื่องยากที่จะตรวจสอบปกติในชุดข้อมูลที่มีขนาดเล็กและมีขอบเขตบางอย่างที่เป็นปัญหาสำคัญ แต่ผมคิดว่ามีปัญหาที่มีความสำคัญที่เราต้องพิจารณา ปัญหาพื้นฐานคือการพยายามประเมินความเป็นมาตรฐานเป็นพื้นฐานของการเลือกระหว่างการทดสอบจะส่งผลเสียต่อคุณสมบัติของการทดสอบที่คุณเลือกระหว่าง
การทดสอบอย่างเป็นทางการสำหรับภาวะปกติจะมีพลังงานต่ำดังนั้นการละเมิดอาจไม่ถูกตรวจพบ (โดยส่วนตัวแล้วฉันจะไม่ทดสอบเพื่อจุดประสงค์นี้และฉันไม่ได้อยู่คนเดียวอย่างชัดเจน แต่ฉันพบว่านี่ใช้น้อยเมื่อลูกค้าต้องการทดสอบบรรทัดฐานเพราะนั่นคือสิ่งที่ตำราเรียนหรือบันทึกการบรรยายเก่าหรือเว็บไซต์ที่พวกเขาพบครั้งเดียว ควรแจ้งให้ทราบล่วงหน้านี่เป็นจุดหนึ่งที่จะมีการอ้างอิงที่น่าเชื่อถือยิ่งขึ้น)
นี่คือตัวอย่างของการอ้างอิง (มีอื่น ๆ ) ซึ่งไม่ชัดเจน (Fay และ Proschan, 2010 ):[3]
ทางเลือกระหว่าง t- และ WMW DR ไม่ควรยึดตามการทดสอบตามปกติ
พวกเขามีความชัดเจนในทำนองเดียวกันเกี่ยวกับการไม่ทดสอบความเท่าเทียมกันของความแปรปรวน
เพื่อทำให้เรื่องแย่ลงมันไม่ปลอดภัยที่จะใช้ทฤษฎีขีด จำกัด กลางในฐานะเครือข่ายความปลอดภัย: สำหรับขนาดเล็กเราไม่สามารถเชื่อถือได้จากมาตรฐานเชิงเส้นกำกับที่สะดวกของสถิติการทดสอบและการแจกแจงแบบ t
หรือแม้กระทั่งในกลุ่มตัวอย่างขนาดใหญ่ - ค่าเฉลี่ยเชิงเส้นกำกับของตัวเศษไม่ได้บอกเป็นนัยว่าสถิติเชิงสถิติจะมีการแจกแจงแบบที อย่างไรก็ตามนั่นอาจไม่สำคัญมากนักเนื่องจากคุณยังควรมีมาตรฐานเชิงเส้นกำกับ (เช่น CLT สำหรับตัวเศษและทฤษฎีของ Slutsky แนะนำว่าในที่สุดสถิติสถิติควรเริ่มดูเป็นปกติถ้าเงื่อนไขสำหรับทั้งคู่)
หลักการหนึ่งที่ตอบสนองต่อสิ่งนี้คือ "ปลอดภัยไว้ก่อน": เนื่องจากไม่มีวิธีที่จะตรวจสอบความน่าเชื่อถือของสมมติฐานเชิงบรรทัดฐานในตัวอย่างขนาดเล็กได้
นั่นคือคำแนะนำที่การอ้างอิงที่ฉันพูดถึง (หรือลิงก์ไปยังที่กล่าวถึง) ให้
อีกวิธีหนึ่งที่ฉันเห็น แต่ไม่สบายใจคือทำการตรวจสอบด้วยตาเปล่าและดำเนินการทดสอบ t-test หากไม่พบสิ่งใดที่ไม่ดี ("ไม่มีเหตุผลที่จะปฏิเสธความเป็นปกติ" โดยไม่สนใจพลังงานต่ำของเช็คนี้) ความชอบส่วนบุคคลของฉันคือการพิจารณาว่ามีเหตุผลใด ๆ สำหรับการสมมติบรรทัดฐานทางทฤษฎีหรือไม่ (เช่นตัวแปรคือผลรวมขององค์ประกอบสุ่มหลายรายการและ CLT ใช้) หรือเชิงประจักษ์ (เช่นการศึกษาก่อนหน้านี้ที่มีขนาดใหญ่กว่า
ทั้งคู่เป็นข้อโต้แย้งที่ดีโดยเฉพาะเมื่อสำรองข้อมูลด้วยความจริงที่ว่า t-test นั้นมีความแข็งแกร่งพอสมควรเมื่อเทียบกับค่าเบี่ยงเบนปานกลางจากค่าปกติ (เราควรจำไว้ว่า "การเบี่ยงเบนระดับปานกลาง" เป็นวลีที่ยุ่งยากการเบี่ยงเบนบางอย่างจากภาวะปกติอาจส่งผลกระทบต่อประสิทธิภาพการทำงานของการทดสอบทีค่อนข้างเล็กน้อยแม้ว่าการเบี่ยงเบนเหล่านั้นมีขนาดเล็กมาก การทดสอบนั้นมีความแข็งแกร่งน้อยกว่าการเบี่ยงเบนบางอย่างมากกว่าการทดสอบอื่น ๆ เราควรระลึกไว้เสมอเมื่อใดก็ตามที่เรากำลังพูดถึงการเบี่ยงเบนเล็กน้อยจากภาวะปกติ)
อย่างไรก็ตามระวังให้ใช้ถ้อยคำ "แนะนำตัวแปรเป็นเรื่องปกติ" การมีเหตุผลที่สอดคล้องกับภาวะปกติไม่ใช่สิ่งเดียวกันกับความปกติ เรามักจะปฏิเสธความเป็นจริงที่เกิดขึ้นจริงโดยไม่จำเป็นต้องแม้แต่มองเห็นข้อมูลตัวอย่างเช่นถ้าข้อมูลไม่สามารถลบได้การแจกแจงไม่ปกติ โชคดีที่สิ่งสำคัญอยู่ใกล้กับสิ่งที่เราอาจมีจริงจากการศึกษาก่อนหน้านี้หรือเหตุผลเกี่ยวกับวิธีการประกอบข้อมูลซึ่งก็คือการเบี่ยงเบนจากปกติควรมีขนาดเล็ก
ถ้าเป็นเช่นนั้นฉันจะใช้การทดสอบแบบ t ถ้าข้อมูลผ่านการตรวจสอบด้วยภาพและมิฉะนั้นจะยึดติดกับพารามิเตอร์ที่ไม่ใช่ แต่พื้นที่ทางทฤษฎีหรือเชิงประจักษ์มักจะแสดงให้เห็นถึงการคาดคะเนความปกติโดยประมาณและในระดับที่ต่ำเสรีภาพมันยากที่จะตัดสินว่าใกล้ปกติมันต้องเพื่อหลีกเลี่ยงการทำให้การทดสอบ t
นั่นคือสิ่งที่เราสามารถประเมินผลกระทบของความเป็นธรรมได้อย่างง่ายดาย (เช่นผ่านการจำลองตามที่ฉันได้กล่าวไว้ก่อนหน้านี้) จากสิ่งที่ฉันเห็นความเบ้ดูเหมือนว่าจะมีความสำคัญมากกว่าหางที่มีน้ำหนักมาก (แต่ในทางกลับกันฉันได้เห็นการเรียกร้องของสิ่งที่ตรงกันข้าม - แม้ว่าฉันจะไม่รู้ว่ามันมีพื้นฐานมาจากอะไร)
สำหรับผู้ที่เห็นทางเลือกของวิธีการที่เป็นการแลกเปลี่ยนระหว่างอำนาจและความทนทานการอ้างถึงประสิทธิภาพเชิงซีมโทติคของวิธีการแบบไม่อิงพารามิเตอร์นั้นไม่ช่วยเหลือ ตัวอย่างเช่นกฎง่ายๆที่ "การทดสอบ Wilcoxon มีพลังของการทดสอบ t-test ประมาณ 95% ถ้าข้อมูลเป็นเรื่องปกติจริง ๆ และมักจะมีประสิทธิภาพมากกว่าถ้าข้อมูลไม่ได้ดังนั้นเพียงแค่ใช้ Wilcoxon" บางครั้ง ได้ยิน แต่ถ้า 95% ใช้ได้กับ n ขนาดใหญ่เท่านั้นนี่คือเหตุผลที่มีข้อบกพร่องสำหรับตัวอย่างที่เล็กกว่า
แต่เราสามารถตรวจสอบพลังงานตัวอย่างเล็กน้อยได้อย่างง่ายดาย! มันเป็นเรื่องง่ายมากพอที่จะจำลองเพื่อให้ได้เส้นโค้งอำนาจเป็นที่นี่
(อีกครั้งโปรดดู de Winter (2013) )[2]
หลังจากทำการจำลองสถานการณ์เช่นนี้ในสถานการณ์ต่าง ๆ ทั้งในกรณีที่มีสองตัวอย่างและหนึ่งตัวอย่าง / จับคู่ต่างกันประสิทธิภาพของตัวอย่างขนาดเล็กที่ปกติในทั้งสองกรณีดูเหมือนว่าจะต่ำกว่าประสิทธิภาพเชิงซีโมติก แต่เล็กน้อยประสิทธิภาพ จากอันดับที่ลงนามและการทดสอบ Wilcoxon-Mann-Whitney ยังคงสูงมากแม้ในขนาดตัวอย่างที่เล็กมาก
อย่างน้อยนั่นคือถ้าการทดสอบเสร็จในระดับนัยสำคัญที่แท้จริงเดียวกัน คุณไม่สามารถทำการทดสอบ 5% กับตัวอย่างที่มีขนาดเล็กมาก (และอย่างน้อยก็ไม่ใช่โดยไม่มีการทดสอบแบบสุ่ม) แต่ถ้าคุณเตรียมที่จะทำ (พูด) การทดสอบ 5.5% หรือ 3.2% แทนการทดสอบยศ ถือได้เป็นอย่างดีเมื่อเทียบกับการทดสอบทีในระดับความสำคัญนั้น
ตัวอย่างขนาดเล็กอาจทำให้ยากมากหรือเป็นไปไม่ได้ในการประเมินว่าการแปลงเหมาะสมสำหรับข้อมูลหรือไม่เนื่องจากเป็นการยากที่จะบอกว่าข้อมูลที่ถูกแปลงเป็นของการแจกแจงปกติ (เพียงพอ) หรือไม่ ดังนั้นหากพล็อต QQ แสดงข้อมูลที่เบ้ในทางบวกซึ่งดูสมเหตุสมผลกว่าหลังจากการบันทึกมันปลอดภัยไหมที่จะใช้การทดสอบ t-data กับข้อมูลที่บันทึกไว้? ในตัวอย่างที่มีขนาดใหญ่กว่านี้น่าดึงดูดมาก แต่ด้วย n ตัวเล็ก ๆ ฉันอาจจะไม่สนใจเว้นแต่จะมีเหตุให้คาดหวังว่าจะมีการแจกแจงล็อกปกติในตอนแรก
มีทางเลือกอื่น: สร้างสมมติฐานที่แตกต่างกัน ตัวอย่างเช่นหากมีข้อมูลที่เบ้ตัวอย่างเช่นในบางสถานการณ์อาจพิจารณาการกระจายของแกมม่าหรือตระกูลที่เบ้อื่น ๆ เป็นการประมาณที่ดีกว่า - ในกลุ่มตัวอย่างขนาดใหญ่พอสมควรเราอาจใช้ GLM แต่ในกลุ่มตัวอย่างขนาดเล็กมาก อาจจำเป็นต้องดูการทดสอบตัวอย่างขนาดเล็ก - ในหลายกรณีการจำลองอาจมีประโยชน์
ทางเลือกที่ 2: เพิ่มความแข็งแกร่งให้กับการทดสอบ t-test (แต่การดูแลเกี่ยวกับทางเลือกของกระบวนการที่มีประสิทธิภาพเพื่อที่จะไม่แยกแยะการกระจายตัวของสถิติการทดสอบอย่างหนัก) - สิ่งนี้มีข้อดีกว่ากระบวนการที่ไม่ใช่พารามิเตอร์ขนาดเล็กมากตัวอย่างเช่นความสามารถ เพื่อพิจารณาการทดสอบที่มีอัตราความผิดพลาดต่ำกว่าประเภทที่ 1
ที่นี่ฉันกำลังคิดตามบรรทัดการใช้พูดตัวประมาณค่า M ของตำแหน่ง (และตัวประมาณค่าที่เกี่ยวข้องของมาตราส่วน) ในสถิติ t เพื่อปรับค่าได้อย่างราบรื่นเมื่อเทียบกับส่วนเบี่ยงเบนจากค่าปกติ บางสิ่งบางอย่างคล้ายกับ Welch เช่น:
x∼−y∼S∼p
โดยที่และ ,ฯลฯ เป็นการประเมินสถานที่และมาตราส่วนตามลำดับS∼2p=s∼2xnx+s∼2ynyx∼s∼x
ฉันจะตั้งเป้าหมายที่จะลดแนวโน้มของสถิติให้เหลือน้อยที่สุดดังนั้นฉันจะหลีกเลี่ยงสิ่งต่าง ๆ เช่นการตัดแต่งและ Winsorizing เนื่องจากถ้าข้อมูลต้นฉบับไม่ต่อเนื่องการตัดแต่ง ฯลฯ จะทำให้เรื่องนี้รุนแรงขึ้น โดยใช้วิธีการประมาณค่าชนิด M ด้วยฟังก์ชันราบรื่นคุณจะได้รับเอฟเฟกต์ที่คล้ายกันโดยไม่ทำให้เกิดความแตกต่าง โปรดทราบว่าเรากำลังพยายามจัดการกับสถานการณ์ที่มีขนาดเล็กมากจริง ๆ (ประมาณ 3-5 ในแต่ละตัวอย่างพูด) ดังนั้นแม้การประมาณค่า M อาจมีปัญหาψn
ตัวอย่างเช่นคุณสามารถใช้การจำลองที่ปกติเพื่อรับค่า p (ถ้าขนาดตัวอย่างมีขนาดเล็กมากฉันแนะนำว่า over bootstrapping - หากขนาดตัวอย่างไม่เล็กมาก bootstrap ที่นำมาใช้อย่างระมัดระวังอาจทำได้ค่อนข้างดี แต่จากนั้นเราก็อาจกลับไปที่ Wilcoxon-Mann-Whitney) มีปัจจัยที่ปรับขนาดเช่นเดียวกับการปรับ df เพื่อให้ได้สิ่งที่ฉันคิดว่าจะเป็นการประมาณที่เหมาะสม ซึ่งหมายความว่าเราควรได้รับคุณสมบัติที่เราต้องการใกล้เคียงกับปกติและควรมีความทนทานที่เหมาะสมในบริเวณใกล้เคียงปกติ มีหลายประเด็นที่เกิดขึ้นซึ่งจะอยู่นอกขอบเขตของคำถามปัจจุบัน แต่ฉันคิดว่าในตัวอย่างเล็ก ๆ ผลประโยชน์ควรมีมากกว่าค่าใช้จ่ายและความพยายามพิเศษที่จำเป็น
[ฉันไม่ได้อ่านวรรณกรรมเกี่ยวกับสิ่งนี้เป็นเวลานานมากดังนั้นฉันจึงไม่มีการอ้างอิงที่เหมาะสมที่จะเสนอในคะแนนนั้น]
แน่นอนถ้าคุณไม่คาดหวังว่าการกระจายจะค่อนข้างปกติ แต่คล้ายกับการกระจายตัวอื่น ๆ คุณสามารถทำการทดสอบที่เหมาะสมสำหรับการทดสอบพาราเมตริกที่แตกต่างกันได้
ถ้าคุณต้องการตรวจสอบสมมติฐานสำหรับ non-parametrics แหล่งข้อมูลบางแห่งแนะนำให้ตรวจสอบการกระจายแบบสมมาตรก่อนที่จะใช้การทดสอบ Wilcoxon ซึ่งจะทำให้เกิดปัญหาคล้ายกันในการตรวจสอบความเป็นมาตรฐาน
จริง ฉันถือว่าคุณหมายถึงการทดสอบระดับที่เซ็นชื่อ * ในกรณีที่ใช้งานกับข้อมูลที่จับคู่หากคุณพร้อมที่จะสมมติว่าการแจกแจงสองแบบนั้นมีรูปร่างเดียวกันนอกเหนือจากการเปลี่ยนตำแหน่งคุณจะปลอดภัยเนื่องจากความแตกต่างควรเป็นแบบสมมาตร ที่จริงแล้วเราไม่ต้องการสิ่งนั้นมากนัก สำหรับการทดสอบในการทำงานคุณต้องมีสมมาตรภายใต้ศูนย์ ไม่จำเป็นต้องอยู่ภายใต้ทางเลือกอื่น (เช่นพิจารณาสถานการณ์ที่จับคู่กับการแจกแจงแบบต่อเนื่องที่มีรูปร่างเหมือนกันบิดเบือนในครึ่งเส้นบวกซึ่งเครื่องชั่งแตกต่างกันภายใต้ทางเลือก แต่ไม่ใช่ภายใต้ค่า null; กรณีนั้น) การตีความการทดสอบนั้นง่ายกว่าหากมีการเปลี่ยนตำแหน่ง
* (ชื่อ Wilcoxon มีความสัมพันธ์กับการทดสอบอันดับหนึ่งและสองตัวอย่าง - การจัดอันดับที่ลงนามและผลรวมอันดับด้วยการทดสอบ U ของพวกเขา Mann และ Whitney สรุปสถานการณ์ที่ศึกษาโดย Wilcoxon และแนะนำแนวคิดใหม่ที่สำคัญสำหรับการประเมินการแจกแจงโมฆะ ลำดับความสำคัญระหว่างผู้แต่งสองคนใน Wilcoxon-Mann-Whitney นั้นชัดเจนว่า Wilcoxon - อย่างน้อยถ้าเราพิจารณาเพียงแค่ Wilcoxon กับ Mann & Whitney Wilcoxon จะไปเป็นคนแรกในหนังสือของฉันอย่างไรก็ตามดูเหมือนว่ากฎของ Stigler จะชนะฉันอีกครั้ง ควรแบ่งปันบางส่วนของลำดับความสำคัญนั้นกับผู้ให้ข้อมูลก่อนหน้านี้จำนวนหนึ่งและ (นอกเหนือจากแมนน์และวิทนีย์) ควรแบ่งปันเครดิตกับผู้ค้นพบหลายคนที่มีการทดสอบที่เทียบเท่า [4] [5])
อ้างอิง
[1]: Zimmerman DW และ Zumbo BN, (1993), การ
จัดอันดับการเปลี่ยนแปลงและพลังของนักเรียน t-test และ Welch t′-test สำหรับประชากรที่ไม่ปกติ,
วารสารจิตวิทยาการทดลองของแคนาดา, 47 : 523–39
[2]: JCF de Winter (2013),
"การใช้การทดสอบ t-test ของนักเรียนด้วยขนาดตัวอย่างที่เล็กมาก"
การประเมินการปฏิบัติ, การวิจัยและการประเมินผล , 18 : 10, สิงหาคม, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10
[3]: Michael P. Fay และ Michael A. Proschan (2010),
"Wilcoxon-Mann-Whitney หรือ t-test? บนสมมติฐานสำหรับการทดสอบสมมติฐานและการตีความที่หลากหลายของกฎการตัดสินใจ"
Stat Surv ; 4 : 1–39
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/
[4]: Berry, KJ, Mielke, PW และ Johnston, JE (2012),
"การทดสอบผลรวมอันดับสองตัวอย่าง: การพัฒนาในช่วงต้น"
วารสารอิเล็กทรอนิกส์สำหรับประวัติศาสตร์ความน่าจะเป็นและสถิติ , Vol.8, ธันวาคม
pdf
[5]: Kruskal, WH (1957),
"บันทึกประวัติศาสตร์ในการทดสอบสองตัวอย่างวิลค็อกสันunpaired,"
วารสารสมาคมสถิติอเมริกัน , 52 , 356–360